OpenAI เปิดตัวโมเดลใหม่สำหรับ Realtime API เพื่อยกระดับการสนทนาแบบเรียลไทม์
OpenAI ผู้พัฒนาเทคโนโลยีปัญญาประดิษฐ์ชั้นนำ ได้ประกาศเปิดตัวโมเดลใหม่สองตัวสำหรับ Realtime API ซึ่งเป็นเครื่องมือที่ช่วยให้เกิดการสนทนาแบบหลายรูปแบบ (multimodal) ด้วยความหน่วงต่ำ โดยโมเดลเหล่านี้ประกอบด้วย gpt-4o-realtime-preview ซึ่งเป็นโมเดลหลัก และ gpt-4o-mini-realtime-preview ซึ่งเป็นตัวเลือกที่ประหยัดต้นทุนมากกว่า โมเดลทั้งสองนี้ถูกออกแบบมาเพื่อรองรับการใช้งานในแอปพลิเคชันที่ต้องการปฏิสัมพันธ์แบบเรียลไทม์ เช่น ผู้ช่วยเสียงอัจฉริยะ การแปลภาษาแบบสด และการสนทนาที่ซับซ้อน โดยสามารถจัดการเสียง พูด และวิสัยทัศน์ได้อย่างมีประสิทธิภาพ
Realtime API ของ OpenAI เป็นส่วนสำคัญในการพัฒนาแอปพลิเคชันที่ต้องการการตอบสนองทันที โดยก่อนหน้านี้ API นี้รองรับโมเดล gpt-4o-mini-realtime-preview เท่านั้น แต่การอัปเดตครั้งนี้ทำให้ gpt-4o-realtime-preview เข้ามาเป็นตัวเลือกหลัก ซึ่งนำเสนอคุณภาพสูงสุดในด้านการรับรู้เสียง (speech recognition) การสังเคราะห์เสียง (speech synthesis) และการประมวลผลภาษาธรรมชาติ (natural language processing) โมเดล gpt-4o-realtime-preview มีความสามารถในการตรวจจับการสิ้นสุดการพูด (turn detection) การตรวจจับกิจกรรมเสียง (voice activity detection) และการจัดการการขัดจังหวะ (interruption handling) ทำให้การสนทนาไหลลื่นและเป็นธรรมชาติมากขึ้น นอกจากนี้ ยังรองรับการเรียกใช้ฟังก์ชัน (function calling) และการส่งผ่านเครื่องมือ (tool calling) เพื่อเชื่อมต่อกับระบบภายนอกได้อย่างราบรื่น
ในด้านประสิทธิภาพ gpt-4o-realtime-preview สามารถลดความหน่วง (latency) ลงเหลือเพียง 200-300 มิลลิวินาทีสำหรับการตอบสนองแบบ end-to-end ซึ่งต่ำกว่าค่าเฉลี่ยของอุตสาหกรรม ทำให้เหมาะสำหรับการใช้งานที่ต้องการความรวดเร็วสูง เช่น การสนทนากับผู้ช่วย AI ในรถยนต์หรืออุปกรณ์ IoT นอกจากนี้ โมเดลนี้ยังปรับปรุงคุณภาพเสียงให้ชัดเจนและเป็นธรรมชาติมากขึ้น โดยใช้เทคโนโลยีจาก gpt-4o ซึ่งเป็นโมเดล multimodal ที่ได้รับการฝึกฝนมาอย่างดี รองรับการประมวลผลเสียง วิสัยทัศน์ และข้อความพร้อมกัน
สำหรับ gpt-4o-mini-realtime-preview ซึ่งเป็นโมเดลขนาดเล็กกว่า มีจุดเด่นในด้านต้นทุนที่ต่ำกว่า โดยราคาอยู่ที่ประมาณ 1.10 ดอลลาร์ต่อ 1 ล้าน input tokens และ 4.40 ดอลลาร์ต่อ 1 ล้าน output tokens ซึ่งถูกกว่า gpt-4o-realtime-preview เกือบสองเท่า โมเดลนี้เหมาะสำหรับการใช้งานในปริมาณมากหรือแอปพลิเคชันที่เน้นความประหยัด โดยยังคงรักษาคุณสมบัติหลักทั้งหมดไว้ เช่น การจัดการเสียงแบบเรียลไทม์และการรองรับ interruption ทั้งสองโมเดลใช้ WebSocket สำหรับการสื่อสาร ทำให้开发者 สามารถสร้างแอปพลิเคชันที่เชื่อมต่อแบบสองทางได้อย่างมีประสิทธิภาพ
การเปิดตัวโมเดลเหล่านี้เกิดขึ้นหลังจากการพัฒนาต่อเนื่องของ Realtime API ซึ่งเปิดตัวครั้งแรกในเดือนตุลาคม โดยได้รับความนิยมจากนักพัฒนากว่า 30,000 รายทั่วโลก OpenAI ระบุว่า โมเดลใหม่นี้ปรับปรุงจาก feedback ของผู้ใช้งาน โดยเฉพาะในด้านความหน่วงและคุณภาพเสียง ซึ่งตอนนี้ดีขึ้นกว่าเวอร์ชันก่อนหน้าถึง 2 เท่า นอกจากนี้ ยังเพิ่มความสามารถในการจัดการเสียงหลายภาษาและสำเนียงที่หลากหลาย ทำให้เหมาะสำหรับตลาดระดับโลก
นักพัฒนาสามารถเข้าถึงโมเดลเหล่านี้ได้ทันทีผ่าน OpenAI Platform ในโหมดเบต้า โดยต้องสมัครใช้งาน Realtime API และกำหนดค่าโมเดลใน WebSocket session ตัวอย่างโค้ดสำหรับการใช้งานมีให้ดาวน์โหลดในเอกสารประกอบของ OpenAI ซึ่งรองรับภาษาโปรแกรมมิ่งหลัก เช่น Python, JavaScript และอื่นๆ OpenAI แนะนำให้ทดสอบทั้งสองโมเดลเพื่อเลือกใช้งานให้เหมาะสมกับ use case โดย gpt-4o-realtime-preview เหมาะสำหรับแอปพลิเคชันที่ต้องการคุณภาพสูงสุด ในขณะที่ gpt-4o-mini-realtime-preview เหมาะสำหรับการスケลได้สูง
การอัปเดตนี้เป็นส่วนหนึ่งในยุทธศาสตร์ของ OpenAI ในการขยายขอบเขตของ API สู่การใช้งาน enterprise โดยคาดว่าจะช่วยให้บริษัทต่างๆ สร้างผลิตภัณฑ์ AI ที่แข่งขันได้ในตลาด เช่น แอปพลิเคชันการประชุมเสมือนจริง การศึกษาแบบ互动 และบริการลูกค้าอัตโนมัติ นอกจากนี้ OpenAI ยังวางแผนปรับปรุงเพิ่มเติมในอนาคต เช่น การรองรับวิสัยทัศน์แบบเรียลไทม์เต็มรูปแบบและการบูรณาการกับเครื่องมืออื่นๆ
โดยรวมแล้ว การเปิดตัว gpt-4o-realtime-preview และ gpt-4o-mini-realtime-preview ถือเป็นก้าวสำคัญที่ทำให้ Realtime API กลายเป็นเครื่องมือหลักสำหรับนักพัฒนาที่ต้องการสร้างประสบการณ์สนทนา AI แบบเรียลไทม์ที่มีประสิทธิภาพสูง ลดต้นทุน และปรับขนาดได้ง่าย ซึ่งจะช่วยเร่งการนำ AI ไปใช้ในธุรกิจหลากหลายอุตสาหกรรม
(จำนวนคำประมาณ 720 คำ)
This Article is sponsored by Gnoppix AI (https://www.gnoppix.org)