แล็บ Thinking Machines เปิดตัวโมเดลแรกและโต้แย้งว่า OpenAI เข้าใจผิดเกี่ยวกับเสียงด้วยการเน้น interactivity
แล็บ Thinking Machines ซึ่งก่อตั้งโดยอดีตนักวิจัยจาก Google ได้เปิดตัวโมเดลปัญญาประดิษฐ์เสียงรุ่นแรกชื่อ Muse-1 โดยโมเดลนี้เป็นโมเดลแบบ open weights ที่สามารถใช้งานได้ฟรีและปรับแต่งได้ แล็บดังกล่าวยืนยันว่าโมเดลของตนมุ่งเน้นไปที่ความสามารถในการโต้ตอบแบบเรียลไทม์ (interactivity) ซึ่งเป็นจุดที่ OpenAI ทำผิดพลาดในการพัฒนาโหมดเสียงของ GPT-4o
ตามที่ระบุในบทความจาก The Decoder แล็บ Thinking Machines เชื่อว่าโหมดเสียงขั้นสูง (Advanced Voice Mode) ของ OpenAI ยังไม่ใช่การโต้ตอบที่แท้จริง แม้ OpenAI จะอ้างว่าเป็น multimodal voice แต่ในความเป็นจริง มันเป็นกระบวนการแบบ sequential หรือแบบต่อเนื่องทีละขั้นตอน คือ ฟัง คิด แล้วพูด ซึ่งทำให้เกิดความล่าช้าและขาดความเป็นธรรมชาติในการสนทนา สิ่งนี้ขัดแย้งกับนิยามของ interactivity ที่แท้จริง ซึ่งต้องมี latency ต่ำมากเพื่อให้ผู้ใช้สามารถขัดจังหวะ (barge-in) ได้อย่างราบรื่น เช่นเดียวกับการสนทนากับมนุษย์จริงๆ
Muse-1 ของ Thinking Machines Lab แตกต่างออกไปโดยสิ้นเชิง โมเดลนี้ถูกออกแบบมาเพื่อรองรับการสตรีมมิงแบบเรียลไทม์ (real-time streaming) ทำให้สามารถประมวลผลเสียงเข้าและเสียงออกได้พร้อมกัน โดยมีความหน่วง (latency) ต่ำเพียง 200 มิลลิวินาที ซึ่งใกล้เคียงกับการสนทนาธรรมชาติ ผู้ใช้สามารถพูดแทรกได้ทุกเมื่อ และโมเดลจะปรับตัวทันทีโดยไม่ต้องรอให้จบประโยค นอกจากนี้ Muse-1 ยังรองรับการแสดงอารมณ์ทางเสียง (prosody) เช่น การเน้นน้ำเสียง การหยุดพัก และการเปลี่ยนโทน เพื่อให้การตอบสนองดูมีชีวิตชีวามากขึ้น
ในด้านเทคนิค Muse-1 เป็นโมเดลขนาด 3 พันล้านพารามิเตอร์ (3B parameters) ที่ฝึกฝนด้วยข้อมูลเสียงขนาดใหญ่ โดยใช้สถาปัตยกรรมที่ผสมผสานระหว่าง language model กับ acoustic model เพื่อให้เกิดการประมวลผล end-to-end โมเดลนี้เปิดให้ดาวน์โหลดน้ำหนัก (weights) ฟรีบน Hugging Face ทำให้นักพัฒนาสามารถนำไป fine-tune หรือรวมเข้ากับแอปพลิเคชันต่างๆ ได้ทันที แล็บ Thinking Machines เน้นย้ำว่าโมเดล open-source นี้จะช่วยเร่งนวัตกรรมในวงการ voice AI โดยไม่ถูกจำกัดด้วย closed model อย่างของ OpenAI
การโต้แย้งหลักของแล็บต่อ OpenAI คือ การที่ GPT-4o voice mode ยังคงยึดติดกับ paradigm แบบ turn-based ซึ่งคล้ายกับ chatbot ทั่วไป ผู้ใช้ต้องรอให้ AI พูดจบก่อนจึงจะพูดได้ ส่งผลให้เกิดปัญหาเช่น การพูดทับกัน (overtalk) หรือการสนทนาที่ดู robotic Thinking Machines Lab ชี้ว่า interactivity ที่แท้จริงต้องวัดจาก end-to-end latency, interruption handling, และ natural turn-taking ซึ่ง Muse-1 ทำได้ดีกว่า โดยในเดโมที่เผยแพร่ ผู้ใช้สามารถถาม-ตอบแบบต่อเนื่อง เช่น ถามเกี่ยวกับสูตรอาหารแล้วขัดจังหวะเพื่อเปลี่ยนส่วนผสมได้ทันที โดย AI ปรับสูตรใหม่โดยไม่สะดุด
นอกจากนี้ แล็บยังอธิบายถึงความท้าทายทางเทคนิคในการสร้างโมเดลดังกล่าว เช่น การจัดการกับ noise ในสภาพแวดล้อมจริง การรองรับสำเนียงหลากหลาย และการรักษาความสมจริงของเสียง Muse-1 ถูกฝึกด้วยชุดข้อมูลที่ครอบคลุมภาษาอังกฤษและภาษาอื่นๆ โดยเน้นคุณภาพมากกว่าปริมาณ เพื่อให้เกิดการ generalize ที่ดี ผู้ก่อตั้งแล็บซึ่งมีประสบการณ์จาก Google Brain ยังวางแผนปล่อยโมเดลรุ่นต่อไปที่ใหญ่ขึ้นและรองรับ multilingual มากขึ้นในอนาคต
การเปิดตัว Muse-1 นี้ถือเป็นก้าวสำคัญในวงการ AI โดยเฉพาะ voice AI ที่กำลังเติบโตอย่างรวดเร็ว ตามรายงานตลาด คาดว่าตลาด voice assistant จะมีมูลค่ากว่า 50 พันล้านดอลลาร์สหรัฐภายในปี 2028 Thinking Machines Lab มองว่านี่คือโอกาสสำหรับนักพัฒนาอิสระที่จะแข่งขันกับยักษ์ใหญ่อย่าง OpenAI, Google และ Anthropic โดยอาศัย openness และ interactivity เป็นจุดเด่น
ในท้ายที่สุด แล็บ Thinking Machines เชื่อว่าการพัฒนา voice AI ต้องมุ่งสู่ “human-like interaction” ที่ไม่ใช่แค่การพูด แต่เป็นการสนทนาที่ไหลลื่นและตอบสนองได้ทันใจ Muse-1 จึงไม่ใช่แค่โมเดลแรก แต่เป็น manifesto ต่อต้านการผูกขาดของ closed AI และเปิดทางสู่ยุคใหม่ของ interactive voice technology
(จำนวนคำประมาณ 720 คำ)
This Article is sponsored by Gnoppix AI (https://www.gnoppix.org)