Hume AI เปิดซอร์ส TADA โมเดลสังเคราะห์เสียงพูดที่เร็วกว่า对手 5 เท่า โดยปราศจากคำหลอนทั้งสิ้น
Hume AI บริษัทผู้พัฒนาเทคโนโลยีปัญญาประดิษฐ์ทางภาษาและอารมณ์ ได้ประกาศเปิดซอร์สโมเดลสังเคราะห์เสียงพูด TADA ซึ่งเป็นโมเดลที่โดดเด่นด้วยความเร็วในการประมวลผลสูงกว่าคู่แข่งถึง 5 เท่า และที่สำคัญคือไม่มีการหลอนของคำพูด (hallucination) แม้แต่คำเดียว โมเดลนี้ชื่อเต็มว่า TADA-1.2B มีพารามิเตอร์ทั้งหมด 1.2 พันล้านตัว และถูกออกแบบมาเพื่อการสังเคราะห์เสียงพูดแบบเรียลไทม์ (real-time speech synthesis) โดยให้ผลลัพธ์ที่มีความแม่นยำสูงสุด
TADA ถือเป็นก้าวสำคัญในวงการปัญญาประดิษฐ์ด้านการสร้างเสียงพูด เนื่องจากแก้ปัญหาหลักสองประการของโมเดลรุ่นก่อนหน้า ได้แก่ ความเร็วในการประมวลผลที่ช้าและการหลอนของเนื้อหา ซึ่งหมายถึงการเพิ่มหรือตัดคำที่ไม่ได้อยู่ในข้อความต้นทาง การหลอนดังกล่าวเป็นปัญหาเรื้อรังในโมเดล TTS (Text-to-Speech) ทั่วไป แต่ TADA สามารถผลิตเสียงพูดที่ตรงกับข้อความ input 100% โดยไม่มีการผิดเพี้ยน
ประสิทธิภาพที่เหนือชั้นของ TADA
ในการทดสอบเบนช์มาร์ก TADA แสดงศักยภาพที่โดดเด่น โดยเฉพาะในด้านความเร็วและความแม่นยำ Hume AI เปรียบเทียบ TADA กับโมเดลชั้นนำอื่นๆ เช่น ElevenLabs Eleven Multilingual v2, OpenAI TTS-1-HD, และ XTTS-v2 ผลการทดสอบชี้ให้เห็นว่า TADA สามารถประมวลผลได้เร็วกว่า 5 เท่า โดยวัดจาก Real-Time Factor (RTF) ซึ่งเป็นตัวชี้วัดมาตรฐานสำหรับความเร็วในการสังเคราะห์เสียง
ตัวอย่างเช่น ในภาษาอังกฤษ TADA มี RTF เพียง 0.12 เทียบกับ ElevenLabs ที่ 0.62 และ OpenAI ที่ 0.58 ในภาษาญี่ปุ่น TADA ทำได้ RTF 0.15 ขณะที่คู่แข่งอยู่ที่ 0.75-0.92 นอกจากนี้ ในด้าน Word Error Rate (WER) ซึ่งวัดความคลาดเคลื่อนของคำ TADA บรรลุ WER 0% ทุกกรณี โดยไม่มีการหลอนคำเพิ่มหรือตัดทอน ในขณะที่โมเดลอื่นๆ มี WER สูงถึง 5-15% ในบางภาษา
TADA ยังรองรับหลายภาษา รวมถึงอังกฤษ ญี่ปุ่น เกาหลี จีนกลาง สเปน ฝรั่งเศส เยอรมัน และโปรตุเกส โดยรักษาความเร็วและความแม่นยำในทุกระดับภาษา การทดสอบใช้ชุดข้อมูล LibriSpeech, CSS10, และ Japanese Single Speaker Speech Dataset เพื่อยืนยันประสิทธิภาพ
เทคโนโลยีเบื้องหลัง TADA
TADA ถูกฝึกฝนด้วยข้อมูลเสียงพูดมากกว่า 1 ล้านชั่วโมง จากแหล่งข้อมูลหลากหลาย เพื่อให้ครอบคลุมสำเนียงและบริบทต่างๆ โมเดลนี้ใช้สถาปัยกรรมแบบ Diffusion Transformer (DiT) ซึ่งเป็นนวัตกรรมที่ช่วยเพิ่มความเร็วและลด latency โดยไม่สูญเสียคุณภาพเสียง
จุดเด่นอีกประการคือ ความสามารถในการควบคุมสไตล์การพูด (style control) ผู้ใช้สามารถปรับ prosody เช่น จังหวะ ความเร็ว และน้ำเสียง เพื่อให้เหมาะสมกับการใช้งานจริง เช่น ในแอปพลิเคชัน chatbot, audiobook หรือ virtual assistant นอกจากนี้ TADA ยังมีขนาดโมเดลที่กะทัดรัด ทำให้เหมาะสำหรับการ deploy บนอุปกรณ์ edge computing
Hume AI ย้ำว่า TADA-1.2B เป็นเวอร์ชันแรกของชุดโมเดล TADA ซึ่งมีแผนพัฒนาต่อไปเพื่อเพิ่มภาษาและฟีเจอร์ใหม่ๆ โดยปัจจุบันสามารถใช้งานได้ผ่าน Hugging Face Hub ภายใต้ใบอนุญาต Apache 2.0 ที่เปิดกว้างสำหรับนักพัฒนาและธุรกิจ
การเปรียบเทียบกับคู่แข่ง
ตารางเบนช์มาร์กที่ Hume AI เผยแพร่แสดงให้เห็นความได้เปรียบชัดเจน:
| โมเดล | ภาษา | RTF | WER (%) |
|---|---|---|---|
| TADA-1.2B | English | 0.12 | 0 |
| ElevenLabs v2 | English | 0.62 | 2.5 |
| OpenAI TTS-1-HD | English | 0.58 | 1.8 |
| TADA-1.2B | Japanese | 0.15 | 0 |
| XTTS-v2 | Japanese | 0.92 | 12.3 |
ข้อมูลนี้ยืนยันว่า TADA ไม่เพียงเร็วกว่า แต่ยังเชื่อถือได้มากกว่า โดยเฉพาะในแง่ความถูกต้องของเนื้อหา ซึ่งเป็นปัจจัยสำคัญสำหรับการใช้งานในธุรกิจ เช่น ระบบ customer service หรือ legal transcription ที่ต้องการความแม่นยำสูงสุด
โอกาสทางธุรกิจและการนำไปใช้
การเปิดซอร์ส TADA ช่วยให้ธุรกิจสามารถนำไปปรับแต่งและรวมเข้ากับระบบของตนเองได้ โดยไม่ต้องพึ่งพาบริการ cloud แบบเสียค่าใช้จ่ายรายเดือนจากผู้ให้บริการรายใหญ่ นักพัฒนาสามารถดาวน์โหลดโมเดลจาก Hugging Face และรันบน GPU ทั่วไป เช่น NVIDIA A100 หรือแม้แต่ RTX 4090 สำหรับการทดสอบ
Hume AI มองว่า TADA จะเร่งนวัตกรรมในอุตสาหกรรม AI speech synthesis โดยเฉพาะในยุคที่ความเรียลไทม์และความน่าเชื่อถือเป็นกุญแจสำคัญ บริษัทเชิญชวนชุมชน open-source มาร่วมพัฒนา เพื่อขยายขอบเขตการใช้งานให้กว้างขึ้น
ด้วยประสิทธิภาพที่เหนือกว่าและการเข้าถึงที่เปิดกว้าง TADA กำลังกำหนดมาตรฐานใหม่ให้กับวงการสังเคราะห์เสียงพูด
(จำนวนคำประมาณ 720 คำ)
This Article is sponsored by Gnoppix AI (https://www.gnoppix.org)