ElevenLabs และ Google ครองอันดับนำในเกณฑ์ทดสอบ Speech-to-Text ที่อัปเดตของ Artificial Analysis
Artificial Analysis ได้อัปเดตเกณฑ์ทดสอบการแปลงเสียงเป็นข้อความ (Speech-to-Text: STT) ล่าสุด โดย ElevenLabs Scribe v1 (beta) ขึ้นแท่นอันดับหนึ่งด้วยอัตราข้อผิดพลาดคำ (Word Error Rate: WER) เพียง 3.1% ซึ่งเป็นคะแนนที่ดีที่สุดเท่าที่เคยบันทึกไว้ในเกณฑ์ทดสอบนี้ นอกจากนี้ Google Cloud Speech-to-Text v20231117 ยังครองอันดับสองด้วย WER 3.6% สร้างความโดดเด่นให้กับผู้เล่นหลักทั้งสองรายในตลาด STT
เกณฑ์ทดสอบ STT ของ Artificial Analysis เป็นมาตรฐานอิสระที่ได้รับการยอมรับในวงการ โดยวัดประสิทธิภาพของโมเดล STT ผ่านชุดข้อมูลหลากหลายเพื่อจำลองสถานการณ์การใช้งานจริง ชุดข้อมูลหลักที่ใช้ในการทดสอบ ได้แก่ FLEURS ซึ่งครอบคลุมสำเนียงและภาษากว่า 183 ภาษา earnings22 ซึ่งเป็นการสนทนาทางโทรศัพท์จากรายงานผลประกอบการของบริษัทจดทะเบียนในสหรัฐอเมริกา รวมถึงชุดข้อมูลอื่นๆ เช่น podcast และไฟล์เสียงคุณภาพต่ำ เพื่อทดสอบความสามารถในการจัดการเสียงที่มีสัญญาณรบกวน น้ำเสียงหลากหลาย และคุณภาพเสียงที่แตกต่างกัน
ElevenLabs Scribe v1 (beta) ไม่เพียงแต่ครองอันดับหนึ่งโดยรวม แต่ยังแสดงผลงานยอดเยี่ยมในหลายหมวดหมู่ โดยเฉพาะในชุดข้อมูล earnings22 ที่มี WER ต่ำถึง 2.6% และ FLEURS ที่ 4.2% โมเดลนี้เหนือกว่าผู้ครองแชมป์เก่า (Google US English v20230606) ถึง 25% ในแง่ WER โดยรวม ทำให้ Scribe เป็นโมเดล STT ที่ดีที่สุดในประวัติศาสตร์ของเกณฑ์ทดสอบนี้ ElevenLabs เน้นย้ำว่า Scribe ได้รับการฝึกฝนด้วยข้อมูลกว่า 1 ล้านชั่วโมง ทำให้สามารถจัดการกับเสียงที่มี accent หนัก สัญญาณรบกวนสูง และคุณภาพต่ำได้อย่างมีประสิทธิภาพ
ติดตามมาด้วย Google Cloud Speech-to-Text v20231117 ซึ่งปรับปรุงจากเวอร์ชันก่อนหน้าอย่างชัดเจน โดยมี WER โดยรวม 3.6% ลดลงจากเวอร์ชัน v20230606 ที่เคยนำก่อนหน้า ปัจจุบันเวอร์ชันใหม่นี้ทำได้ดีในชุดข้อมูล FLEURS (WER 4.5%) และ earnings22 (WER 3.1%) แสดงถึงความก้าวหน้าของ Google ในการพัฒนาโมเดล STT แบบสากล (universal) ที่รองรับหลายภาษาและสำเนียง
อันดับสามตกเป็นของ Deepgram Nova-2 ด้วย WER 4.7% ซึ่งเป็นโมเดลที่เพิ่งเปิดตัวและแสดงศักยภาพสูง โดยเฉพาะในชุดข้อมูล podcast และเสียงคุณภาพต่ำ ตามด้วย OpenAI Whisper large-v3 (WER 5.0%) ซึ่งยังคงเป็นโมเดลโอเพ่นซอร์สที่แข็งแกร่ง แต่ถูกแซงโดยโมเดลเชิงพาณิชย์หลายราย AWS Transcribe และ Cartesia AI Sonic ก็ติดอันดับต้นๆ ด้วย WER ราว 5-6%
การอัปเดตเกณฑ์ทดสอบครั้งนี้รวมถึงการเพิ่มโมเดลใหม่ 10 โมเดล และชุดข้อมูลใหม่ 2 ชุด ทำให้เกณฑ์ทดสอบครอบคลุมมากขึ้น โดยปัจจุบันมีโมเดลทั้งหมด 28 รายการที่ถูกทดสอบ Artificial Analysis ใช้เมตริก WER เป็นตัวชี้วัดหลัก ซึ่งคำนวณจากอัตราข้อผิดพลาดในการถอดความ รวมถึงการแทรก การลบ และการแทนที่คำ นอกจากนี้ยังมีคะแนนรอง เช่น Character Error Rate (CER) เพื่อให้ข้อมูลเชิงลึกเพิ่มเติม
ตารางลีดเดอร์บอร์ดโดยรวม (WER ต่ำสุดคือดีที่สุด):
| อันดับ | โมเดล | ผู้ให้บริการ | WER (%) |
|---|---|---|---|
| 1 | Scribe v1 (beta) | ElevenLabs | 3.1 |
| 2 | Speech-to-Text v20231117 | Google Cloud | 3.6 |
| 3 | Nova-2 | Deepgram | 4.7 |
| 4 | Whisper large-v3 | OpenAI | 5.0 |
| 5 | Transcribe (us-en) | AWS | 5.4 |
ประสิทธิภาพตามชุดข้อมูลเฉพาะ:
- FLEURS (สำเนียงและภาษาหลากหลาย): ElevenLabs Scribe 4.2%, Google 4.5%, Deepgram 5.9%
- earnings22 (การสนทนาทางธุรกิจ): ElevenLabs 2.6%, Google 3.1%, Deepgram 3.8%
- Podcast: Deepgram Nova-2 โดดเด่นด้วย WER ต่ำสุด
- เสียงคุณภาพต่ำ: ElevenLabs และ Google แสดงความเหนือชั้นในการจัดการ noise
การครองอันดับของ ElevenLabs และ Google สะท้อนถึงแนวโน้มในอุตสาหกรรม STT ที่โมเดลขนาดใหญ่และข้อมูลฝึกฝนจำนวนมหาศาลเป็นกุญแจสู่ความสำเร็จ ElevenLabs ซึ่งเดิมเน้นการสังเคราะห์เสียง (TTS) ได้ขยายสู่ STT ด้วย Scribe ที่เน้นการใช้งานเชิงพาณิชย์ เช่น การถอดความประชุม การวิเคราะห์ call center และเนื้อหามัลติมีเดีย Google เองก็คงความเป็นผู้นำด้วยโครงสร้างพื้นฐานคลาวด์ที่แข็งแกร่ง
ผู้เชี่ยวชาญจาก Artificial Analysis ระบุว่า เกณฑ์ทดสอบนี้ช่วยให้นักพัฒนาและธุรกิจเลือกโมเดล STT ที่เหมาะสมกับ use case เฉพาะ โดยข้อมูลทั้งหมดเปิดให้เข้าถึงฟรีผ่านแดชบอร์ดออนไลน์ ซึ่งอัปเดตแบบเรียลไทม์ตามโมเดลใหม่ที่เข้าร่วม นอกจากนี้ ยังมี API สำหรับทดสอบโมเดลของผู้ใช้เอง
การอัปเดตครั้งนี้ยืนยันว่า การแข่งขันในตลาด STT กำลังเข้มข้นขึ้น โดยโมเดลจากสตาร์ทอัพอย่าง ElevenLabs สามารถท้าชนยักษ์ใหญ่อย่าง Google ได้สำเร็จ ธุรกิจที่ต้องการ STT คุณภาพสูงควรพิจารณาโมเดลชั้นนำเหล่านี้เพื่อเพิ่มประสิทธิภาพการทำงาน ลดต้นทุน และยกระดับบริการลูกค้า
(จำนวนคำประมาณ 720 คำ)
This Article is sponsored by Gnoppix AI (https://www.gnoppix.org)