ElevenLabs และ Google ครองแชมป์ในเกณฑ์ทดสอบ speech-to-text ที่อัปเดตของ Artificial Analysis

ElevenLabs และ Google ครองอันดับนำในเกณฑ์ทดสอบ Speech-to-Text ที่อัปเดตของ Artificial Analysis

Artificial Analysis ได้อัปเดตเกณฑ์ทดสอบการแปลงเสียงเป็นข้อความ (Speech-to-Text: STT) ล่าสุด โดย ElevenLabs Scribe v1 (beta) ขึ้นแท่นอันดับหนึ่งด้วยอัตราข้อผิดพลาดคำ (Word Error Rate: WER) เพียง 3.1% ซึ่งเป็นคะแนนที่ดีที่สุดเท่าที่เคยบันทึกไว้ในเกณฑ์ทดสอบนี้ นอกจากนี้ Google Cloud Speech-to-Text v20231117 ยังครองอันดับสองด้วย WER 3.6% สร้างความโดดเด่นให้กับผู้เล่นหลักทั้งสองรายในตลาด STT

เกณฑ์ทดสอบ STT ของ Artificial Analysis เป็นมาตรฐานอิสระที่ได้รับการยอมรับในวงการ โดยวัดประสิทธิภาพของโมเดล STT ผ่านชุดข้อมูลหลากหลายเพื่อจำลองสถานการณ์การใช้งานจริง ชุดข้อมูลหลักที่ใช้ในการทดสอบ ได้แก่ FLEURS ซึ่งครอบคลุมสำเนียงและภาษากว่า 183 ภาษา earnings22 ซึ่งเป็นการสนทนาทางโทรศัพท์จากรายงานผลประกอบการของบริษัทจดทะเบียนในสหรัฐอเมริกา รวมถึงชุดข้อมูลอื่นๆ เช่น podcast และไฟล์เสียงคุณภาพต่ำ เพื่อทดสอบความสามารถในการจัดการเสียงที่มีสัญญาณรบกวน น้ำเสียงหลากหลาย และคุณภาพเสียงที่แตกต่างกัน

ElevenLabs Scribe v1 (beta) ไม่เพียงแต่ครองอันดับหนึ่งโดยรวม แต่ยังแสดงผลงานยอดเยี่ยมในหลายหมวดหมู่ โดยเฉพาะในชุดข้อมูล earnings22 ที่มี WER ต่ำถึง 2.6% และ FLEURS ที่ 4.2% โมเดลนี้เหนือกว่าผู้ครองแชมป์เก่า (Google US English v20230606) ถึง 25% ในแง่ WER โดยรวม ทำให้ Scribe เป็นโมเดล STT ที่ดีที่สุดในประวัติศาสตร์ของเกณฑ์ทดสอบนี้ ElevenLabs เน้นย้ำว่า Scribe ได้รับการฝึกฝนด้วยข้อมูลกว่า 1 ล้านชั่วโมง ทำให้สามารถจัดการกับเสียงที่มี accent หนัก สัญญาณรบกวนสูง และคุณภาพต่ำได้อย่างมีประสิทธิภาพ

ติดตามมาด้วย Google Cloud Speech-to-Text v20231117 ซึ่งปรับปรุงจากเวอร์ชันก่อนหน้าอย่างชัดเจน โดยมี WER โดยรวม 3.6% ลดลงจากเวอร์ชัน v20230606 ที่เคยนำก่อนหน้า ปัจจุบันเวอร์ชันใหม่นี้ทำได้ดีในชุดข้อมูล FLEURS (WER 4.5%) และ earnings22 (WER 3.1%) แสดงถึงความก้าวหน้าของ Google ในการพัฒนาโมเดล STT แบบสากล (universal) ที่รองรับหลายภาษาและสำเนียง

อันดับสามตกเป็นของ Deepgram Nova-2 ด้วย WER 4.7% ซึ่งเป็นโมเดลที่เพิ่งเปิดตัวและแสดงศักยภาพสูง โดยเฉพาะในชุดข้อมูล podcast และเสียงคุณภาพต่ำ ตามด้วย OpenAI Whisper large-v3 (WER 5.0%) ซึ่งยังคงเป็นโมเดลโอเพ่นซอร์สที่แข็งแกร่ง แต่ถูกแซงโดยโมเดลเชิงพาณิชย์หลายราย AWS Transcribe และ Cartesia AI Sonic ก็ติดอันดับต้นๆ ด้วย WER ราว 5-6%

การอัปเดตเกณฑ์ทดสอบครั้งนี้รวมถึงการเพิ่มโมเดลใหม่ 10 โมเดล และชุดข้อมูลใหม่ 2 ชุด ทำให้เกณฑ์ทดสอบครอบคลุมมากขึ้น โดยปัจจุบันมีโมเดลทั้งหมด 28 รายการที่ถูกทดสอบ Artificial Analysis ใช้เมตริก WER เป็นตัวชี้วัดหลัก ซึ่งคำนวณจากอัตราข้อผิดพลาดในการถอดความ รวมถึงการแทรก การลบ และการแทนที่คำ นอกจากนี้ยังมีคะแนนรอง เช่น Character Error Rate (CER) เพื่อให้ข้อมูลเชิงลึกเพิ่มเติม

ตารางลีดเดอร์บอร์ดโดยรวม (WER ต่ำสุดคือดีที่สุด):

อันดับ โมเดล ผู้ให้บริการ WER (%)
1 Scribe v1 (beta) ElevenLabs 3.1
2 Speech-to-Text v20231117 Google Cloud 3.6
3 Nova-2 Deepgram 4.7
4 Whisper large-v3 OpenAI 5.0
5 Transcribe (us-en) AWS 5.4

ประสิทธิภาพตามชุดข้อมูลเฉพาะ:

  • FLEURS (สำเนียงและภาษาหลากหลาย): ElevenLabs Scribe 4.2%, Google 4.5%, Deepgram 5.9%
  • earnings22 (การสนทนาทางธุรกิจ): ElevenLabs 2.6%, Google 3.1%, Deepgram 3.8%
  • Podcast: Deepgram Nova-2 โดดเด่นด้วย WER ต่ำสุด
  • เสียงคุณภาพต่ำ: ElevenLabs และ Google แสดงความเหนือชั้นในการจัดการ noise

การครองอันดับของ ElevenLabs และ Google สะท้อนถึงแนวโน้มในอุตสาหกรรม STT ที่โมเดลขนาดใหญ่และข้อมูลฝึกฝนจำนวนมหาศาลเป็นกุญแจสู่ความสำเร็จ ElevenLabs ซึ่งเดิมเน้นการสังเคราะห์เสียง (TTS) ได้ขยายสู่ STT ด้วย Scribe ที่เน้นการใช้งานเชิงพาณิชย์ เช่น การถอดความประชุม การวิเคราะห์ call center และเนื้อหามัลติมีเดีย Google เองก็คงความเป็นผู้นำด้วยโครงสร้างพื้นฐานคลาวด์ที่แข็งแกร่ง

ผู้เชี่ยวชาญจาก Artificial Analysis ระบุว่า เกณฑ์ทดสอบนี้ช่วยให้นักพัฒนาและธุรกิจเลือกโมเดล STT ที่เหมาะสมกับ use case เฉพาะ โดยข้อมูลทั้งหมดเปิดให้เข้าถึงฟรีผ่านแดชบอร์ดออนไลน์ ซึ่งอัปเดตแบบเรียลไทม์ตามโมเดลใหม่ที่เข้าร่วม นอกจากนี้ ยังมี API สำหรับทดสอบโมเดลของผู้ใช้เอง

การอัปเดตครั้งนี้ยืนยันว่า การแข่งขันในตลาด STT กำลังเข้มข้นขึ้น โดยโมเดลจากสตาร์ทอัพอย่าง ElevenLabs สามารถท้าชนยักษ์ใหญ่อย่าง Google ได้สำเร็จ ธุรกิจที่ต้องการ STT คุณภาพสูงควรพิจารณาโมเดลชั้นนำเหล่านี้เพื่อเพิ่มประสิทธิภาพการทำงาน ลดต้นทุน และยกระดับบริการลูกค้า

(จำนวนคำประมาณ 720 คำ)

This Article is sponsored by Gnoppix AI (https://www.gnoppix.org)