Cohere เปิดตัวโมเดลโอเพ่นซอร์สที่ครองอันดับหนึ่งใน基准การรู้จำเสียงพูด

Cohere เปิดตัวโมเดลโอเพ่นเวทช์ตที่ครองอันดับหนึ่งใน基准การรู้จำเสียงพูด

บริษัท Cohere ซึ่งเป็นผู้พัฒนาเทคโนโลยีปัญญาประดิษฐ์ชั้นนำจากแคนาดา ได้ประกาศเปิดตัวโมเดล Command R+ Speech ซึ่งเป็นโมเดลการรู้จำเสียงพูดอัตโนมัติ (Automatic Speech Recognition: ASR) แบบโอเพ่นเวทช์ต (open-weights) โดยโมเดลดังกล่าวสามารถทำผลงานได้เหนือกว่าโมเดลชั้นนำอย่าง Whisper Large v3 ของ OpenAI ใน基准 FLEURS สำหรับการรู้จำเสียงพูดแบบหลายภาษา

โมเดล Command R+ Speech ได้รับการเผยแพร่บนแพลตฟอร์ม Hugging Face ภายใต้ใบอนุญาต CC-BY-NC 4.0 ซึ่งอนุญาตให้ใช้งานเพื่อการวิจัยและพัฒนา แต่จำกัดการใช้งานเชิงพาณิชย์ Command R+ Speech เป็นโมเดลขนาดใหญ่ที่มีพารามิเตอร์จำนวน 7 พันล้านตัว (7B parameters) โดยได้รับการฝึกฝนด้วยข้อมูลเสียงพูดแบบหลายภาษาจำนวนมหาศาลถึง 1.8 ล้านชั่วโมง ข้อมูลดังกล่าวครอบคลุม 111 ภาษา ทำให้โมเดลมีความสามารถในการประมวลผลเสียงพูดจากหลากหลายภาษาและสำเนียงได้อย่างมีประสิทธิภาพ

ในด้านประสิทธิภาพ โมเดลนี้ทำคะแนน Word Error Rate (WER) ได้ที่ 41.1% ใน基准 FLEURS ซึ่งดีกว่า Whisper Large v3 ที่ทำได้ 46.3% โดย FLEURS เป็น基准มาตรฐานที่ทดสอบการรู้จำเสียงพูดใน 111 ภาษา นอกจากนี้ Command R+ Speech ยังครองอันดับหนึ่งใน基准 Common Voice 17 ซึ่งครอบคลุมมากกว่า 100 ภาษาเช่นกัน ใน基准อื่นๆ เช่น MLS (Multilingual LibriSpeech) และ MuAViC โมเดลนี้แสดงผลงานที่แข่งขันได้อย่างสูสีกับโมเดลชั้นนำอื่นๆ เช่น Distil-Whisper และ Whisper Medium ทำให้ Command R+ Speech เป็นหนึ่งในโมเดล ASR ที่ดีที่สุดในปัจจุบันสำหรับงานที่ต้องการรองรับหลายภาษา

คุณสมบัติเด่นของโมเดลนี้คือการถูกปรับแต่งให้เข้าใจคำสั่ง (instruction-tuned) ซึ่งช่วยให้สามารถตอบสนองต่อคำสั่งเฉพาะเจาะจงในกระบวนการรู้จำเสียงพูดได้ เช่น การถอดเสียงพร้อมกับการสรุปเนื้อหาหรือการแยกแยะข้อมูลสำคัญ ผู้ใช้งานสามารถทดลองโมเดลได้ผ่าน Hugging Face Spaces ที่ Cohere จัดเตรียมไว้ โดยสามารถอัปโหลดไฟล์เสียงเพื่อทดสอบการถอดเสียงแบบเรียลไทม์ โมเดลนี้ยังรองรับการใช้งานผ่านไลบรารี Transformers ของ Hugging Face ทำให้ง่ายต่อการผสานรวมเข้ากับแอปพลิเคชันต่างๆ เช่น ระบบช่วยเหลือด้วยเสียง ระบบประชุมออนไลน์ หรือแอปพลิเคชันการถอดเสียงสำหรับธุรกิจ

การเปิดตัว Command R+ Speech สะท้อนถึงแนวโน้มของอุตสาหกรรมปัญญาประดิษฐ์ที่บริษัทต่างๆ กำลังมุ่งเน้นพัฒนาโมเดลโอเพ่นซอร์สเพื่อส่งเสริมการวิจัยและนวัตกรรม โดยเฉพาะในด้านการรู้จำเสียงพูดที่ยังคงเป็นความท้าทายสำคัญ เนื่องจากข้อมูลเสียงพูดมีความหลากหลายสูงทั้งในด้านภาษา สำเนียง และสภาพแวดล้อม Cohere ระบุว่าโมเดลนี้พัฒนาต่อยอดจาก Command R+ ซึ่งเป็นโมเดลภาษาขนาดใหญ่ (large language model) ที่มีประสิทธิภาพสูงในงาน retrieval-augmented generation (RAG) ทำให้ Command R+ Speech สามารถผสานการเข้าใจบริบทภาษากับการประมวลผลเสียงได้อย่างลงตัว

ใบอนุญาต CC-BY-NC 4.0 ช่วยให้ชุมชนนักพัฒนาและนักวิจัยสามารถเข้าถึงและปรับปรุงโมเดลได้ โดย Cohere หวังว่าจะนำไปสู่การพัฒนาต่อยอดในอนาคต เช่น การปรับให้เหมาะกับภาษาเฉพาะหรือโดเมนอุตสาหกรรมต่างๆ ผู้ที่สนใจสามารถดาวน์โหลดโมเดลจาก Hugging Face ได้ที่ CohereLabs/command-r-plus-speech และศึกษารายละเอียดเพิ่มเติมจากโมเดลการ์ด (model card) ซึ่งให้ข้อมูลเชิงลึกเกี่ยวกับกระบวนการฝึกฝน ผลการทดสอบ และข้อจำกัดต่างๆ

ในภาพรวม Command R+ Speech ไม่เพียงแต่ยกระดับมาตรฐานการรู้จำเสียงพูดแบบโอเพ่นซอร์สเท่านั้น แต่ยังช่วยลดช่องว่างระหว่างโมเดลเชิงพาณิชย์กับโมเดลโอเพ่น โดยเฉพาะสำหรับภาษาที่ไม่ใช่ภาษาหลักอย่างอังกฤษ ซึ่งมักถูกมองข้ามในโมเดล ASR อื่นๆ การมาของโมเดลนี้จะช่วยให้ธุรกิจและองค์กรต่างๆ สามารถพัฒนาโซลูชันที่รองรับผู้ใช้ทั่วโลกได้อย่างมีประสิทธิภาพมากขึ้น

(จำนวนคำประมาณ 720 คำ)

This Article is sponsored by Gnoppix AI (https://www.gnoppix.org)