โมเดล Qwen ใหม่ของ Alibaba สามารถโคลนเสียงจากเสียงออดิโอเพียง 3 วินาที
Alibaba Cloud’s Qwen team ได้เปิดตัวโมเดล Qwen2-Audio ซึ่งเป็นโมเดลมัลติโมดัลรุ่นอัปเกรดที่รองรับการประมวลผลเสียงพูดและเสียงออดิโออย่างครอบคลุม โมเดลนี้โดดเด่นด้วยความสามารถในการโคลนเสียง (voice cloning) แบบ zero-shot โดยใช้เสียงอ้างอิงเพียง 3 วินาที ซึ่งถือเป็นความก้าวหน้าที่สำคัญในด้านปัญญาประดิษฐ์สำหรับการสังเคราะห์เสียงพูด Qwen2-Audio สามารถสร้างเสียงพูดที่สมจริงในหลายภาษา รวมถึงการเลียนแบบน้ำเสียง อารมณ์ และสำเนียงได้อย่างแม่นยำ โดยไม่จำเป็นต้องฝึกฝนโมเดลเพิ่มเติมสำหรับผู้พูดแต่ละคน
โมเดล Qwen2-Audio มีขนาด 7 พันล้านพารามิเตอร์ (7B parameters) และถูกฝึกฝนด้วยข้อมูลเสียงขนาดใหญ่กว่า 370,000 ชั่วโมง ซึ่งครอบคลุม 30 ภาษาหลักและภาษาถิ่นอีกนับพันภาษา นอกจากนี้ ยังมีการฝึกฝนด้วยข้อมูลข้อความกว่า 20 ล้านชั่วโมง ทำให้โมเดลมีความสามารถรอบด้านในการเข้าใจและสร้างสรรค์เนื้อหาเสียงพูด ความสามารถหลักของโมเดลนี้ ได้แก่ การรู้จำคำพูด (speech recognition) การแปลภาษาพูด (speech translation) การตรวจจับอารมณ์ (emotion recognition) และการสังเคราะห์เสียงพูด (speech synthesis) โดยเฉพาะอย่างยิ่งในโหมด voice cloning ที่สามารถปรับแต่งเสียงตามบริบทได้หลากหลาย เช่น การร้องเพลง การเล่าเรื่อง หรือการสนทนาธรรมดา
ในตัวอย่างเดโมที่เผยแพร่บน Hugging Face Space ผู้ใช้สามารถอัปโหลดไฟล์เสียงอ้างอิงสั้นๆ เพียง 3 วินาที แล้วป้อนข้อความที่ต้องการให้โมเดลสร้างเสียงพูดออกมา ผลลัพธ์ที่ได้คือเสียงที่เลียนแบบผู้พูดต้นฉบับได้อย่างน่าทึ่ง เช่น การใช้เสียงของบุคคลดังอย่าง Joe Rogan เพื่อเล่าเรื่องตลก หรือการเลียนแบบน้ำเสียงเด็กในการร้องเพลงเด็กอีกใบ้ นอกจากนี้ โมเดลยังสามารถสร้างเสียงพูดในภาษาต่างๆ เช่น ภาษาจีนกลาง ภาษาอังกฤษ ภาษาญี่ปุ่น และภาษาอื่นๆ โดยรักษาสำเนียงและจังหวะให้ใกล้เคียงกับต้นฉบับ ผู้พัฒนายังได้แสดงตัวอย่างการโคลนเสียงจากบุคคลจริง เช่น เสียงของ Elon Musk ในการพูดถึงหัวข้อเทคโนโลยี หรือเสียงของบุคคลทั่วไปในการสนทนาแบบ casual
ประสิทธิภาพของ Qwen2-Audio ได้รับการยืนยันผ่านการทดสอบเบนช์มาร์กหลายชุด โดยในด้านการรู้จำคำพูดข้ามภาษา (cross-lingual speech recognition) โมเดลทำคะแนนเหนือกว่าโมเดลคู่แข่ง เช่น Whisper-large-v3 และ Qwen-Audio ในชุดข้อมูล FLEURS และ NeMo ASI ในด้านการแปลภาษาพูด โมเดลทำได้ดีในชุดข้อมูล CoVoST2 และ FLEURS โดยเฉพาะภาษาที่ไม่ใช่ภาษาหลักอย่างภาษาไทยและภาษาอินโดนีเซีย สำหรับการตรวจจับอารมณ์ โมเดลทำคะแนนสูงใน ESD dataset และในด้านการสังเคราะห์เสียงพูดแบบ zero-shot โดยใช้ LJ Speech และ LibriTTS datasets โมเดล Qwen2-Audio แสดงผลงานที่เหนือชั้น โดยมีค่า CER (Character Error Rate) และ WER (Word Error Rate) ต่ำกว่าคู่แข่งอย่าง SeamlessM4T และ Vall-E X
หนึ่งในจุดเด่นที่ทำให้ Qwen2-Audio แตกต่างคือการรองรับโหมดใหม่ชื่อว่า “Audio In / Audio Out” ซึ่งช่วยให้โมเดลสามารถรับอินพุตเสียงและสร้างเอาต์พุตเสียงโดยตรง โดยไม่ต้องผ่านข้อความเป็นตัวกลาง สิ่งนี้ช่วยลดความล่าช้าและเพิ่มความแม่นยำในการถ่ายทอดอารมณ์และสำเนียง นอกจากนี้ โมเดลยังสามารถจัดการกับเสียงที่มีพื้นหลังรบกวนได้ดี เนื่องจากการฝึกฝนด้วยข้อมูลที่หลากหลาย ผู้พัฒนาจาก Qwen team ระบุว่า โมเดลนี้ถูกออกแบบมาเพื่อใช้งานจริงในแอปพลิเคชันต่างๆ เช่น ผู้ช่วยเสียงอัจฉริยะ ระบบแปลภาษาแบบเรียลไทม์ และเครื่องมือสร้างคอนเทนต์เสียงสำหรับสื่อดิจิทัล
Qwen2-Audio เปิดให้ใช้งานฟรีแบบ open-source บนแพลตฟอร์ม Hugging Face โดยผู้ใช้สามารถดาวน์โหลดโมเดลและรันบนฮาร์ดแวร์ทั่วไป เช่น GPU จาก NVIDIA หรือแม้แต่ CPU สำหรับการทดสอบเบื้องต้น น้ำหนักโมเดลอยู่ที่ประมาณ 15 GB ซึ่งเหมาะสำหรับนักพัฒนาที่ต้องการปรับแต่งเพิ่มเติม Qwen team ยังได้เผยแพร่โค้ดตัวอย่างและคู่มือการใช้งาน เพื่ออำนวยความสะดวกให้กับนักวิจัยและผู้ประกอบการด้าน AI การเปิดตัวนี้เป็นส่วนหนึ่งของ roadmap ของ Qwen ที่มุ่งพัฒนาโมเดลมัลติโมดัลให้ครอบคลุมมากขึ้น โดยในอนาคตอาจมีการเพิ่มความสามารถในการจัดการวิดีโอและภาพเคลื่อนไหวควบคู่กับเสียง
ความสามารถในการโคลนเสียงจากเพียง 3 วินาทีของ Qwen2-Audio ไม่เพียงแต่แสดงถึงความก้าวหน้าทางเทคนิค แต่ยังเปิดโอกาสใหม่ๆ สำหรับอุตสาหกรรมต่างๆ เช่น การผลิตพอดแคสต์อัตโนมัติ เกมออนไลน์ที่ต้องการเสียงตัวละครหลากหลาย หรือระบบ call center ที่ใช้เสียงผู้ช่วยเสมือนจริง อย่างไรก็ตาม ผู้พัฒนาได้เตือนถึงความเสี่ยงด้านจริยธรรม เช่น การใช้งานเพื่อสร้าง deepfake โดยแนะนำให้ใช้โมเดลอย่างรับผิดชอบและตรวจสอบเนื้อหาที่สร้างขึ้นเสมอ
ด้วยประสิทธิภาพที่เหนือกว่าและการเข้าถึงที่เปิดกว้าง Qwen2-Audio จึงกลายเป็นเครื่องมือสำคัญสำหรับนักพัฒนา AI ทั่วโลกในการสำรวจขีดจำกัดของเทคโนโลยีเสียงพูด
(จำนวนคำประมาณ 728 คำ)
This Article is sponsored by Gnoppix AI (https://www.gnoppix.org)