xAI เปิดตัวฟีเจอร์เสียงกำหนดเองใหม่ สร้างโคลนเสียงที่ใช้งานได้จริงจากเสียงพูดเพียง 1 นาที
xAI บริษัทปัญญาประดิษฐ์ของ Elon Musk ได้เปิดตัวฟีเจอร์เสียงกำหนดเอง (Custom Voices) ใหม่สำหรับ Grok ผู้ช่วย AI ของบริษัท ซึ่งสามารถแปลงเสียงพูดเพียง 60 วินาทีให้กลายเป็นโคลนเสียงที่ใช้งานได้จริง โดยฟีเจอร์นี้เป็นส่วนหนึ่งของโหมดเสียง (Voice Mode) ที่เพิ่งเปิดตัวไปเมื่อเร็วๆ นี้ ทำให้ผู้ใช้สามารถสร้างเสียงสังเคราะห์ที่เลียนแบบน้ำเสียงเฉพาะบุคคลได้อย่างรวดเร็วและมีประสิทธิภาพ
พัฒนาการของฟีเจอร์เสียงใน Grok
Grok ได้รับการอัปเดตโหมดเสียงตั้งแต่เดือนกันยายน โดยก่อนหน้านี้ผู้ใช้สามารถเลือกเสียงจากตัวเลือกที่กำหนดไว้ล่วงหน้า เช่น “Ara” หรือ “Grok” แต่ฟีเจอร์ใหม่นี้ยกระดับความสามารถ โดยอนุญาตให้ผู้ใช้บันทึกเสียงตัวเองหรือบุคคลอื่น แล้วอัปโหลดไฟล์เสียงความยาวขั้นต่ำ 60 วินาที ระบบจะประมวลผลและสร้าง “Voice ID” ที่เป็นเอกลักษณ์ ซึ่งสามารถนำไปใช้ในการสนทนาเสียงกับ Grok ได้ทันที
กระบวนการนี้เรียบง่ายมาก ผู้ใช้เพียงกดปุ่มบันทึกเสียงในแอป Grok บน iOS หรือ Android พูดประโยคตัวอย่างที่ระบบกำหนด เช่น การอ่านข้อความทดสอบ จากนั้นระบบจะสร้างโคลนเสียงภายในไม่กี่วินาที ผู้ใช้สามารถทดสอบโดยพิมพ์คำสั่งหรือถามคำถาม แล้ว Grok จะตอบกลับด้วยเสียงที่เลียนแบบนั้น โคลนเสียงนี้ยังคงเอกลักษณ์ เช่น น้ำเสียงทุ้ม นุ่มนวล หรือสำเนียงเฉพาะ ไว้ได้ดีแม้จะใช้ข้อมูลนำเข้าจำนวนน้อย
ประสิทธิภาพเหนือกว่าเจ้าตลาด
เมื่อเทียบกับบริการโคลนเสียงชั้นนำอย่าง ElevenLabs หรือ Respeecher ซึ่งมักต้องการข้อมูลเสียงอย่างน้อย 1-3 นาทีเพื่อสร้างโคลนที่ใช้งานได้ และอาจต้องใช้เวลาประมวลผลนานหลายนาทีหรือชั่วโมง ฟีเจอร์ของ xAI โดดเด่นด้วยความรวดเร็วและความแม่นยำ โดยใช้เพียง 1 นาทีก็ได้ผลลัพธ์ที่ “ใช้งานได้จริง” (usable) แล้ว การทดสอบแสดงให้เห็นว่าโคลนเสียงจาก Grok สามารถเลียนแบบสำเนียงอเมริกัน อังกฤษ หรือแม้แต่สำเนียงเอเชียได้อย่างน่าประทับใจ โดยไม่สูญเสียความเป็นธรรมชาติ
ในตัวอย่างเดโม xAI ได้ทดลองโคลนเสียงจากบุคคลดัง เช่น Joe Rogan หรือนักแสดงฮอลลีวูด โดยใช้คลิปเสียงสั้นๆ จากพอดแคสต์หรือวิดีโอ ส่งผลให้ Grok สามารถสนทนาด้วยน้ำเสียงที่เหมือนจริง จนผู้ฟังแยกไม่ออก นอกจากนี้ ยังรองรับการปรับแต่งเพิ่มเติม เช่น การเปลี่ยนโทนเสียงให้สูงขึ้นหรือต่ำลง เพื่อให้เหมาะกับการใช้งานหลากหลาย เช่น พอดแคสต์ การนำเสนอ หรือผู้ช่วยส่วนตัว
ข้อจำกัดและการใช้งานจริง
แม้จะประทับใจ แต่ฟีเจอร์นี้ยังอยู่ในขั้นเบต้า (beta) และมีข้อจำกัดบางประการ เช่น อาจไม่สมบูรณ์แบบกับสำเนียงที่ซับซ้อนหรือภาษาที่ไม่ใช่ภาษาอังกฤษเป็นหลัก นอกจากนี้ ผู้ใช้ต้องสมัครสมาชิก xAI Premium เพื่อเข้าถึง โดยราคาเริ่มต้นที่ 8 ดอลลาร์สหรัฐต่อเดือน ปัจจุบันใช้งานได้เฉพาะบนแอปมือถือ iOS และ Android ไม่รองรับเว็บเบราว์เซอร์เต็มรูปแบบ
xAI เน้นย้ำถึงจริยธรรมในการใช้งาน โดยมีนโยบายห้ามโคลนเสียงบุคคลที่ไม่ได้รับอนุญาต และใช้ระบบตรวจจับเพื่อป้องกันการใช้งานในทางที่ผิด เช่น การปลอมแปลงหรือ deepfake อย่างไรก็ตาม ผู้เชี่ยวชาญด้าน AI ชี้ว่าเทคโนโลยีนี้สามารถนำไปประยุกต์ในธุรกิจได้หลากหลาย เช่น การสร้างผู้ช่วยเสียงสำหรับลูกค้าที่มีเอกลักษณ์เฉพาะ การบันทึกข้อความแจ้งเตือนด้วยน้ำเสียงของผู้บริหาร หรือแม้แต่การพัฒนาแอปพลิเคชันด้านการแพทย์ที่ต้องการเสียงที่คุ้นเคยเพื่อผู้ป่วย
ผลกระทบต่ออุตสาหกรรม AI เสียงสังเคราะห์
การเปิดตัวฟีเจอร์นี้ถือเป็นก้าวกระโดดสำหรับ xAI ซึ่งกำลังแข่งขันกับ OpenAI (ChatGPT Voice) และ Google (Gemini Live) ที่ยังคงใช้เสียงกำหนดไว้ล่วงหน้าหรือต้องการข้อมูลจำนวนมากกว่า ในขณะที่คู่แข่งอย่าง ElevenLabs ต้องใช้เครื่องมือแยกต่างหากและมีค่าใช้จ่ายสูง xAI มุ่งเน้นความสะดวกและเข้าถึงได้ โดยผสานเข้ากับ Grok chatbot ที่มีชื่อเสียงด้านการตอบสนองที่ฉลาดและมีอารมณ์ขัน
อนาคตของฟีเจอร์นี้คาดว่าจะมีการปรับปรุง เช่น รองรับภาษาอื่นๆ เพิ่มเติม ลดข้อจำกัดด้านความยาวเสียงขั้นต่ำ และบูรณาการกับ API สำหรับนักพัฒนา นี่คือตัวอย่างที่ชัดเจนของการที่ xAI กำลังเร่งพัฒนาเทคโนโลยีให้ก้าวหน้ากว่าคู่แข่ง โดยใช้ประโยชน์จากข้อมูลฝึกฝนขนาดใหญ่และโครงสร้างพื้นฐานการประมวลผลที่ทรงพลัง
ด้วยฟีเจอร์นี้ ผู้ใช้ธุรกิจสามารถลดต้นทุนในการผลิตเนื้อหาเสียง เพิ่ม engagement ในการสื่อสาร และสร้างประสบการณ์ที่เป็นส่วนตัวมากขึ้น ส่งผลให้ xAI กำลังกลายเป็นผู้นำในด้าน personalization ของ AI เสียงสังเคราะห์
(จำนวนคำประมาณ 720 คำ)
This Article is sponsored by Gnoppix AI (https://www.gnoppix.org)