Google เปิดตัวโมเดลข้อความเป็นเสียง Gemini 3.1 ที่แสดงออกได้ดีที่สุดเท่าที่เคยมีมา รองรับมากกว่า 70 ภาษา

กูเกิลเปิดตัวโมเดล Text-to-Speech ที่แสดงออกได้สมจริงที่สุดจาก Gemini 3.1 รองรับ 70 ภาษา

กูเกิลได้เปิดตัวโมเดล Text-to-Speech (TTS) ที่มีความสามารถในการแสดงออกทางอารมณ์และน้ำเสียงได้สมจริงที่สุดเท่าที่เคยมีมา โดยใช้เทคโนโลยี Gemini 3.1 เป็นแกนหลัก โมเดลดังกล่าวนี้ชื่อว่า Gemini 3.1 TTS Preview ซึ่งรองรับมากถึง 70 ภาษาทั่วโลก ทำให้ผู้พัฒนาและธุรกิจสามารถนำไปประยุกต์ใช้ในการสร้างเสียงพูดที่เป็นธรรมชาติและปรับแต่งได้หลากหลายรูปแบบ

โมเดล TTS นี้ถือเป็นก้าวกระโดดสำคัญในด้านปัญญาประดิษฐ์สำหรับการสังเคราะห์เสียงพูด โดยมีความสามารถในการถ่ายทอดอารมณ์ น้ำเสียง และสไตล์การพูดที่หลากหลาย เช่น ความสุข ความโกรธ ความเศร้า หรือแม้กระทั่งน้ำเสียงที่เป็นทางการหรือเป็นกันเอง ผู้ใช้สามารถควบคุมระดับความเข้มข้นของอารมณ์เหล่านี้ได้อย่างละเอียด เพื่อให้เสียงพูดที่ได้ออกมามีความเหมาะสมกับบริบทการใช้งาน เช่น การสร้างตัวแทนเสียงในแอปพลิเคชันบริการลูกค้า เกม วิดีโอ หรือระบบช่วยเหลืออัตโนมัติ

หนึ่งในคุณสมบัติเด่นคือการรองรับภาษาหลัก 24 ภาษาในโหมดการแสดงออกขั้นสูง (expressive mode) ซึ่งรวมถึงภาษาอังกฤษ ฝรั่งเศส เยอรมัน ฮินดี ญี่ปุ่น เกาหลี จีนกลาง และอื่นๆ อีกมากมาย สำหรับภาษาที่เหลืออีก 46 ภาษา จะรองรับในโหมดมาตรฐานที่ยังคงรักษาคุณภาพเสียงที่สูงไว้ นอกจากนี้ โมเดลยังสามารถปรับแต่งความเร็วการพูด ระดับเสียง และการหยุดพักตามธรรมชาติ เพื่อให้เสียงพูดฟังดูมนุษย์มากยิ่งขึ้น

กูเกิลนำเสนอโมเดลนี้ผ่านแพลตฟอร์ม Google Cloud Vertex AI ซึ่งเป็นบริการคลาวด์สำหรับนักพัฒนา โดยผู้ใช้สามารถเข้าถึงได้ทันทีในสถานะ Preview เพื่อทดสอบและพัฒนาแอปพลิเคชันของตน การใช้งานทำได้ง่ายผ่าน API โดยระบุข้อความ ภาษา และพารามิเตอร์การแสดงออกที่ต้องการ เช่น การกำหนด “emotional” หรือ “neutral” tone พร้อมระดับความเข้มข้นตั้งแต่ 0 ถึง 1

ในการสาธิตตัวอย่าง กูเกิลแสดงให้เห็นถึงความสามารถในการเล่าเรื่องราวด้วยน้ำเสียงที่เปลี่ยนแปลงตามอารมณ์ เช่น การเล่านิทานด้วยน้ำเสียงตื่นเต้นสำหรับเด็ก หรือการนำเสนอข้อมูลธุรกิจด้วยน้ำเสียงมั่นใจและน่าเชื่อถือ นอกจากนี้ ยังมีตัวอย่างการพูดภาษาหลายภาษาผสมกัน เช่น การสลับระหว่างภาษาอังกฤษและสเปนisch โดยรักษาความต่อเนื่องของน้ำเสียงเอาไว้

เทคโนโลยีเบื้องหลังคือ Gemini 3.1 ซึ่งเป็นโมเดล multimodal ที่ได้รับการฝึกฝนด้วยข้อมูลเสียงจำนวนมหาศาล ทำให้สามารถเข้าใจบริบททางภาษาและวัฒนธรรมได้อย่างลึกซึ้ง ส่งผลให้เสียงพูดที่ผลิตออกมามีสำเนียงท้องถิ่นที่ถูกต้องและเป็นธรรมชาติ โดยเฉพาะในภาษาที่ไม่ใช่ภาษาหลัก เช่น ภาษาไทย ภาษาอินโดนีเซีย หรือภาษาอาหรับ

สำหรับนักพัฒนา โมเดลนี้ช่วยลดต้นทุนและเวลาในการพัฒนาระบบ TTS เอง เนื่องจากสามารถ integrate เข้ากับบริการอื่นๆ ของกูเกิล เช่น Speech-to-Text หรือ Dialogflow ได้อย่างราบรื่น นอกจากนี้ ยังมีเครื่องมือ Audio Gallery บนเว็บไซต์ Vertex AI ที่ให้ผู้ใช้ทดลองสร้างเสียงพูดจากข้อความตัวอย่างได้ทันที โดยไม่ต้องเขียนโค้ด

กูเกิลยืนยันว่าโมเดลนี้ถูกออกแบบมาเพื่อใช้งานที่ปลอดภัยและมีจริยธรรม โดยมีมาตรการป้องกันการใช้งานในทางที่ผิด เช่น การตรวจสอบเนื้อหาที่สร้างขึ้น อย่างไรก็ตาม ในขณะนี้ยังอยู่ในสถานะ Preview ดังนั้นอาจมีการปรับปรุงคุณภาพและขยายการรองรับภาษาเพิ่มเติมในอนาคต

การเปิดตัวโมเดล TTS นี้สอดคล้องกับกลยุทธ์ของกูเกิลในการขยายระบบนิเวศ Gemini ให้ครอบคลุมการใช้งานด้านเสียงและมัลติมีเดียมากยิ่งขึ้น โดยเฉพาะในตลาดเอเชียและยุโรปที่มีความหลากหลายทางภาษาสูง ผู้ประกอบการธุรกิจสามารถนำไปใช้ในการพัฒนาแอปพลิเคชันที่ต้องการการสื่อสารด้วยเสียง เช่น ผู้ช่วยส่วนตัวเสมือนจริง ระบบ call center อัตโนมัติ หรือเนื้อหาความบันเทิงแบบ generative AI

สรุปแล้ว Gemini 3.1 TTS Preview คือโซลูชัน TTS ที่ทรงพลังที่สุดจากกูเกิลในปัจจุบัน ด้วยการรองรับ 70 ภาษาและความสามารถในการแสดงออกที่เหนือชั้น จะช่วยยกระดับประสบการณ์ผู้ใช้ในแอปพลิเคชันต่างๆ ให้สมจริงยิ่งขึ้น นักพัฒนาสามารถเริ่มใช้งานได้แล้ววันนี้ผ่าน Google Cloud Console เพื่อสำรวจศักยภาพเต็มรูปแบบ

(จำนวนคำประมาณ 720 คำ)

This Article is sponsored by Gnoppix AI (https://www.gnoppix.org)