Mistral เปิดตัว Voxtral โมเดล TTS แบบน้ำหนักเปิดครั้งแรก คัดลอกเสียงจากคลิปเสียงเพียง 3 วินาที ใน 9 ภาษา
Mistral AI บริษัทสตาร์ทอัพจากฝรั่งเศส ได้เปิดตัว Voxtral-1.0-B ซึ่งเป็นโมเดล Text-to-Speech (TTS) แบบน้ำหนักเปิด (open-weight) ตัวแรกของบริษัท โดยโมเดลนี้สามารถคัดลอกเสียงพูด (voice cloning) ได้อย่างแม่นยำจากคลิปเสียงอ้างอิงเพียง 3 วินาที และรองรับการสร้างเสียงพูดใน 9 ภาษาหลัก ได้แก่ ภาษาอังกฤษ (สำเนียงอเมริกันและอังกฤษ), ฝรั่งเศส, เยอรมัน, อิตาลี, โปรตุเกส (สำเนียงบราซิล), สเปน, ญี่ปุ่น, เกาหลี และฮินดี
โมเดล Voxtral-1.0-B มีพารามิเตอร์ทั้งหมด 1 พันล้านตัว (1B parameters) และเผยแพร่ภายใต้ใบอนุญาต Apache 2.0 ทำให้สามารถใช้งาน ดาวน์โหลด และปรับแต่งได้อย่างอิสระบนแพลตฟอร์ม Hugging Face นักพัฒนาสามารถทดลองใช้งานได้ทันทีผ่าน Hugging Face Spaces ซึ่งมีเดโมพร้อมใช้งาน โดยผู้ใช้เพียงอัปโหลดคลิปเสียงอ้างอิงและข้อความที่ต้องการแปลงเป็นเสียง ก็สามารถสร้างเสียงพูดที่เหมือนเสียงต้นฉบับได้ในทันที
คุณสมบัติหลักของ Voxtral
หนึ่งในจุดเด่นที่สำคัญของ Voxtral คือความสามารถในการคัดลอกเสียงแบบ zero-shot voice cloning ซึ่งหมายถึงโมเดลสามารถสร้างเสียงที่คล้ายคลึงกับเสียงอ้างอิงได้โดยไม่ต้องฝึกอบรมเพิ่มเติม แม้จะมีคลิปเสียงเพียง 3 วินาทีเท่านั้น นอกจากนี้ โมเดลยังรองรับการสร้างเสียงพูดที่เป็นธรรมชาติ มีจังหวะการออกเสียง (prosody) และสำเนียงที่เหมาะสมกับแต่ละภาษา ทำให้เหมาะสำหรับการใช้งานในแอปพลิเคชันหลากหลาย เช่น ระบบช่วยเหลือด้วยเสียง (voice assistants), audiobook, เกม และเครื่องมือสร้างเนื้อหาแบบ generative AI
Voxtral ถูกฝึกอบรมบนชุดข้อมูลขนาดใหญ่กว่า 0.5 ล้านชั่วโมงของข้อมูลเสียงพูด ซึ่งครอบคลุม 9 ภาษาดังกล่าว ทำให้โมเดลมีความสามารถในการจัดการกับสำเนียงและบริบททางภาษาที่หลากหลาย โมเดลนี้ใช้สถาปัทยกรรมที่พัฒนาขึ้นใหม่ โดยผสมผสานเทคนิคขั้นสูง เช่น flow matching สำหรับการสร้างเสียง และการฝึกแบบ end-to-end เพื่อให้ได้คุณภาพเสียงที่สูง
ผลการทดสอบประสิทธิภาพ (Benchmarks)
จากการทดสอบในชุดข้อมูลมาตรฐาน เช่น TTS Arena, Voice Cloning Arena และ TTSSynth Arena พบว่า Voxtral-1.0-B มีประสิทธิภาพเหนือกว่าโมเดล TTS ชั้นนำอื่นๆ หลายตัว โดยเฉพาะในด้านการคัดลอกเสียงและการสร้างเสียงข้ามภาษา (cross-lingual synthesis)
- ใน TTS Arena: Voxtral ได้คะแนน ELO สูงถึง 1,144 ซึ่งดีกว่า ElevenLabs V2 (1,105) และ XTTS-v2 (1,037)
- ใน Voice Cloning Arena: Voxtral ทำได้ดีเยี่ยมในการคัดลอกเสียงจากคลิปสั้นๆ โดยมีคะแนนสูงกว่า Parler-TTS และ Fish Speech
- ใน TTSSynth Arena: โมเดลนี้แสดงศักยภาพในการสร้างเสียงธรรมชาติ โดยเอาชนะ MeloTTS และ StyleTTS2
นอกจากนี้ Voxtral ยังมีประสิทธิภาพในการสร้างเสียงข้ามภาษา เช่น ใช้คลิปเสียงภาษาอังกฤษเพื่อสร้างเสียงภาษาฝรั่งเศส ซึ่งเป็นความสามารถที่หาได้ยากในโมเดล open-weight อื่นๆ
วิธีการใช้งาน Voxtral
สำหรับนักพัฒนาที่สนใจใช้งาน สามารถติดตั้งผ่าน pip จาก Hugging Face ได้ง่ายดาย โดยรันคำสั่งดังนี้:
pip install voxtral
จากนั้น นำเข้าโมเดลและใช้งานตัวอย่าง:
from voxtral.modeling_voxtral import VoxtralForConditionalGeneration
from voxtral.processor import VoxtralProcessor
import torch
import scipy.io.wavfile as wf
model_id = "mistralai/voxtral-1.0-b"
processor = VoxtralProcessor.from_pretrained(model_id)
model = VoxtralForConditionalGeneration.from_pretrained(
model_id,
torch_dtype=torch.bfloat16,
device_map="auto"
)
# ตัวอย่างการใช้งาน voice cloning
prompt = "The new TTS model is great!"
reference_audio, _ = wf.read("reference.wav") # คลิปเสียงอ้างอิง 3 วินาที
inputs = processor(text=prompt, reference_audio=reference_audio, return_tensors="pt").to(model.device)
with torch.no_grad():
generated_audio = model.generate(**inputs, max_new_tokens=1024)[0]
wf.write("output.wav", rate=24000, data=generated_audio.cpu().numpy())
โค้ดตัวอย่างนี้แสดงให้เห็นถึงความเรียบง่ายในการใช้งาน โดยโมเดลจะสร้างไฟล์เสียง output.wav ที่มีเสียงพูดเหมือนกับ reference.wav แต่พูดข้อความใหม่ตามที่กำหนด ผู้ใช้สามารถปรับแต่งพารามิเตอร์ เช่น ความยาวเสียงสูงสุด (max_new_tokens) เพื่อให้เหมาะกับความต้องการ
ข้อจำกัดและแนวโน้มในอนาคต
แม้ Voxtral จะมีประสิทธิภาพสูง แต่ยังมีข้อจำกัดบางประการ เช่น การสร้างเสียงในภาษาที่ไม่ใช่ 9 ภาษาหลักอาจไม่ดีเท่า และโมเดลขนาด 1B อาจต้องการทรัพยากร GPU ที่สูงในการรันแบบ real-time Mistral AI วางแผนพัฒนาเวอร์ชันต่อไป โดยอาจเพิ่มภาษาใหม่ ลดขนาดโมเดล และปรับปรุงความเร็วในการสร้างเสียง
การเปิดตัว Voxtral ถือเป็นก้าวสำคัญในวงการ AI แบบ open-weight โดยเฉพาะ TTS ซึ่งก่อนหน้านี้ส่วนใหญ่ถูกครอบงำโดยโมเดล closed-source เช่น ElevenLabs หรือ Google WaveNet การมีโมเดลคุณภาพสูงแบบเปิดกว้างนี้จะช่วยเร่งนวัตกรรมในอุตสาหกรรม โดยเฉพาะสำหรับธุรกิจที่ต้องการปรับแต่งเสียงพูดสำหรับแบรนด์ของตนเอง
Voxtral ไม่เพียงแต่แสดงถึงความก้าวหน้าทางเทคนิคของ Mistral แต่ยังยืนยันถึงพันธกิจของบริษัทในการ democratize AI ผ่านการแบ่งปันน้ำหนักโมเดลแบบเปิด นักพัฒนาและธุรกิจสามารถเริ่มใช้งานได้ทันที เพื่อนำไปประยุกต์ในโครงการต่างๆ ที่ต้องการเสียงพูดคุณภาพสูง
(จำนวนคำประมาณ 728 คำ)
This Article is sponsored by Gnoppix AI (https://www.gnoppix.org)