โมเดล ai ใหม่ สร้างวิดีโอลิปซิงค์ยาว 45 นาที จากภาพถ่าย一张 รันแบบเรียลไทม์

โมเดลปัญญาประดิษฐ์ใหม่ สร้างวิดีโอซิงค์ริมฝีปากยาว 45 นาที จากภาพถ่ายเพียง一张 และทำงานแบบเรียลไทม์

นักวิจัยจากมหาวิทยาลัยเทคโนโลยีนานยาง (Nanyang Technological University) และอาลีบาบา ได้พัฒนาโมเดลปัญญาประดิษฐ์รุ่นใหม่ที่สามารถสร้างวิดีโอซิงค์ริมฝีปากความยาวสูงสุด 45 นาที จากภาพถ่ายใบหน้าเพียงภาพเดียว โดยโมเดลนี้ทำงานแบบเรียลไทม์ ซึ่งถือเป็นความก้าวหน้าอย่างสำคัญในด้านการสร้างภาพเคลื่อนไหวใบหน้า (facial animation) ที่ขับเคลื่อนด้วยเสียง

โมเดลดังกล่าวมีชื่อว่า “Long-form Lip Sync Model” หรือที่เรียกสั้น ๆ ว่า “LLS” โดยสามารถรับอินพุตเป็นภาพถ่ายใบหน้าคุณภาพสูงเพียง一张 และไฟล์เสียงความยาวนาน จากนั้นจึงสร้างวิดีโอที่ใบปากขยับ sincronize กับเสียงได้อย่างสมจริง โดยไม่ต้องใช้ข้อมูลฝึกอบรมเพิ่มเติมหรือโมเดลเสริมอื่น ๆ การทดสอบแสดงให้เห็นว่าโมเดลนี้สามารถจัดการกับวิดีโอยาวนานถึง 45 นาที โดยรักษาคุณภาพการซิงค์ริมฝีปากได้ดีเยี่ยม แม้ในกรณีที่เสียงมีความซับซ้อน เช่น การพูดเร็ว การหยุดพัก หรือน้ำเสียงหลากหลาย

เทคโนโลยีหลักที่ใช้ในโมเดลนี้คือการผสมผสานระหว่างโครงสร้าง Transformer-based architecture กับ diffusion model สำหรับการสร้างภาพเคลื่อนไหว โดยเฉพาะส่วนของใบหน้า โมเดลจะแยกการประมวลผลออกเป็นสองขั้นตอนหลัก ขั้นตอนแรกคือการสกัดคุณสมบัติใบหน้า (facial landmarks) และการเคลื่อนไหวของริมฝีปากจากภาพถ่ายต้นฉบับ โดยใช้เทคนิค optical flow เพื่อติดตามการเคลื่อนไหวที่ละเอียดอ่อน ขั้นตอนที่สองคือการ generate กรอบภาพใหม่ (frames) ที่ซิงค์กับ waveform ของเสียง โดยใช้ conditional diffusion process ซึ่งช่วยให้การสร้างภาพมีความเสถียรและสมจริง

จุดเด่นที่สำคัญคือความสามารถในการทำงานแบบเรียลไทม์ โดยโมเดลนี้รันบน GPU ทั่วไป เช่น NVIDIA RTX 4090 ได้ที่ความเร็ว 30 เฟรมต่อวินาที (FPS) สำหรับวิดีโอความละเอียด 512x512 พิกเซล และสามารถ scale ขึ้นเป็น 1024x1024 ได้โดยไม่เสียประสิทธิภาพมากนัก เมื่อเทียบกับโมเดลก่อนหน้า เช่น Wav2Lip หรือ SadTalker ซึ่งมักจำกัดความยาววิดีโอไว้ที่ไม่กี่นาที และต้องการเวลาประมวลผลนาน LLS สามารถสร้างวิดีโอยาวโดยไม่เกิดปัญหา drift หรือการสูญเสีย synchronization ในช่วงท้ายของคลิป

ในการทดสอบ นักวิจัยใช้ชุดข้อมูล VoxCeleb2 และ LRS3 ซึ่งประกอบด้วยวิดีโอการพูดของบุคคลจริงหลายพันชั่วโมง ผลลัพธ์วัดด้วยเมตริก SyncNet score สำหรับการซิงค์ริมฝีปาก (คะแนนเฉลี่ย 0.85) และ FID score สำหรับความสมจริงของภาพ (คะแนน 12.5) ซึ่งดีกว่าโมเดลคู่แข่งอย่าง EMO และ LivePortrait ถึง 20-30% นอกจากนี้ ยังมีการทดสอบกับเสียงจากภาษาต่าง ๆ รวมถึงภาษาจีน อังกฤษ และฝรั่งเศส โดยรักษาคุณภาพได้ดี โดยไม่ต้อง fine-tune เพิ่มเติม

โมเดลนี้ยังรองรับการปรับแต่งเพิ่มเติม เช่น การเพิ่ม expression ของใบหน้า (เช่น ยิ้มหรือขมวดคิ้ว) ตามอารมณ์ในเสียง และการ blend กับวิดีโอพื้นหลังจริง การประยุกต์ใช้ที่เป็นไปได้ ได้แก่ การสร้าง avatar สำหรับการประชุมออนไลน์ วิดีโอประชาสัมพันธ์ การพากย์เสียงในภาพยนตร์ หรือแม้แต่ deepfake ที่ควบคุมได้ อย่างไรก็ตาม นักวิจัยเตือนถึงความเสี่ยงด้านจริยธรรม โดยเฉพาะการใช้งานที่อาจนำไปสู่การ伪造ข้อมูล และแนะนำให้ใช้ watermarking เพื่อตรวจสอบแหล่งที่มา

โมเดล LLS เปิดให้ดาวน์โหลดฟรีบน GitHub พร้อมโค้ดต้นฉบับและน้ำหนักโมเดลที่ฝึกแล้ว ผู้ใช้งานสามารถรันได้บนเครื่อง local โดยใช้ framework PyTorch รุ่น 2.1 ขึ้นไป ตัวอย่างเดโมแสดงการสร้างวิดีโอจากภาพเซเลบริตี้ชื่อดัง โดยซิงค์กับสุนทรพจน์ยาวนาน ซึ่งดูสมจริงจนแทบแยกไม่ออกจากวิดีโอจริง

ความก้าวหน้านี้ไม่เพียงยกระดับเทคโนโลยี talking head synthesis แต่ยังเปิดประตูสู่การใช้งานในอุตสาหกรรมบันเทิงและการสื่อสาร โดยคาดว่าจะมีการพัฒนาต่อเนื่องเพื่อรองรับ multi-speaker และ 3D animation ในอนาคต

(จำนวนคำประมาณ 650 คำ)

This Article is sponsored by Gnoppix AI (https://www.gnoppix.org)