Seedance 2.0 ของ ByteDance คัดลอกตัวละครดิสนีย์ได้เก่งมาก จนบริษัทเรียกมันว่า “การปล้นชิงแบบเสมือน”

ByteDance เปิดตัว SeaDance 2.0 โมเดลสร้างวิดีโอที่เลียนแบบตัวละครดิสนีย์ได้อย่างสมบูรณ์แบบ บริษัทเรียกมันว่า “การปล้นสมบัติเสมือนจริง”

ByteDance ผู้พัฒนาแพลตฟอร์ม TikTok ได้เปิดตัว SeaDance 2.0 ซึ่งเป็นชุดโมเดลสร้างวิดีโอแบบโอเพ่นเวท (open-weight) จาก SeaAI Lab ของบริษัท โดยโมเดลนี้โดดเด่นด้วยความสามารถในการเลียนแบบตัวละครและสไตล์แอนิเมชันของดิสนีย์ได้อย่างน่าทึ่ง จนตัว ByteDance เองถึงกับเรียกมันว่า “virtual smash and grab” หรือ “การปล้นสมบัติเสมือนจริง” เพื่อเปรียบเทียบกับความสามารถในการคัดลอกเทรลเลอร์ Moana 2 ของดิสนีย์ได้อย่างละเอียดยิบ

SeaDance 2.0 ประกอบด้วยสองรุ่นหลัก ได้แก่ SeaDance 2.0 Lite ที่มีพารามิเตอร์ 1.3 พันล้านตัว และ SeaDance 2.0 Pro ที่มีพารามิเตอร์ 4.3 พันล้านตัว โมเดลทั้งสองรุ่นสามารถสร้างวิดีโอความละเอียด 768×768 พิกเซล ความยาวสูงสุด 768 เฟรม ซึ่งเท่ากับประมาณ 28 วินาทีที่อัตราเฟรม 30 ฟรames ต่อวินาที ความสามารถหลักของโมเดลนี้อยู่ที่การรักษาความสอดคล้องของตัวละคร (character consistency) การเคลื่อนไหวที่สมจริง (motion quality) และการเลียนแบบสไตล์เฉพาะ เช่น สไตล์ดิสนีย์ โดยในตัวอย่างเดโม ByteDance แสดงให้เห็นว่า SeaDance 2.0 Pro สามารถสร้างเทรลเลอร์ Moana 2 ได้ใกล้เคียงกับต้นฉบับมาก รวมถึงการแสดงชื่อเรื่องและองค์ประกอบภาพอื่นๆ

ในโพสต์บล็อกของ ByteDance ระบุอย่างติดตลกว่า “เทรลเลอร์ Moana 2 ของดิสนีย์เป็นกระแสฮิต แต่ SeaDance 2.0 Pro ของเราคือการปล้นสมบัติเสมือนจริง” ซึ่งสะท้อนถึงประสิทธิภาพที่เหนือชั้นในการคัดลอกสินทรัพย์ทางปัญญาของดิสนีย์ โมเดลนี้ถูกฝึกฝนด้วยวิดีโอคุณภาพสูงกว่า 40 ล้านคลิป โดยใช้สถาปัตยกรรม DiT (Diffusion Transformer) สำหรับส่วนโมเดลวิดีโอ ซึ่งช่วยให้การสร้างภาพเคลื่อนไหวมีความละเอียดและต่อเนื่องสูง นอกจากนี้ยังใช้ Flow Matching เพื่อปรับปรุง temporal modeling ทำให้การเคลื่อนไหวระหว่างเฟรมต่างๆ ลื่นไหลและเป็นธรรมชาติมากขึ้น

จากผลการทดสอบบนบ enchmark VBench ซึ่งเป็นมาตรฐานชั้นนำสำหรับการประเมินโมเดลสร้างวิดีโอ SeaDance 2.0 Pro ครองอันดับหนึ่งในหลายหมวดหมู่ เช่น คุณภาพการเคลื่อนไหว ความสอดคล้องของตัวละคร และการเลียนแบบสไตล์ดิสนีย์ โดยทำคะแนนสูงกว่าโมเดลคู่แข่งอย่าง HunyuanVideo-HD, Step-Video และ Kling ในด้านการรักษาลักษณะตัวละครตลอดทั้งคลิป นอกจากนี้ยังเด่นในเรื่องการจัดการฉากซับซ้อน เช่น การเคลื่อนไหวของตัวละครหลายตัวพร้อมกัน หรือการเปลี่ยนมุมกล้องที่รวดเร็ว โดยไม่สูญเสียรายละเอียด

SeaDance 2.0 Lite เหมาะสำหรับผู้ใช้ที่ต้องการประสิทธิภาพสูงแต่ใช้ทรัพยากรน้อยกว่า ในขณะที่รุ่น Pro ให้ผลลัพธ์ระดับมืออาชีพทั้งในด้านความละเอียดและความยาววิดีโอ โมเดลทั้งคู่รองรับการใช้งานผ่าน ComfyUI ซึ่งเป็นเครื่องมือยอดนิยมสำหรับการสร้างภาพและวิดีโอด้วย AI โดยผู้ใช้สามารถดาวน์โหลดได้ฟรีจาก Hugging Face ทำให้เป็นตัวเลือกที่น่าสนใจสำหรับนักพัฒนาและครีเอเตอร์ที่ต้องการทดลองหรือนำไปประยุกต์ใช้ในโครงการต่างๆ

ความสามารถในการเลียนแบบสไตล์ดิสนีย์ของ SeaDance 2.0 ไม่เพียงแต่แสดงถึงความก้าวหน้าทางเทคนิคเท่านั้น แต่ยังชี้ให้เห็นถึงศักยภาพของโมเดลโอเพ่นซอร์สในการแข่งขันกับโมเดลเชิงพาณิชย์ ByteDance เน้นย้ำว่าการฝึกฝนด้วยข้อมูลวิดีโอหลากหลายช่วยให้โมเดลเข้าใจบริบททางวัฒนธรรมและศิลปะได้ดี โดยเฉพาะสไตล์แอนิเมชันแบบตะวันตกที่ดิสนีย์เป็นผู้นำ อย่างไรก็ตาม ความสามารถนี้ก่อให้เกิดคำถามเกี่ยวกับสิทธิ์ในทรัพย์สินทางปัญญา แม้ว่า ByteDance จะนำเสนอในเชิงบวกผ่านมุกตลก แต่ก็สะท้อนถึงความท้าทายในอุตสาหกรรม AI สร้างเนื้อหา

ในแง่เทคนิค SeaDance 2.0 ใช้เทคนิคขั้นสูง เช่น Asymmetric Masked Diffusion Modeling ซึ่งช่วยให้การฝึกฝนมีประสิทธิภาพสูงขึ้น โดยมุ่งเน้นเฉพาะส่วนที่จำเป็นในการสร้างวิดีโอ นอกจากนี้ยังมีการปรับปรุง VAE (Variational Autoencoder) เพื่อให้ภาพมีคุณภาพสูงและลด artifacts ในวิดีโอที่ยาว ผลลัพธ์คือโมเดลที่สามารถสร้างเนื้อหาคุณภาพระดับโปรดักชันได้ โดยไม่ต้องใช้ GPU ขนาดใหญ่เกินไป ทำให้เข้าถึงได้ง่ายสำหรับผู้ใช้ทั่วไปและธุรกิจขนาดกลาง

ByteDance ยังเปิดให้ชุมชนสามารถ fine-tune โมเดลได้ เพื่อปรับให้เข้ากับความต้องการเฉพาะ เช่น การสร้างคอนเทนต์โฆษณาหรือแอนิเมชันสั้นสำหรับโซเชียลมีเดีย ความสำเร็จของ SeaDance 2.0 บนลีดเดอร์บอร์ด VBench ยืนยันถึงความเป็นผู้นำของ ByteDance ในด้าน AI สร้างวิดีโอ ซึ่งอาจนำไปสู่การพัฒนาต่อในอนาคต เช่น การรองรับความละเอียดสูงกว่า หรือการผสานกับเสียงและเพลง

โดยรวมแล้ว SeaDance 2.0 ไม่เพียงเป็นเครื่องมือสร้างสรรค์ที่ทรงพลัง แต่ยังเป็นตัวอย่างของการผสมผสานเทคโนโลยี AI เข้ากับศิลปะแอนิเมชันได้อย่างลงตัว ผู้สนใจสามารถทดลองใช้งานได้ทันทีผ่านแพลตฟอร์ม Hugging Face เพื่อสัมผัสกับ “การปล้นสมบัติเสมือนจริง” นี้ด้วยตัวเอง

(จำนวนคำประมาณ 728 คำ)

This Article is sponsored by Gnoppix AI (https://www.gnoppix.org)