ByteDance เปิดตัวโมเดล Helios แบบ Open-Weight นำการสร้างวิดีโอ AI ความยาว 1 นาทีใกล้เคียงเวลาจริง
ByteDance บริษัทแม่ของ TikTok ได้เปิดตัวโมเดล Helios ซึ่งเป็นโมเดลสร้างวิดีโอด้วยปัญญาประดิษฐ์ (AI) แบบน้ำหนักเปิด (open-weight) ที่มีความสามารถโดดเด่นในการสร้างวิดีโอความยาวนานถึง 1 นาที โดยใกล้เคียงกับความเร็วแบบเรียลไทม์ (real-time) โมเดลนี้ถือเป็นก้าวสำคัญในการพัฒนาเทคโนโลยีสร้างวิดีโอ AI ที่สามารถใช้งานได้อย่างกว้างขวาง เนื่องจากเปิดให้ดาวน์โหลดและใช้งานฟรีภายใต้ใบอนุญาต Apache 2.0
Helios ถูกออกแบบมาเพื่อสร้างวิดีโอความละเอียดสูง โดยรองรับความยาวสูงสุด 60 วินาทีที่ความละเอียด 720p (1280x720 พิกเซล) หรือ 480p ในกรณีที่ต้องการความเร็วสูงขึ้น ผลการทดสอบแสดงให้เห็นว่าความเร็วในการอนุมาน (inference speed) อยู่ที่ 1.47 วินาทีสำหรับวิดีโอ 1 วินาทีจริง บนการ์ดจีพียู NVIDIA H100 ซึ่งใกล้เคียงกับความเร็วเรียลไทม์อย่างมาก หากเทียบกับโมเดลอื่นๆ เช่น OpenAI’s Sora ที่ใช้เวลานานกว่านี้มาก Helios ถือว่ามีประสิทธิภาพเหนือกว่าในด้านความเร็ว โดยเฉพาะเมื่อพิจารณาถึงความยาววิดีโอที่ยาวนาน
กระบวนการฝึกโมเดล Helios ใช้ข้อมูลวิดีโอยาวรวมกว่า 10 ล้านชั่วโมง โดยครอบคลุมหลากหลายโดเมน เช่น การเต้นรำ กีฬา การทำอาหาร และภาพถ่ายทางอากาศ โมเดลนี้ใช้สถาปัตยกรรมแบบ latent diffusion ร่วมกับ flow matching ซึ่งช่วยให้การสร้างวิดีโอมีความต่อเนื่องและสมจริงยิ่งขึ้น Helios มีพารามิเตอร์ทั้งหมด 3.2 พันล้านตัว (3.2B parameters) โดยแบ่งเป็นส่วนต่างๆ เช่น stage 1 สำหรับการทำความเข้าใจข้อความ (text understanding) stage 2 สำหรับการสร้างวิดีโอคร่าวๆ และ stage 3 สำหรับการปรับแต่งรายละเอียด (refinement)
ในด้านคุณภาพ ByteDance อ้างว่า Helios สามารถสร้างวิดีโอที่เหนือกว่าโมเดลเปิดอื่นๆ เช่น HunyuanVideo และ Step-Video ทั้งในด้านความสอดคล้องทางนัยยะ (semantic alignment) ความสมจริง (realism) และการเคลื่อนไหว (motion quality) ผลการประเมินจาก VBench แสดงให้เห็นว่า Helios ได้คะแนนสูงในหมวดหมู่ต่างๆ เช่น subject consistency (84.7) background consistency (84.1) และ temporal flickering (84.1) ซึ่งสูงกว่าโมเดลเปรียบเทียบอย่าง CogVideoX-5B (คะแนนเฉลี่ย 82.3) และ HunyuanVideo (76.8)
นอกจากนี้ Helios ยังเด่นในด้านการควบคุม โดยสามารถรับ input เป็นข้อความ (text-to-video) รูปภาพ (image-to-video) หรือแม้แต่การขยายวิดีโอ (video extension) ผู้ใช้สามารถปรับแต่งสไตล์การเคลื่อนไหว เช่น slow motion หรือ fast motion ได้อย่างละเอียด ตัวอย่างวิดีโอที่สร้างจาก Helios แสดงให้เห็นถึงการเคลื่อนไหวที่ลื่นไหล เช่น นักเต้นที่เคลื่อนไหวซับซ้อน การถ่ายภาพทางอากาศที่สวยงาม หรือฉากการทำอาหารที่สมจริง โดยไม่ปรากฏข้อบกพร่องชัดเจน เช่น การสั่นไหวหรือการเปลี่ยนรูปร่างผิดปกติ
เมื่อเทียบกับโมเดลเชิงพาณิชย์อย่าง Sora ของ OpenAI ซึ่งยังไม่เปิดให้ใช้งานสาธารณะ Helios มีข้อได้เปรียบในด้านการเข้าถึง เนื่องจากเป็นโมเดลเปิดที่สามารถรันบนฮาร์ดแวร์ทั่วไป ผู้พัฒนาสามารถ fine-tune โมเดลเพื่อใช้งานเฉพาะทาง เช่น การสร้างเนื้อหาสำหรับโซเชียลมีเดียหรือการศึกษา ByteDance ยังเปิดโค้ดซอร์สและน้ำหนักโมเดลบน Hugging Face ทำให้ชุมชนนักพัฒนาสามารถทดลองและปรับปรุงได้ทันที
อย่างไรก็ตาม Helios ยังมีข้อจำกัดบางประการ เช่น การรองรับความละเอียดสูงสุดที่ 720p และความยาว 60 วินาที ซึ่งอาจไม่เพียงพอสำหรับการใช้งานเชิงพาณิชย์ที่ต้องการ 1080p หรือนานกว่านั้น นอกจากนี้ โมเดลอาจมีปัญหาเรื่อง temporal consistency ในฉากซับซ้อน หรือการสร้างข้อความภายในวิดีโอที่ไม่สมบูรณ์แบบ ByteDance แนะนำให้ใช้ quantization เพื่อลดขนาดโมเดลลงเหลือ 4-bit หรือ 8-bit สำหรับการรันบนอุปกรณ์ที่มีทรัพยากรจำกัด โดยไม่สูญเสียคุณภาพมากนัก
การเปิดตัว Helios สะท้อนถึงแนวโน้มของ ByteDance ในการผลักดันเทคโนโลยี AI แบบเปิด หลังจากความสำเร็จของโมเดลภาษาเช่น Doubao และ Jimeng AI ซึ่งช่วยให้บริษัทแข่งขันกับผู้นำตลาดอย่าง OpenAI และ Google ได้อย่างสูสี ในบริบทธุรกิจ การมีโมเดลวิดีโอ AI ที่รวดเร็วและเปิดกว้างเช่นนี้ จะช่วยลดต้นทุนการผลิตเนื้อหา โดยเฉพาะสำหรับแพลตฟอร์มอย่าง TikTok ที่ต้องการวิดีโอจำนวนมหาศาล ผู้ประกอบการสามารถนำ Helios ไปประยุกต์ใช้ในการสร้างโฆษณา การฝึกอบรม หรือเนื้อหาสร้างสรรค์ โดยไม่ต้องพึ่งพาบริการคลาวด์ราคาแพง
ปัจจุบัน Helios สามารถดาวน์โหลดได้จาก Hugging Face (https://huggingface.co/ByteDance/Helios-Video) พร้อมตัวอย่างโค้ด Gradio สำหรับทดสอบ ผู้ที่สนใจสามารถเริ่มใช้งานได้ทันทีบนเครื่องที่มี GPU RTX 4090 หรือสูงกว่า การพัฒนาต่อไปของโมเดลนี้คาดว่าจะมุ่งเน้นการเพิ่มความยาว ความละเอียด และความเร็ว เพื่อเข้าใกล้การใช้งานเรียลไทม์อย่างแท้จริง ซึ่งจะปฏิวัติอุตสาหกรรมเนื้อหาดิจิทัลในอนาคต
(จำนวนคำประมาณ 720 คำ)
This Article is sponsored by Gnoppix AI (https://www.gnoppix.org)