Lightricks เปิดโอเพ่นซอร์สโมเดลวิดีโอ AI LTX-2 ท้าชน Sora และ Veo

ไลท์ทริคส์เปิดซอร์สโมเดล AI สร้างวิดีโอ LTX 2 ท้าชน Sora และ Veo

ไลท์ทริคส์ (Lightricks) บริษัทสตาร์ทอัพจากอิสราเอล ผู้พัฒนาแอปพลิเคชันแก้ไขภาพยอดนิยมอย่าง Facetune และ Enlight ได้ประกาศเปิดซอร์สโมเดลปัญญาประดิษฐ์ (AI) สำหรับสร้างวิดีโอชื่อ LTX 2 ซึ่งเป็นโมเดลรุ่นล่าสุดที่สามารถแข่งขันกับโมเดลชั้นนำอย่าง Sora ของ OpenAI และ Veo ของ Google ได้อย่างสูสี โมเดลนี้ถูกเผยแพร่ภายใต้ใบอนุญาต Apache 2.0 บนแพลตฟอร์ม Hugging Face ทำให้ผู้พัฒนาและนักวิจัยทั่วโลกสามารถเข้าถึง ดาวน์โหลด และปรับแต่งได้ฟรี

LTX 2 เป็นโมเดลแบบ Diffusion Transformer (DiT) ขนาดใหญ่ที่มีพารามิเตอร์ทั้งหมด 13 พันล้านตัว โดยได้รับการฝึกฝนจากชุดข้อมูลขนาดมหาศาลประกอบด้วยคู่ข้อความ-วิดีโอกว่า 200 ล้านคู่ ข้อมูลเหล่านี้ครอบคลุมหลากหลายโดเมน เช่น ภาพถ่ายจริง สไตล์ภาพวาด สไตล์ภาพถ่าย และแอนิเมชัน ทำให้โมเดลมีความสามารถในการสร้างวิดีโอคุณภาพสูงได้หลากหลายรูปแบบ โมเดลนี้สามารถสร้างวิดีโอความยาว 10 วินาที ความละเอียด 768x768 พิกเซล ที่อัตราเฟรม 24 เฟรมต่อวินาที (fps) โดยใช้เวลาในการสร้างเพียงไม่กี่นาทีบนฮาร์ดแวร์ทั่วไป เช่น GPU ระดับผู้บริโภค

ในด้านประสิทธิภาพ LTX 2 ได้รับการทดสอบด้วยชุดเมตริกมาตรฐานสำหรับโมเดลสร้างวิดีโอ เช่น VBench ซึ่งวัดคุณสมบัติ 16 ประการ แบ่งเป็นหมวดหมู่หลัก 4 หมวด ได้แก่ เนื้อหา (subject consistency, background consistency, character consistency), รูปแบบ (temporal flickering, motion smoothness, temporal consistency), วิดีโอคุณภาพ (aesthetic score, video rate, image rate, text-video alignment) และการประเมินโดยมนุษย์ (human preference) ผลการทดสอบแสดงให้เห็นว่า LTX 2 มีคะแนนเฉลี่ยสูงถึง 84.4% บน VBench ซึ่งเทียบเท่าหรือเหนือกว่าโมเดลปิดอย่าง Sora (82.0%) และ Veo (84.6%) ในหลายเมตริกย่อย เช่น ความสอดคล้องของตัวละครและพื้นหลัง LTX 2 ทำได้ดีเยี่ยม โดยมีคะแนนสูงกว่า Sora ถึง 10% ในบางด้าน นอกจากนี้ ยังมีการทดสอบด้วยโมเดล VBench++ ซึ่งยกระดับการประเมินให้เข้มงวดยิ่งขึ้น โดย LTX 2 ทำได้ 72.4% เทียบกับ Veo 2 ที่ 81.1% แต่ยังคงแข็งแกร่งในด้านความสมจริงและความนุ่มนวลของการเคลื่อนไหว

ไลท์ทริคส์เน้นย้ำถึงจุดเด่นของ LTX 2 ในด้านการเคลื่อนไหวที่สมจริงและความสอดคล้องทางเวลา (temporal consistency) ซึ่งเป็นปัญหาหลักของโมเดลสร้างวิดีโอหลายตัว โมเดลนี้ใช้เทคนิค Flow Matching แทน Denoising Diffusion Probabilistic Models (DDPM) ทั่วไป เพื่อเพิ่มประสิทธิภาพในการฝึกฝนและการอนุมาน นอกจากนี้ ยังมีการปรับแต่งสถาปัตยกรรม DiT ให้เหมาะสมกับการสร้างวิดีโอ โดยเพิ่มช่องทาง (channels) ในแต่ละเฟรมและใช้ AdaLN-Mod เพิ่มเติมเพื่อรักษาความสอดคล้องระหว่างเฟรม ทำให้วิดีโอที่สร้างออกมามีความนุ่มนวลและปราศจากปัญหาการกระพริบ (flickering)

การเปิดซอร์ส LTX 2 ถือเป็นก้าวสำคัญในอุตสาหกรรม AI สร้างวิดีโอ เนื่องจากโมเดลส่วนใหญ่ เช่น Sora และ Veo ยังคงเป็นโมเดลปิดที่จำกัดการเข้าถึง LTX 2 มาพร้อมกับโค้ดฝึกฝน โค้ดอนุมาน และชุดน้ำหนักโมเดลทั้งหมด ทำให้ชุมชนโอเพ่นซอร์สสามารถนำไปพัฒนาต่อได้ เช่น การปรับขนาดโมเดล การฝึกฝนเพิ่มเติม (fine-tuning) หรือการรวมกับโมเดลอื่นๆ ผู้ใช้สามารถทดลองโมเดลนี้ได้ทันทีผ่าน Hugging Face Spaces ซึ่งมีเดโมออนไลน์ให้ใช้งานฟรี โดยป้อนข้อความอธิบาย (prompt) เพื่อสร้างวิดีโอ เช่น “เด็กหญิงกำลังเต้นรำในทุ่งหญ้าที่ปกคลุมด้วยดอกไม้หลากสีสัน” หรือ “นกอินทรีทะยานลงมาจากท้องฟ้าเหนือภูเขา”

ไลท์ทริคส์ก่อตั้งขึ้นในปี 2013 และมีชื่อเสียงจากผลิตภัณฑ์แก้ไขภาพด้วย AI เช่น Videoleap และ Photoleap ซึ่งมียอดดาวน์โหลดรวมกว่า 100 ล้านครั้ง บริษัทเคยระดมทุนได้กว่า 300 ล้านดอลลาร์สหรัฐ และมีพนักงานกว่า 500 คนทั่วโลก การพัฒนา LTX 2 เป็นส่วนหนึ่งของกลยุทธ์ LTX Suite ซึ่งรวมโมเดลสร้างวิดีโอ รูปภาพ และเสียงเข้าด้วยกัน โดยก่อนหน้านี้ LTX-Video 0.9.7 ได้รับความนิยมสูงสุดในชาร์ต Trending บน Hugging Face ด้วยคะแนนดาว 400 ดวงภายใน 24 ชั่วโมง ไลท์ทริคส์มุ่งหวังให้ LTX 2 เป็นมาตรฐานใหม่สำหรับโมเดลโอเพ่นซอร์ส โดยวางแผนพัฒนารุ่นต่อไปที่มีความละเอียดสูงขึ้น ความยาววิดีโอยาวขึ้น และรองรับหลายภาษา

การเปิดตัว LTX 2 เกิดขึ้นท่ามกลางกระแสการแข่งขันที่รุนแรงในตลาด AI สร้างวิดีโอ โดยบริษัทเทคโนโลยียักษ์ใหญ่อย่าง OpenAI และ Google ยังคงครองตลาดด้วยโมเดลปิด แต่ LTX 2 พิสูจน์ให้เห็นว่าโมเดลโอเพ่นซอร์สสามารถแข่งขันได้ในระดับเดียวกัน ทั้งในด้านคุณภาพและประสิทธิภาพ นักพัฒนาที่สนใจสามารถเข้าถึงได้ที่ Hugging Face: https://huggingface.co/Lightricks/LTX-Video-2 และร่วมมีส่วนร่วมในการพัฒนาต่อไป

(จำนวนคำประมาณ 720 คำ)

This Article is sponsored by Gnoppix AI (https://www.gnoppix.org)