Netflix เปิดซอร์ส VOID กรอบงาน AI ที่ลบวัตถุในวิดีโอและเขียนกฎฟิสิกส์ใหม่ที่วัตถุเหล่านั้นทิ้งไว้

เน็ตฟลิกซ์เปิดซอร์สโค้ด VOID กรอบงาน AI สำหรับลบวัตถุออกจากวิดีโอและปรับปรุงฟิสิกส์ของพื้นหลังที่เหลืออยู่

เน็ตฟลิกซ์ได้ประกาศเปิดซอร์สโค้ด VOID ซึ่งเป็นกรอบงานปัญญาประดิษฐ์ (AI) สำหรับการ inpainting วิดีโอ โดยสามารถลบวัตถุออกจากวิดีโอได้อย่างสมจริง พร้อมทั้งปรับปรุงการเคลื่อนไหวและฟิสิกส์ของพื้นหลังที่เหลืออยู่ให้ดูเป็นธรรมชาติ กรอบงานนี้ถูกพัฒนาขึ้นเพื่อแก้ปัญหาการลบองค์ประกอบที่ไม่ต้องการในเนื้อหาวิดีโอ เช่น การตัดต่อเพื่อการตรวจสอบเนื้อหา การปกป้องความเป็นส่วนตัว หรือการสร้างสรรค์ผลงานใหม่ โดย VOID ใช้เทคนิคการแยกวัตถุ การติดตามการเคลื่อนไหว และการสร้างภาพใหม่ด้วยโมเดล diffusion ทำให้ผลลัพธ์ออกมาดูต่อเนื่องและสมจริงยิ่งกว่าการ inpainting แบบดั้งเดิม

VOID ทำงานผ่านกระบวนการหลายขั้นตอนที่ออกแบบมาอย่างชาญฉลาด ขั้นตอนแรกคือการแยกวัตถุ (object segmentation) โดยใช้ SAM2 (Segment Anything Model 2) ซึ่งเป็นโมเดลจาก Meta ที่มีความสามารถในการแยกวัตถุได้ละเอียดและแม่นยำ จากนั้นจึงใช้ RAFT (Recurrent All-Pairs Field Transforms) สำหรับการประมาณ optical flow เพื่อติดตามการเคลื่อนไหวของวัตถุตลอดทั้งคลิปวิดีโอ ช่วยให้ VOID สามารถสร้าง mask ที่ต่อเนื่องระหว่างเฟรมได้อย่างแม่นยำ

หลังจากได้ mask แล้ว VOID จะใช้ Stable Video Diffusion (SVD) ซึ่งเป็นโมเดล diffusion จาก Stability AI สำหรับการ inpainting โดยเฉพาะ SVD ได้รับการปรับแต่งด้วย LoRA (Low-Rank Adaptation) ที่ฝึกฝนบนชุดข้อมูลวิดีโอกว่า 10,000 คลิป ซึ่งชุดข้อมูลนี้ถูกสร้างขึ้นโดยการลบวัตถุแบบสุ่มจากวิดีโอความละเอียด 576x1024 พิกเซล ความยาว 25 เฟรมที่ 6 เฟรมต่อวินาที การฝึก LoRA นี้ใช้เวลาเพียง 1 ชั่วโมงบน GPU อย่าง A100 ทำให้ VOID สามารถปรับใช้ได้ง่ายและมีประสิทธิภาพสูง โดย LoRA นี้ช่วยให้โมเดลเข้าใจบริบทของการลบวัตถุและสร้างพื้นหลังที่สอดคล้องกับฟิสิกส์จริง เช่น การไหลของน้ำ การเคลื่อนไหวของฝูงชน หรือการสะท้อนแสง

ผลลัพธ์ที่ได้จาก VOID แสดงให้เห็นถึงประสิทธิภาพที่เหนือชั้น ในตัวอย่างเดโม มีการลบรถยนต์จากฉากที่มีฝูงชนและการจราจรติดขัด พื้นหลังจะถูกเติมเต็มด้วยรถคันอื่นๆ ที่เคลื่อนไหวอย่างเป็นธรรมชาติ โดยไม่ปรากฏช่องว่างหรือความผิดเพี้ยน นอกจากนี้ ยังมีการลบคนจากฉากที่มีคลื่นน้ำกระเซ็น พื้นหลังจะแสดงการไหลของน้ำและฟองอากาศที่ต่อเนื่องสมจริง หรือการลบวัตถุจากฉากกีฬาที่มีผู้เล่นจำนวนมาก ซึ่ง VOID สามารถรักษาการเคลื่อนไหวของผู้เล่นอื่นๆ และพื้นผิวสนามได้อย่างสมบูรณ์แบบ

สำหรับเน็ตฟลิกซ์ VOID มีคุณค่าเชิงธุรกิจสูง โดยช่วยในการตรวจสอบและปรับปรุงเนื้อหาให้สอดคล้องกับนโยบาย เช่น การลบภาพล่วงละเมิด การปกปิดใบหน้าของบุคคลเพื่อความเป็นส่วนตัว หรือการปรับแต่งฉากสำหรับเวอร์ชันที่แตกต่างกัน นอกจากนี้ ยังสามารถนำไปใช้ในอุตสาหกรรมบันเทิงอื่นๆ เช่น การผลิตภาพยนตร์ การโฆษณา หรือการสร้างคอนเทนต์สำหรับโซเชียลมีเดีย โดยลดต้นทุนและเวลาในการตัดต่อแบบดั้งเดิมที่ต้องใช้ศิลปินมืออาชีพ

กรอบงาน VOID ถูกเผยแพร่ภายใต้ใบอนุญาต MIT บน GitHub (https://github.com/Netflix/void) ทำให้ผู้พัฒนาสามารถดาวน์โหลด นำไปปรับใช้ หรือขยายต่อได้ฟรี รายละเอียดทางเทคนิคครบถ้วน รวมถึงสคริปต์สำหรับการฝึก LoRA ชุดข้อมูล และตัวอย่างการใช้งาน ผู้ที่สนใจสามารถทดลองผ่าน Google Colab ได้ทันที โดยไม่ต้องติดตั้งเพิ่มเติม

VOID แสดงให้เห็นถึงความก้าวหน้าของเทคโนโลยี AI ในการจัดการวิดีโอแบบ generative ซึ่งไม่เพียงลบวัตถุเท่านั้น แต่ยัง “เขียนใหม่” ฟิสิกส์และการเคลื่อนไหวของฉากที่เหลือ ทำให้ผลลัพธ์ดูเหมือนถ่ายทำใหม่ทั้งหมด การเปิดซอร์สนี้จากเน็ตฟลิกซ์ไม่เพียงเสริมสร้างชุมชนนักพัฒนา แต่ยังยกระดับมาตรฐานการผลิตคอนเทนต์วิดีโอในยุค AI ให้มีประสิทธิภาพและสร้างสรรค์ยิ่งขึ้น

(จำนวนคำประมาณ 720 คำ)

This Article is sponsored by Gnoppix AI (https://www.gnoppix.org)