ข้อมูลข้อความสำหรับฝึกโมเดลภาษาขนาดใหญ่กำลังร่อยหรอ แต่เมตาชี้ไปที่วิดีโอที่ไม่ได้ติดป้ายกำกับเป็นแนวหน้าฝึกอบรมครั้งใหญ่ถัดไป
ในยุคที่โมเดลภาษาขนาดใหญ่ (Large Language Models: LLMs) กำลังพัฒนาอย่างรวดเร็ว ปัญหาหลักที่อุตสาหกรรมปัญญาประดิษฐ์เผชิญหน้าคือการขาดแคลนข้อมูลข้อความคุณภาพสูงสำหรับการฝึกอบรม นักวิจัยหลายรายคาดการณ์ว่าข้อมูลข้อความจากอินเทอร์เน็ตที่ใช้งานได้จะหมดลงในไม่ช้า ส่งผลให้เกิดความท้าทายในการขยายขนาดโมเดลให้มีประสิทธิภาพยิ่งขึ้น อย่างไรก็ตาม ทีมวิจัยจากเมตา (Meta) เสนอทางออกที่น่าสนใจ โดยชี้ว่าวิดีโอที่ไม่ได้ติดป้ายกำกับ (unlabeled video) จะกลายเป็นแหล่งข้อมูลฝึกอบรมขนาดมหาศาลถัดไป
ตามรายงานจากเมตา ข้อมูลวิดีโอมีปริมาณมหาศาลและกระจายตัวอยู่บนอินเทอร์เน็ต โดยไม่จำเป็นต้องมีการติดป้ายกำกับที่ซับซ้อนเหมือนข้อมูลข้อความหรือภาพนิ่ง วิดีโอประกอบด้วยข้อมูลหลายรูปแบบ (multimodal) รวมถึงภาพเคลื่อนไหว เสียง และการเคลื่อนที่ ซึ่งช่วยให้โมเดลสามารถเรียนรู้เกี่ยวกับโลกกายภาพ (physical world) ได้อย่างลึกซึ้งยิ่งขึ้น Yann LeCun หัวหน้าฝ่าย AI ของเมตา เน้นย้ำว่าวิดีโอสามารถสอนโมเดลให้เข้าใจกฎฟิสิกส์ ความสัมพันธ์เชิงเหตุผล (causality) และการกระทำในโลกจริง (real-world actions) ซึ่งเป็นสิ่งที่ข้อมูลข้อความเพียงอย่างเดียวไม่สามารถให้ได้อย่างครบถ้วน
กระบวนการฝึกอบรมด้วยวิดีโอที่เมตาเสนอ มุ่งเน้นไปที่งานคาดการณ์เฟรมถัดไป (next-frame prediction) และการสร้างโมเดลโลก (world models) โมเดลจะเรียนรู้จากการทำนายลำดับภาพเคลื่อนไหวต่อเนื่อง ซึ่งช่วยให้เข้าใจพลศาสตร์การเคลื่อนที่และปฏิสัมพันธ์ระหว่างวัตถุ โดยไม่ต้องอาศัยการติดป้ายกำกับจากมนุษย์ ข้อดีหลักคือ วิดีโอมีปริมาณระดับเพตะไบต์ (petabytes) ที่ดึงมาจากแหล่งสาธารณะ เช่น YouTube หรือเว็บไซต์วิดีโออื่นๆ ทำให้สามารถฝึกโมเดลขนาดใหญ่ได้ในระดับที่เทียบเท่าหรือเหนือกว่าข้อมูลข้อความในปัจจุบัน
เมตายังชี้ให้เห็นถึงศักยภาพของวิดีโอในการแก้ปัญหาการขาดแคลนข้อมูล โดยเปรียบเทียบกับยุคแรกเริ่มของการฝึกโมเดลวิชันที่ใช้ภาพนิ่งขนาดใหญ่ เช่น ImageNet ปัจจุบัน วิดีโอที่ไม่ได้ติดป้ายกำกับสามารถนำมาใช้ฝึกโมเดลให้มีประสิทธิภาพสูง โดยเฉพาะในงานที่ต้องการความเข้าใจเชิงพื้นที่และเวลา (spatio-temporal understanding) เช่น การติดตามวัตถุ การคาดการณ์การกระทำ หรือแม้แต่การจำลองสภาพแวดล้อมเสมือนจริง นอกจากนี้ วิดีโอยังช่วยลดปัญหา “hallucination” ในโมเดลภาษา เนื่องจากข้อมูลที่ grounded ในความเป็นจริงมากกว่า
อย่างไรก็ตาม การใช้ข้อมูลวิดีโอไม่ได้ปราศจากอุปสรรค เมตาระบุว่าปัญหาหลักคือปริมาณข้อมูลที่มหาศาล ซึ่งต้องการทรัพยากรคอมพิวเตอร์จำนวนมากในการประมวลผล นอกจากนี้ การจัดการข้อมูล multimodal ยังซับซ้อนกว่าข้อมูลข้อความเดี่ยว โดยต้องพัฒนาเทคนิคการบีบอัดและการประมวลผลแบบขนานให้มีประสิทธิภาพ เมตาได้ทดลองกับโมเดลอย่าง VideoPrism และ Make-A-Video ซึ่งแสดงให้เห็นผลลัพธ์ที่น่าพึงพอใจในการเรียนรู้จากวิดีโอขนาดใหญ่โดยไม่ต้องติดป้ายกำกับ
แนวคิดนี้สอดคล้องกับทิศทางของอุตสาหกรรม AI ที่กำลังมุ่งสู่ multimodal models ซึ่งรวมข้อความ ภาพ และวิดีโอเข้าด้วยกัน เมตาเชื่อว่าวิดีโอจะเป็น “แนวหน้าฝึกอบรมครั้งใหญ่ถัดไป” (next massive training frontier) โดยสามารถขยายขนาดข้อมูลได้ไม่สิ้นสุด ต่างจากข้อความที่จำกัดด้วยลิขสิทธิ์และคุณภาพ ตัวอย่างเช่น โครงการอย่าง Internet Video Archive ที่เมตารวบรวมวิดีโอหลายล้านชั่วโมง แสดงให้เห็นถึงความเป็นไปได้ในการฝึกโมเดลระดับพันล้านพารามิเตอร์
ในทางปฏิบัติ เมตาแนะนำให้ใช้วิดีโอในการฝึก pre-training phase เพื่อสร้างฐานความรู้ที่แข็งแกร่ง ก่อนนำไป fine-tune ด้วยข้อมูลเฉพาะงาน นักวิจัยอย่าง Antoine Bordes และ Ishan Misra จากเมตา เน้นว่าการเรียนรู้จากวิดีโอช่วยให้โมเดลพัฒนาความสามารถเชิงเหตุผล (reasoning) ที่ดีขึ้น โดยเฉพาะในสถานการณ์ที่ซับซ้อน เช่น การเข้าใจบริบททางกายภาพหรือการคาดการณ์ผลลัพธ์ของการกระทำ
โดยสรุป แม้ข้อมูลข้อความสำหรับ LLMs จะกำลังร่อยหรอ แต่เมตาได้ชี้ทางสู่แหล่งข้อมูลใหม่ที่อุดมสมบูรณ์ วิดีโอที่ไม่ได้ติดป้ายกำกับไม่เพียงแก้ปัญหาการขาดแคลน แต่ยังยกระดับความสามารถของ AI ให้เข้าใกล้ความเข้าใจโลกจริงมากยิ่งขึ้น การเปลี่ยนผ่านสู่การฝึกด้วยวิดีโออาจกำหนดทิศทางของอุตสาหกรรม AI ในทศวรรษหน้า สร้างโอกาสใหม่ให้กับนักพัฒนาและธุรกิจที่ต้องการโมเดล AI ที่ทรงพลังยิ่งขึ้น
(จำนวนคำประมาณ 720 คำ)
This Article is sponsored by Gnoppix AI (https://www.gnoppix.org)