โมเดล ai วิดีโอถึงเพดานการใช้เหตุผลที่ข้อมูลฝึกอบรมเพิ่มเพียงอย่างเดียวแก้ไม่ได้ นักวิจัยระบุ

รุ่นปัญญาประดิษฐ์วิดีโอพบเพดานการใช้เหตุผล เพิ่มข้อมูลฝึกฝนเพียงอย่างเดียวไม่สามารถแก้ไขได้ นักวิจัยระบุ

นักวิจัยจาก Meta, Google DeepMind และมหาวิทยาลัย Tsinghua เปิดเผยผลการศึกษาล่าสุดที่ชี้ให้เห็นว่ารุ่นปัญญาประดิษฐ์สำหรับการทำความเข้าใจวิดีโอ (Video-Language Models: VLMs) กำลังเผชิญกับเพดานการใช้เหตุผล (reasoning ceiling) ซึ่งการเพิ่มข้อมูลฝึกฝนในปริมาณมหาศาลเพียงอย่างเดียวไม่สามารถยกระดับประสิทธิภาพได้อีกต่อไป ผลการวิจัยนี้ตีพิมพ์ในรูปแบบ preprint บนแพลตฟอร์ม arXiv โดยทดสอบประสิทธิภาพของรุ่น VLMs 10 รุ่นเปิดซอร์สบนชุดข้อมูลมาตรฐานสำหรับการตอบคำถามจากวิดีโอ (video question-answering: video QA) ที่เน้นการใช้เหตุผลเชิงลึก

การทดสอบมุ่งเน้นไปที่ห้าเบนช์มาร์กหลัก ได้แก่ TempCompass, Time-It, Video-MME (perception และ cognition), VideoEval และ Perception Test โดยเบนช์มาร์กเหล่านี้ครอบคลุมความสามารถในการใช้เหตุผลเชิงเวลา (temporal reasoning) การนับเหตุการณ์ การเข้าใจปฏิสัมพันธ์เชิงพื้นที่ (spatial relations) และการอนุมานเหตุผลซับซ้อนจากวิดีโอ ผลปรากฏว่ารุ่น VLMs ทั้งหมดแสดงให้เห็นถึงการปรับขนาดแบบลอการิทึมเชิงเส้น (log-linear scaling) ในช่วงข้อมูลฝึกฝนตั้งแต่ 0.1 พันล้านตัวอย่างจนถึง 1 พันล้านตัวอย่าง แต่หลังจากนั้นประสิทธิภาพจะหยุดนิ่งหรือปรับปรุงเพียงเล็กน้อย แม้จะเพิ่มข้อมูลฝึกฝนถึง 10 เท่า

ตัวอย่างเช่น รุ่น InternVid-2B ซึ่งฝึกด้วยข้อมูล 9.6 พันล้านตัวอย่าง สามารถทำคะแนนเฉลี่ยได้เพียง 40.5% บนชุดเบนช์มาร์กทั้งห้า ในขณะที่รุ่นอื่นๆ เช่น Video-LLaMA 2, LLaMA-VID และ Qwen2-VL ก็เผชิญปัญหาคล้ายคลึงกัน โดยคะแนนสูงสุดอยู่ที่ประมาณ 45-50% เท่านั้น นักวิจัยชี้ว่าปัญหานี้ไม่ใช่เพราะขาดข้อมูลฝึกฝน แต่เกิดจากข้อจำกัดพื้นฐานในสถาปัตยกรรมของรุ่น ซึ่งไม่สามารถจับคู่เหตุผลเชิงเวลายาว (long-term temporal dependencies) ได้อย่างมีประสิทธิภาพ

ดร. Aman Madaan จาก Google DeepMind ผู้ร่วมวิจัย กล่าวว่า “การปรับขนาดข้อมูลฝึกฝนอย่างเดียวไม่เพียงพออีกต่อไป รุ่น VLMs ต้องการการพัฒนาสถาปัตยกรรมใหม่เพื่อจัดการกับการใช้เหตุผลในวิดีโอที่ซับซ้อน” ผลการศึกษายังพบว่ารุ่นเหล่านี้ทำได้ดีในงานรับรู้เชิงพื้นฐาน (basic perception) เช่น การระบุวัตถุ แต่ล้มเหลวในงานที่ต้องการการนับลำดับเหตุการณ์หรือการทำนายปฏิสัมพันธ์ เช่น “มีกี่รถที่ขับผ่านสี่แยกในวิดีโอ” หรือ “ลูกบอลเด้งกี่ครั้งก่อนหยุด”

กราฟการปรับขนาด (scaling curves) จากการวิจัยแสดงให้เห็นชัดเจนว่าเส้นโค้งประสิทธิภาพแบนราบหลังจากจุดข้อมูล 1 พันล้านตัวอย่าง โดยนักวิจัยคำนวณตัวชี้วัด Compute-Optimal Frontiers เพื่อยืนยันว่าปัญหาไม่ได้เกิดจากประสิทธิภาพการคำนวณที่ไม่เหมาะสม แต่เป็นเพดานที่แท้จริงของความสามารถในการใช้เหตุผล นอกจากนี้ การทดลอง ablation study ยังยืนยันว่ารุ่นที่ใหญ่กว่าหรือฝึกนานกว่าไม่ได้ช่วยแก้ปัญหานี้

นักวิจัยเสนอแนวทางแก้ไขหลายประการเพื่อทะลุเพดานนี้ ประการแรกคือการพัฒนาสถาปัตยกรรมที่เน้นการสร้างแบบจำลองเวลาแบบเฉพาะเจาะจง (explicit temporal modeling) เช่น การใช้ memory banks หรือ hierarchical temporal aggregation เพื่อจับลำดับเหตุการณ์ยาว ประการที่สองคือการปรับใช้เทคนิค chain-of-thought (CoT) สำหรับวิดีโอ โดยให้รุ่นสร้างขั้นตอนการใช้เหตุผลทีละขั้นตอนจากเฟรมวิดีโอ นอกจากนี้ ยังแนะนำการใช้ synthetic data ที่ออกแบบมาเพื่องานใช้เหตุผลโดยเฉพาะ และการรวมข้อมูลจากโดเมนอื่นๆ เช่น ข้อมูลข้อความหรือภาพนิ่ง เพื่อเสริมสร้างความสามารถข้ามโดเมน (cross-modal transfer)

ผลกระทบของการค้นพบนี้ต่ออุตสาหกรรมปัญญาประดิษฐ์มีนัยสำคัญ โดยเฉพาะในยุคที่บริษัทเทคโนโลยีแข่งขันกันเพิ่มข้อมูลฝึกฝนมหาศาล เช่น OpenAI’s Sora หรือรุ่นวิดีโอ generative อื่นๆ นักวิจัยเตือนว่าหากไม่แก้ไขข้อจำกัดทางสถาปัตยกรรม การพัฒนา VLMs อาจชะงักงัน ส่งผลต่อการประยุกต์ใช้ในธุรกิจ เช่น ระบบวิเคราะห์วิดีโอความปลอดภัย การแพทย์ทางไกล หรือการตลาดดิจิทัลที่ต้องการการวิเคราะห์เหตุการณ์แบบเรียลไทม์

ดร. Weijie Su จาก Meta กล่าวเพิ่มเติมว่า “เพดานนี้คล้ายกับที่เคยเกิดในรุ่นภาษาขนาดใหญ่ (LLMs) ซึ่งนำไปสู่การพัฒนาเทคนิคใหม่ๆ เช่น Mixture of Experts (MoE) สำหรับ VLMs เราอาจต้องใช้แนวทางคล้ายกันเพื่อก้าวข้ามขีดจำกัด” การวิจัยนี้ยังชี้ให้เห็นถึงช่องว่างระหว่างประสิทธิภาพบนเบนช์มาร์กมาตรฐานกับการใช้งานจริง โดยรุ่น VLMs ปัจจุบันยังห่างไกลจากระดับมนุษย์ที่ทำคะแนนได้เกิน 80% บนชุดทดสอบเดียวกัน

สรุปแล้ว การศึกษานี้เป็นสัญญาณเตือนถึงอุตสาหกรรม AI ว่าการพึ่งพาการปรับขนาดข้อมูลเพียงอย่างเดียวได้สิ้นสุดลงแล้ว การลงทุนในนวัตกรรมสถาปัตยกรรมและเทคนิคการฝึกฝนใหม่จะเป็นกุญแจสู่ความก้าวหน้าต่อไปในด้านการทำความเข้าใจวิดีโอเชิงลึก นักวิจัยคาดหวังว่าผลงานนี้จะกระตุ้นให้เกิดการวิจัยเพิ่มเติม เพื่อผลักดัน VLMs ให้บรรลุศักยภาพสูงสุดในการใช้เหตุผลเชิงเวลาและเชิงพื้นที่

(จำนวนคำประมาณ 728 คำ)

This Article is sponsored by Gnoppix AI (https://www.gnoppix.org)