นักวิจัยกำหนดนิยามของ “โมเดลโลก” ในเอไอ และเครื่องกำเนิดวิดีโอจากข้อความไม่เข้าเกณฑ์
นักวิจัยจากมหาวิทยาลัยโทロンโต้ สถาบันเทคโนโลยีแมสซาชูเซตส์ (MIT) มหาวิทยาลัยนิวยอร์ก (NYU) และ Google DeepMind ได้เสนอนิยามอย่างเป็นทางการของ “โมเดลโลก” (World Model) ในด้านปัญญาประดิษฐ์ (เอไอ) ซึ่งส่งผลให้เครื่องกำเนิดวิดีโอจากข้อความที่ได้รับความนิยม เช่น Sora ของ OpenAI และ Dream Machine ของ Luma AI ไม่เข้าเกณฑ์ดังกล่าว
ในเอกสารวิจัยล่าสุดที่ตีพิมพ์ นักวิจัยได้อธิบายว่า โมเดลโลกต้องปฏิบัติตามเกณฑ์หลักสามประการ เพื่อให้สามารถจำลองโลกทางกายภาพได้อย่างแท้จริง โดยโมเดลเหล่านี้มีบทบาทสำคัญในการทำนายสถานะในอนาคตจากสถานะปัจจุบันและการกระทำที่เกิดขึ้น ซึ่งเป็นพื้นฐานสำหรับการวางแผน การตัดสินใจ และการควบคุมในระบบเอไอ เช่น หุ่นยนต์และตัวแทนอัตโนมัติ
เกณฑ์แรกคือ “โมเดลแทนภาพ” (Representation Model) ซึ่งทำหน้าที่บีบอัดข้อมูลการสังเกต (Observations) เช่น ภาพหรือวิดีโอ ให้อยู่ในพื้นที่แฝง (Latent Space) ที่มีมิติต่ำกว่า เพื่อให้สามารถจัดการข้อมูลได้อย่างมีประสิทธิภาพ พื้นที่แฝงนี้ช่วยให้โมเดลสามารถจับสาระสำคัญของข้อมูลได้ โดยไม่สูญเสียข้อมูลสำคัญ
เกณฑ์ที่สองคือ “โมเดลพลวัต” (Dynamics Model) ซึ่งเป็นหัวใจสำคัญ โดยโมเดลนี้ต้องทำนายการเปลี่ยนผ่านระหว่างสถานะแฝง โดยอาศัยข้อมูลสองส่วนหลัก ได้แก่ สถานะปัจจุบันและ “การกระทำ” (Action) การกระทำในที่นี้หมายถึงอินพุตที่ชัดเจน เช่น การกดปุ่ม การเคลื่อนไหว หรือคำสั่งควบคุม ซึ่งทำให้โมเดลสามารถจำลองผลลัพธ์ที่เกิดจากสาเหตุได้ หากขาดส่วนนี้ โมเดลจะไม่สามารถจำลองโลกได้อย่างสมจริง
เกณฑ์ที่สามคือ “ตัวถอดรหัส” (Decoder) ซึ่งแปลงสถานะแฝงกลับเป็นข้อมูลการสังเกตที่มนุษย์รับรู้ได้ เช่น ภาพหรือวิดีโอ ทำให้โมเดลสามารถสร้างผลลัพธ์ที่สอดคล้องกับโลกจริง
นักวิจัยเน้นย้ำว่า จุดแตกต่างหลักคือการรับ “การกระทำ” เป็นอินพุต หากโมเดลสร้างผลลัพธ์จากคำอธิบายที่กำหนดเป้าหมาย (เช่น ข้อความบรรยาย) โดยไม่จำลองห่วงโซ่เหตุและผลจากสถานะปัจจุบันและการกระทำ ก็จะไม่ถือว่าเป็นโมเดลโลก เครื่องกำเนิดวิดีโอจากข้อความส่วนใหญ่ล้มเหลวในเกณฑ์นี้ เนื่องจากทำงานบนพื้นฐานของการแพร่กระจาย (Diffusion) ที่สร้างภาพเคลื่อนไหวจากข้อความโดยตรง โดยไม่มีการจำลองการเปลี่ยนแปลงตามการกระทำ
เพื่อตรวจสอบ นักวิจัยได้ทดสอบโมเดลหลายตัว พบว่า Sora, Runway Gen-2, Luma Dream Machine, และ Kling ไม่เข้าเกณฑ์ เพราะขาดโมเดลพลวัตที่รับการกระทำ ในทางตรงกันข้าม โมเดลอย่าง Genie จาก Google DeepMind เข้าเกณฑ์ เนื่องจากรับภาพปัจจุบันและการกระทำ (เช่น การกดปุ่มในเกม) เพื่อทำนายเฟรมถัดไป ทำให้สามารถสร้างวิดีโอที่ตอบสนองต่อการควบคุมได้
นอกจากนี้ โมเดลอย่าง DREAM จาก Meta และ Behavior Transformers จาก Google ก็เข้าเกณฑ์บางส่วน แต่ไม่สมบูรณ์แบบ เอกสารวิจัยชี้ว่า โมเดลเหล่านี้มักถูกเรียกว่า “โมเดลโลก” โดยไม่ถูกต้อง ซึ่งอาจทำให้เกิดความสับสนในวงการ โดยเปรียบเทียบว่า การสร้างวิดีโอจากข้อความคล้าย “การฝัน” (Dreaming) มากกว่าการจำลองโลกจริง
นิยามนี้มีนัยสำคัญต่อการพัฒนาเอไอ โดยเฉพาะในด้านหุ่นยนต์และระบบอัตโนมัติ ซึ่งต้องการโมเดลที่สามารถวางแผนล่วงหน้าและปรับตัวตามการกระทำจริง นักวิจัยคาดหวังว่านิยามดังกล่าวจะช่วยกำหนดมาตรฐานใหม่ ส่งเสริมการพัฒนาโมเดลที่แท้จริงสำหรับการประยุกต์ใช้ในอุตสาหกรรม
เอกสารวิจัยนี้เผยแพร่ภายใต้ชื่อ “What is a World Model? Towards an Axiomatic Definition” โดยสามารถอ่านได้ที่ arXiv สรุปได้ว่า แม้เครื่องกำเนิดวิดีโอจากข้อความจะประทับใจในด้านคุณภาพภาพ แต่ยังห่างไกลจากโมเดลโลกที่แท้จริง ซึ่งต้องมีองค์ประกอบการจำลองพลวัตจากสถานะและการกระทำ
(จำนวนคำประมาณ 650 คำ)
This Article is sponsored by Gnoppix AI (https://www.gnoppix.org)