ยันน์ เลอกูน วิจารณ์ซิลิคอนแวลลีย์ถูกสะกดจิตด้วยเอไอสร้างภาพและหันไปสู่โมเดลโลกแบบไม่สร้างภาพ
ยันน์ เลอกูน นักวิทยาศาสตร์ด้านปัญญาประดิษฐ์หลักของเมตา (Meta) ได้แสดงความเห็นที่เข้มข้นในงาน VivaTech ที่ปารีส โดยระบุว่าอุตสาหกรรมซิลิคอนแวลลีย์กำลังถูก “สะกดจิต” ด้วยกระแสความตื่นเต้นรอบปัญญาประดิษฐ์สร้างสรรค์ (Generative AI หรือ GenAI) จนมองข้ามแนวทางอื่นที่สำคัญกว่า เลอกูนประกาศว่าตนกำลังหันเหสู่การพัฒนา “โมเดลโลก” (World Models) ที่ไม่ใช่แบบสร้างสรรค์ ซึ่งเป็นแนวคิดที่มุ่งเน้นการทำนายผลลัพธ์ของการกระทำในโลกจริง แทนการคาดเดาคำถัดไปหรือสร้างภาพจากข้อมูลสุ่ม
เลอกูนชี้ให้เห็นว่าปัญญาประดิษฐ์สร้างสรรค์ในปัจจุบัน เช่น โมเดลภาษาขนาดใหญ่ (LLMs) ที่โด่งดังอย่าง ChatGPT หรือโมเดลสร้างภาพอย่าง DALL-E แม้จะเก่งในการทำนาย “โทเค็นถัดไป” (next-token prediction) แต่กลับขาดความสามารถในการใช้เหตุผล วางแผน หรือเข้าใจโลกทางกายภาพอย่างแท้จริง เขาเปรียบเทียบว่ามนุษย์และสัตว์สามารถเรียนรู้โมเดลโลกตั้งแต่แรกเกิด โดยใช้ประสบการณ์ทางประสาทสัมผัสเพื่อทำนายผลกระทบจากการกระทำ เช่น การโยนลูกบอลจะกลิ้งไปอย่างไร หรือการกดปุ่มจะเกิดอะไรขึ้น ซึ่งต่างจาก GenAI ที่เพียงแต่เลียนแบบแพทเทิร์นจากข้อมูลมหาศาลโดยไม่เข้าใจหลักการพื้นฐาน
“ซิลิคอนแวลลีย์กำลังถูกสะกดจิตด้วย GenAI” เลอกูนกล่าวในงาน VivaTech “พวกเขาคิดว่าการสร้างภาพหรือข้อความจากโมเดลภาษาคือทางออกสุดท้าย แต่จริงๆ แล้ว มันไม่สามารถใช้เหตุผลหรือวางแผนได้” เขาย้ำว่าความก้าวหน้าที่แท้จริงของเอไอต้องมาจากระบบที่สามารถเรียนรู้โมเดลโลกได้ โดยเฉพาะอย่างยิ่งสำหรับ “ตัวแทนที่ขับเคลื่อนด้วยวัตถุประสงค์” (objective-driven agents) ซึ่งจะตัดสินใจกระทำเพื่อบรรลุเป้าหมายในสภาพแวดล้อมที่ซับซ้อน
แนวคิดหลักของเลอกูนคือการพัฒนา “Joint Embedding Predictive Architecture” หรือ JEPA ซึ่งเป็นสถาปัตยกรรมที่ทำนายการแทนค่าละติน (latent representations) ของข้อมูล แทนการสร้างพิกเซลหรือข้อมูลดิบแบบสร้างสรรค์แบบดั้งเดิม JEPA ช่วยให้โมเดลเรียนรู้ความสัมพันธ์เชิงโครงสร้างของโลกโดยไม่ต้องสร้างภาพสมมติ ซึ่งช่วยลดปัญหาความผิดพลาดและประสิทธิภาพในการคำนวณได้อย่างมาก ตัวอย่างเช่น ในโครงการ V-JEPA (Video Joint Embedding Predictive Architecture) โมเดลสามารถทำนายวิดีโอถัดไปจากข้อมูลวิดีโอ โดยมุ่งเน้นเฉพาะส่วนที่สำคัญ เช่น การเคลื่อนไหวของวัตถุ แทนการเรนเดอร์ภาพทั้งหมด
นอกจากนี้ เลอกูนยังกล่าวถึง MC-JEPA (Multi-Modal Causal Joint Embedding Predictive Architecture) ซึ่งรวมข้อมูลหลายรูปแบบ เช่น วิดีโอ เสียง และข้อความ เพื่อสร้างโมเดลโลกที่ครอบคลุมยิ่งขึ้น เขาเชื่อว่านี่คือก้าวต่อไปของเอไอที่สามารถนำไปสู่ระบบอัจฉริยะที่เข้าใจฟิสิกส์ เคมี และชีววิทยาของโลกจริง โดยไม่ต้องพึ่งพาการฝึกฝนข้อมูลขนาดยักษ์แบบ GenAI ที่สิ้นเปลืองพลังงาน
เลอกูนวิจารณ์ว่ากระแส GenAI กำลังเบี่ยงเบนทรัพยากรของอุตสาหกรรม โดยบริษัทต่างๆ ทุ่มทุนมหาศาลในการขยายโมเดลให้ใหญ่ขึ้นเรื่อยๆ แต่ผลลัพธ์ยังคงจำกัดอยู่ที่การเลียนแบบ ไม่ใช่ความเข้าใจ เขาชี้ว่าการพัฒนาโมเดลโลกแบบไม่สร้างสรรค์จะช่วยให้เอไอมีประสิทธิภาพสูงขึ้น ลดต้นทุน และเปิดโอกาสให้เกิดนวัตกรรมใหม่ๆ เช่น หุ่นยนต์ที่สามารถนำทางและโต้ตอบกับสภาพแวดล้อมได้อย่างชาญฉลาด หรือระบบขับขี่ยานพาหนะอัตโนมัติที่เข้าใจสถานการณ์ทางกายภาพแบบเรียลไทม์
ในการสัมภาษณ์กับสื่อ เลอกูนย้ำถึงความสำคัญของการเรียนรู้แบบไม่กำกับ (self-supervised learning) ซึ่ง JEPA ใช้ โดยโมเดลจะเรียนรู้จากข้อมูลดิบโดยตรง โดยไม่ต้องมีป้ายกำกับจากมนุษย์ สิ่งนี้ช่วยให้เอไอสามารถปรับตัวเข้ากับโลกที่หลากหลายและคาดเดาไม่ได้ได้ดีกว่า เขายังเปรียบเทียบกับสมองมนุษย์ที่ไม่ได้ “สร้างภาพ” ทุกสิ่งที่เห็น แต่ทำนายเฉพาะส่วนที่จำเป็นเพื่อการตัดสินใจ
แม้เลอกูนจะเป็นผู้บุกเบิกเครือข่ายประสาทเทียมแบบม้วน (Convolutional Neural Networks หรือ CNNs) ซึ่งเป็นรากฐานของเอไอสมัยใหม่ แต่เขาก็ยืนยันว่า GenAI ไม่ใช่จุดหมายปลายทางสุดท้าย “เราต้องการเอไอที่สามารถวางแผนและใช้เหตุผลเหมือนเด็กอายุ 1 ขวบ ไม่ใช่แค่ parrot ข้อมูล” เขากล่าว โดยใช้คำว่า “parrot” เพื่อเสียดสีโมเดลที่เพียงเลียนแบบโดยไม่เข้าใจ
ที่เมตา เลอกูนกำลังเร่งพัฒนาโครงการเหล่านี้ โดยมีทีมวิจัยขนาดใหญ่สนับสนุน ซึ่งคาดว่าจะนำไปสู่การเปิดตัวโมเดลใหม่ๆ ในเร็วๆ นี้ การเปลี่ยนทิศทางนี้ของเลอกูนไม่เพียงท้าทายกระแสหลักของซิลิคอนแวลลีย์ แต่ยังชี้ให้เห็นถึงอนาคตของเอไอที่เน้นคุณภาพและประสิทธิภาพมากกว่าขนาดและความตื่นเต้นชั่วคราว
การประกาศของเลอกูนเกิดขึ้นท่ามกลางกระแสความกังวลเรื่องฟองสบู่ GenAI โดยนักลงทุนและนักวิจัยหลายรายเริ่มตั้งคำถามถึงความยั่งยืนของโมเดลขนาดยักษ์ที่ต้องใช้พลังงานมหาศาล หากโมเดลโลกแบบไม่สร้างสรรค์ของเลอกูนประสบความสำเร็จ อาจเป็นจุดเปลี่ยนที่ทำให้อุตสาหกรรมเอไอหันเหสู่แนวทางที่สมดุลและมีประสิทธิภาพยิ่งขึ้น
(จำนวนคำประมาณ 728 คำ)
This Article is sponsored by Gnoppix AI (https://www.gnoppix.org)