นักวิทยาศาสตร์ที่สอนให้ ai มองเห็น ตอนนี้ต้องการให้ ai เข้าใจอวกาศ

การพลิกโฉมมุมมองของปัญญาประดิษฐ์: จากการมองเห็นสู่ความเข้าใจเชิงพื้นที่

ปัญญาประดิษฐ์ (AI) ได้ก้าวเข้าสู่ยุคที่เครื่องจักรไม่ได้เพียงแค่ ‘มองเห็น’ แต่กำลังพัฒนาไปสู่ความสามารถในการ ‘เข้าใจ’ โลกทางกายภาพในระดับที่ลึกซึ้งยิ่งขึ้น ศาสตราจารย์ ดร. อาลี ฟาห์รามัด (Dr. Ali Farhadi) นักวิทยาศาสตร์คอมพิวเตอร์ผู้มีบทบาทสำคัญในการบุกเบิกเทคโนโลยีที่ช่วยให้ AI สามารถรับรู้ภาพได้ กำลังนำทีมงานที่ สถาบันปัญญาประดิษฐ์อัลเลน (Allen Institute for AI - AI2) ภายใต้โครงการ Mosaic เพื่อมุ่งเน้นไปที่เป้าหมายที่ทะเยอทะยานกว่าเดิม: การพัฒนาความเข้าใจเชิงพื้นที่ (Spatial Understanding) ให้กับ AI

ดร. ฟาห์รามัด ผู้ซึ่งเคยเป็นส่วนหนึ่งของการสร้างฐานข้อมูลภาพขนาดใหญ่ ImageNet ที่เป็นรากฐานสำคัญของการพัฒนาโมเดลการจำแนกภาพเชิงลึก (Deep Learning Image Classification) ในช่วงทศวรรษที่ผ่านมา ได้ชี้ให้เห็นว่า แม้ AI สมัยใหม่จะเก่งกาจในการระบุวัตถุและสร้างภาพที่สมจริง แต่กลับยังขาดความเข้าใจเชิงประจักษ์ (Common Sense) เกี่ยวกับโครงสร้างและปฏิสัมพันธ์ทางกายภาพในสภาพแวดล้อมจริง

ปัญหาหลักคือ “การขาดความเข้าใจในเหตุผลเชิงกายภาพ” (Lack of physical reasoning) AI สามารถเห็นโต๊ะและเก้าอี้ แต่ไม่เข้าใจถึงความสัมพันธ์เชิงพื้นที่ที่ซับซ้อน เช่น “ถ้าฉันวางถ้วยนี้ไว้ที่ขอบโต๊ะ มันจะตกลงมาหรือไม่?” หรือ “ฉันจะย้ายกล่องใหญ่ออกจากประตูทางเข้าได้อย่างไร?” ซึ่งนี่คือสิ่งที่มนุษย์รับรู้ได้โดยสัญชาตญาณ

โครงการ Mosaic: การสร้างรากฐานของความเข้าใจเชิงพื้นที่

โครงการ Mosaic ภายใต้การนำของ ดร. ฟาห์รามัด มุ่งมั่นที่จะแก้ปัญหานี้โดยการสร้างชุดข้อมูลและโมเดลที่มุ่งเน้นการให้ความรู้แก่ AI เกี่ยวกับโลก 3 มิติ โครงการนี้ไม่ได้มีวัตถุประสงค์เพื่อเพียงแค่บอกให้ AI ทราบว่า “นี่คือวัตถุประเภทใด” แต่เพื่อตอบคำถามว่า “วัตถุนี้ตั้งอยู่ตรงไหน และมันมีความสัมพันธ์กับวัตถุอื่นๆ อย่างไรในบริบทเชิงพื้นที่และเชิงหน้าที่?”

หนึ่งในเครื่องมือที่สำคัญที่สุดที่ Mosaic พัฒนาขึ้นคือ “PHOS” (Physical Object Specification) ซึ่งเป็นฐานข้อมูลขนาดใหญ่ที่รวบรวมข้อมูลรายละเอียดและบริบทเกี่ยวกับวัตถุในโลกจริง โดยรวมถึงคุณสมบัติเชิงกายภาพ เช่น มวล ความมั่นคง หรือวิธีการที่วัตถุนั้นสามารถใช้หรือเคลื่อนย้ายได้ PHOS พยายามจะถอดรหัสกฎเกณฑ์ทางฟิสิกส์และตรรกะที่กำกับปฏิสัมพันธ์ระหว่างวัตถุ

หัวใจสำคัญของการวิจัยนี้คือการสร้าง “โมเดลความเข้าใจเชิงพื้นที่” ที่สามารถอนุมาน (Infer) ถึงความเป็นไปได้และผลลัพธ์ของการกระทำในโลกจริงได้ โมเดลเหล่านี้จำเป็นต้องประมวลผลข้อมูลที่มากกว่าแค่พิกเซลของภาพ แต่ต้องรวมถึงการจำลองสถานการณ์ทางกายภาพ (Physical Simulation) ที่ซับซ้อน

การประยุกต์ใช้ในโลกธุรกิจและอุตสาหกรรม

การก้าวข้ามจากการรับรู้ภาพไปสู่ความเข้าใจเชิงพื้นที่นี้มีนัยยะสำคัญอย่างยิ่งต่อการประยุกต์ใช้ AI ในภาคธุรกิจและอุตสาหกรรม:

  1. หุ่นยนต์และระบบอัตโนมัติ: หุ่นยนต์อัจฉริยะที่สามารถทำงานร่วมกับมนุษย์ในสภาพแวดล้อมที่ไม่แน่นอน (เช่น โรงงานที่จัดเรียงใหม่ หรือบ้านเรือนส่วนตัว) จำเป็นต้องมีความเข้าใจเชิงพื้นที่ระดับสูงเพื่อหลีกเลี่ยงอุบัติเหตุ จัดการกับวัตถุที่ไม่คุ้นเคย และปฏิบัติภารกิจที่ต้องใช้การวางแผนทางกายภาพที่ซับซ้อน (เช่น การหยิบจับวัตถุเปราะบาง)
  2. ยานยนต์ไร้คนขับ: การเข้าใจว่าวัตถุอื่น (เช่น รถคันอื่น หรือคนเดินเท้า) จะเคลื่อนที่อย่างไรในอนาคตอันใกล้ และการประเมินความเสี่ยงทางกายภาพ (เช่น ระยะเบรกที่ปลอดภัย) คือสิ่งจำเป็นสำหรับการตัดสินใจที่ปลอดภัยและมีประสิทธิภาพบนท้องถนน
  3. การสร้างโลกเสมือนจริง (Metaverse) และ AR/VR: การสร้างประสบการณ์เสมือนที่สมจริงและโต้ตอบได้ requires AI ที่เข้าใจว่าวัตถุเสมือนจริงควรปฏิบัติตามกฎฟิสิกส์อย่างไร เพื่อให้ผู้ใช้ได้รับประสบการณ์ที่สอดคล้องกับความเป็นจริง

ดร. ฟาห์รามัด เชื่อมั่นว่า เช่นเดียวกับการสร้าง ImageNet ที่เป็นตัวเร่งการพัฒนาการมองเห็นของ AI การสร้างฐานความรู้เกี่ยวกับความเข้าใจเชิงพื้นที่นี้จะเป็นก้าวสำคัญที่ทำให้ AI สามารถใช้เหตุผลเชิงกายภาพได้อย่างถูกต้อง ซึ่งนับเป็นการปลดล็อกศักยภาพของ AI ในการมีปฏิสัมพันธ์และเข้าใจโลกที่เราอาศัยอยู่ได้อย่างแท้จริง

This Article is sponsored by Gnoppix AI (https://www.gnoppix.org)