แม้แต่โมเดลปัญญาประดิษฐ์รุ่นล่าสุดยังคงเกิดข้อผิดพลาดในการใช้เหตุผลแบบเป็นระบบสามประการ การวิเคราะห์ ARC-AGI-3 ระบุชัดเจน
ฟร็องซัว ชอลเลต์ (François Chollet) ผู้สร้างไลบรารี Keras และผู้พัฒนาเกณฑ์ทดสอบ ARC-AGI ได้เผยแพร่การวิเคราะห์ผลลัพธ์ล่าสุดจาก ARC-AGI-3 ซึ่งเป็นเวอร์ชันใหม่ของเกณฑ์ทดสอบที่วัดความสามารถในการใช้เหตุผลเชิงนามธรรม (abstract reasoning) ของปัญญาประดิษฐ์ (AI) เกณฑ์ทดสอบนี้มุ่งเน้นไปที่การทดสอบ “core knowledge priors” หรือความรู้พื้นฐานที่มนุษย์มีโดยกำเนิด เช่น การรับรู้ความเป็นวัตถุ (objectness) การมุ่งไปสู่เป้าหมาย (goal-directedness) การนับจำนวน (numbers) และเรขาคณิตพื้นฐาน (basic geometry) โดยไม่พึ่งพาการท่องจำข้อมูลจำนวนมหาศาล
ARC-AGI-3 ประกอบด้วยงานทดสอบจำนวน 1,000 งานในชุดฝึก (training set) ชุดสาธารณะ (public evaluation set) และชุดส่วนตัว (private evaluation set) เพื่อป้องกันการปรับโมเดลให้เหมาะสมเกินจริง (overfitting) ผลการทดสอบบนชุดส่วนตัวแสดงให้เห็นว่ายังไม่มีโมเดล AI ใดที่ทำได้ดี โดยโมเดลชั้นนำอย่าง OpenAI o1-preview, Anthropic Claude 3.5 Sonnet และ OpenAI GPT-4o ได้คะแนนเพียง 1.7% 1.3% และ 1.6% ตามลำดับ ในขณะที่มนุษย์ทั่วไปสามารถทำได้กว่า 60% ภายในเวลาจำกัด 2-3 นาทีต่องาน
จากการวิเคราะห์ข้อผิดพลาดของโมเดลเหล่านี้ ชอลเลต์ค้นพบรูปแบบข้อผิดพลาดที่เป็นระบบสามประการหลัก ซึ่งเกิดขึ้นซ้ำๆ ในงานทดสอบหลายชิ้น แม้จะเป็นโมเดลรุ่นล่าสุดที่ได้รับการยกย่องว่ามีความสามารถในการใช้เหตุผลขั้นสูง เช่น o1 ที่ใช้เทคนิค chain-of-thought prompting ข้อผิดพลาดเหล่านี้ชี้ให้เห็นว่าโมเดล AI ยังขาดความเข้าใจพื้นฐานเชิงเหตุผลที่แท้จริง แม้จะเก่งในการจดจำรูปแบบ (pattern matching) จากข้อมูลฝึก
ข้อผิดพลาดประการแรก: ปัญหาเรื่องการเชื่อมต่อ (Connectivity Errors)
ข้อผิดพลาดด้านการเชื่อมต่อเป็นปัญหาที่พบมากที่สุด โดยโมเดล AI มักล้มเหลวในการรับรู้ว่าพิกเซลสีเดียวกันที่อยู่ติดกันนั้นเป็นวัตถุชิ้นเดียวกันหรือไม่ ตัวอย่างเช่น ในงานทดสอบหนึ่ง มีวัตถุสองชิ้นในอินพุต โดยชิ้นหนึ่งมีส่วนขยาย (extension) ออกมา โมเดลต้องสร้างเอาต์พุตที่เชื่อมต่อส่วนขยายนั้นกับวัตถุหลักให้ถูกต้อง
อย่างไรก็ตาม โมเดลอย่าง o1 และ Claude 3.5 Sonnet มักแยกส่วนขยายออกจากวัตถุหลัก หรือเชื่อมต่อในลักษณะที่ผิดพลาด ส่งผลให้จำนวนวัตถุในเอาต์พุตไม่ตรงกับอินพุต ปัญหานี้อธิบายได้ว่าโมเดลไม่เข้าใจแนวคิด “connected components” ในทางคณิตศาสตร์ ซึ่งมนุษย์มองเห็นได้ทันทีว่าเส้นหรือบล็อกที่สัมผัสกันคือส่วนเดียวกัน ชอลเลต์ชี้ว่าปัญหานี้เกิดขึ้นในงานกว่า 30% ของชุดทดสอบทั้งหมด
ข้อผิดพลาดประการที่สอง: ปัญหาเรื่องการนับ (Counting Errors)
ประการที่สองคือความไม่แม่นยำในการนับจำนวนวัตถุ โดยเฉพาะเมื่อจำนวนมากกว่า 2 ชิ้น หรือรูปร่างไม่สม่ำเสมอ โมเดลมักนับผิด โดยเฉพาะในกรณีที่วัตถุมีรูปร่างซับซ้อนหรือซ้อนทับกันเล็กน้อย ตัวอย่างงานทดสอบคือการนับวัตถุสี่เหลี่ยมที่กระจายในกริด และต้องคัดลอกจำนวนเท่านั้นไปยังเอาต์พุต
โมเดลชั้นนำมักนับได้ถูกต้องเฉพาะกรณีง่ายๆ เช่น 1-2 ชิ้น แต่ล้มเหลวเมื่อจำนวนเพิ่มขึ้นหรือมีรูปแบบที่คลุมเครือ เช่น Claude 3.5 Sonnet นับวัตถุ 3 ชิ้นเป็น 2 ชิ้นในหลายกรณี ปัญหานี้สะท้อนว่าการฝึกโมเดลด้วยข้อมูลขนาดใหญ่ไม่ได้ช่วยให้เกิดความสามารถในการนับที่เชื่อถือได้ เนื่องจากโมเดลพึ่งพาสถิติจากข้อมูลมากกว่าการใช้เหตุผลเชิงตัวเลขพื้นฐาน
ข้อผิดพลาดประการที่สาม: ปัญหาเรื่องการติดตามสินค้าคงคลัง (Inventory Errors)
ประการสุดท้ายคือ “inventory errors” หรือการลืมรวมองค์ประกอบทั้งหมดจากอินพุตในเอาต์พุต โมเดลมักละเลยวัตถุบางชิ้น โดยเฉพาะชิ้นเล็กหรืออยู่มุมกริด ตัวอย่างเช่น งานที่ต้องย้ายวัตถุทั้งหมดจากอินพุตไปยังตำแหน่งใหม่ในเอาต์พุต โมเดลอย่าง GPT-4o มักสร้างเอาต์พุตที่มีวัตถุน้อยกว่าอินพุต 1-2 ชิ้น โดยไม่รู้ตัว
ชอลเลต์อธิบายว่านี่เป็นสัญญาณของการขาด “working memory” ที่มีประสิทธิภาพ ซึ่งมนุษย์สามารถติดตามองค์ประกอบทั้งหมดได้โดยอัตโนมัติ ข้อผิดพลาดนี้พบในงานที่ต้องการการแปลงแบบ one-to-one mapping ระหว่างอินพุตและเอาต์พุต
ความหมายต่อการพัฒนา AGI
การค้นพบเหล่านี้ยืนยันว่า แม้โมเดล AI รุ่นล่าสุดจะมีพารามิเตอร์นับพันล้านและเทคนิคการใช้เหตุผลขั้นสูง แต่ยังคงติดอยู่ในกรอบการจดจำรูปแบบ ไม่สามารถถ่ายทอดความสามารถเชิงเหตุผลที่ยืดหยุ่นแบบมนุษย์ ARC-AGI-3 จึงเป็นเกณฑ์ทดสอบที่ท้าทายและยุติธรรม โดยเน้นคุณภาพมากกว่าปริมาณข้อมูล ชอลเลต์คาดหวังว่าผู้พัฒนาจะต้องปรับปรุง core priors เหล่านี้ เพื่อก้าวสู่ AGI ที่แท้จริง
ตารางคะแนนบน leaderboard สาธารณะแสดงให้เห็นความก้าวหน้าบางประการ เช่น Gemini 1.5 Pro ได้ 3.0% แต่ชุดส่วนตัวยังคงเผยจุดอ่อนที่ซ่อนอยู่ ผู้สนใจสามารถทดลองด้วยตนเองผ่านเว็บไซต์ ARC Prize (arcprize.org) ซึ่งมีรางวัลมูลค่าสูงสำหรับผู้ทำลายสถิติ
การวิเคราะห์นี้ไม่เพียงชี้ปัญหา แต่ยังเป็นแนวทางสำหรับการวิจัยต่อไป โดยเน้นการพัฒนาโมเดลที่เข้าใจโลกทางกายภาพและเหตุผลพื้นฐานมากขึ้น
(จำนวนคำประมาณ 720 คำ)
This Article is sponsored by Gnoppix AI (https://www.gnoppix.org)