การร่วงลงของเบนช์มาร์ก arc ถือเป็นเหยื่ออีกตัวอย่างหนึ่งจากการปรับแต่ง ai อย่างไม่หยุดยั้ง

เกณฑ์ทดสอบ ARC ล้มลง: เหยื่อรายต่อไปของการปรับแต่งปัญญาประดิษฐ์ที่ไม่หยุดยั้ง

ในวงการปัญญาประดิษฐ์ (AI) เกณฑ์ทดสอบถือเป็นเครื่องมือสำคัญในการวัดความสามารถของโมเดลต่างๆ อย่างไรก็ตาม เกณฑ์เหล่านี้มักเผชิญปัญหาการถูก “ปรับแต่ง” หรือ optimize จนสูญเสียความน่าเชื่อถือ เกณฑ์ ARC (Abstraction and Reasoning Corpus) ซึ่งถูกออกแบบมาเพื่อทดสอบความสามารถในการคิดเชิงนามธรรมและเหตุผล เป็นตัวอย่างล่าสุดที่ตกเป็นเหยื่อของกระบวนการนี้

เกณฑ์ ARC ถูกพัฒนาโดย François Chollet ผู้สร้าง Keras และนักวิจัยของ Google ในปี 2019 โดยมีวัตถุประสงค์เพื่อวัด “สติปัญญาหลัก” (core intelligence) ของ AI เกณฑ์นี้ประกอบด้วยงานที่ต้องการการปรับตัวและเหตุผลจากตัวอย่างเพียงไม่กี่ตัว (few-shot learning) โดยหลีกเลี่ยงการพึ่งพาการท่องจำข้อมูลขนาดใหญ่ ซึ่งเป็นจุดอ่อนของโมเดลภาษาขนาดใหญ่ (LLMs) ในยุคปัจจุบัน งานใน ARC มีลักษณะเป็นกริดสีที่เรียบง่าย แต่ซับซ้อนในการเข้าใจกฎเกณฑ์ เช่น การหมุน การสะท้อน หรือการเปลี่ยนรูปแบบ โดยแบ่งเป็นชุดสาธารณะ (public evaluation) และชุดส่วนตัว (private evaluation) เพื่อป้องกันการ overfitting

ในช่วงแรก โมเดล AI ชั้นนำอย่าง GPT-4 ของ OpenAI ทำคะแนนได้ต่ำมาก เพียงประมาณ 50% บนชุดสาธารณะ และต่ำกว่านั้นบนชุดส่วนตัว นี่แสดงให้เห็นว่า LLMs ยังขาดความสามารถในการคิดนอกกรอบ แม้จะมีพารามิเตอร์นับพันล้านก็ตาม เพื่อแก้ปัญหานี้ Chollet ได้เปิดตัว ARC Prize ในปี 2023 ซึ่งเป็นการแข่งขันรางวัลสูงถึง 1 ล้านดอลลาร์สหรัฐ เพื่อกระตุ้นนวัตกรรม โดยมี leaderboard สาธารณะที่อัปเดตผลงานจากนักวิจัยทั่วโลก

อย่างไรก็ตาม ในช่วงปลายปี 2024 สถานการณ์เปลี่ยนแปลงอย่างรวดเร็ว โมเดล o1-preview ของ OpenAI สามารถทำคะแนนได้ถึง 75.7% บนชุด private evaluation ของ ARC-AGI โดยใช้เทคนิค chain-of-thought prompting และ inference-time compute (การคำนวณเพิ่มเติมระหว่างการอนุมาน) ซึ่งเป็นการเพิ่มทรัพยากรคำนวณเพื่อให้โมเดล “คิด” นานขึ้น นอกจากนี้ โมเดลอื่นๆ เช่น Claude 3.5 Sonnet ของ Anthropic ก็ทำคะแนนสูงขึ้นเช่นกัน โดยใช้กลยุทธ์คล้ายกัน

Chollet เองได้แสดงความเห็นผ่านโพสต์บน X (เดิมคือ Twitter) โดยระบุว่า “เกณฑ์ ARC กำลังล้มลง” (The ARC benchmarks fall) เขาชี้ให้เห็นว่านี่เป็นผลจาก “การปรับแต่งที่ไม่หยุดยั้ง” (relentless optimization) ซึ่งคล้ายกับที่เกิดขึ้นกับเกณฑ์อื่นๆ เช่น GLUE, SuperGLUE หรือ MMLU ที่เคยถูกมองว่าแข็งแกร่ง แต่สุดท้ายก็ถูกโมเดลเกิน 90% ผ่านไปแล้ว ตัวอย่างที่ชัดเจนคือวิธี A3 (Automated Arc Agenda) ของ Mike Knoop ซึ่งทำคะแนนได้ 55% โดยใช้ AI agent ในการทดลองและปรับแต่งอัตโนมัติ

ยิ่งไปกว่านั้น ผลงานล่าสุดจาก DeepSeek R1 ทำคะแนนสูงถึง 87% บนชุด private eval ของ ARC-AGI โดยอาศัย test-time training (การฝึกเพิ่มเติมขณะทดสอบ) และ synthesis ของ test-time compute เข้ากับ program synthesis ซึ่งเป็นการสร้างโปรแกรมเพื่อแก้ปัญหาโดยตรง นี่แสดงให้เห็นว่า แม้ ARC จะถูกออกแบบให้ต้านทานการ optimize แต่ด้วยพลังคำนวณที่เพิ่มขึ้นและเทคนิคใหม่ๆ เช่น majority voting จากการรันหลายรอบ (multiple trajectories) โมเดลสามารถทะลุเกณฑ์ได้ง่ายขึ้น

ปัญหาหลักคือ การ optimize เหล่านี้ไม่ได้สะท้อนถึงความก้าวหน้าที่แท้จริงในด้านสติปัญญา แต่เป็นการใช้ทรัพยากรเพิ่มเติม เช่น การรัน o1 หลายพันรอบเพื่อหาคำตอบที่ดีที่สุด ซึ่งในทางปฏิบัติไม่สามารถนำไปใช้กับงานจริงที่ต้องการความรวดเร็วได้ Chollet เปรียบเทียบว่านี่คือ “benchmark contamination” ที่เกิดขึ้นซ้ำๆ ทำให้เกณฑ์สูญเสียคุณค่าในการวัด progress สู่ AGI (Artificial General Intelligence)

leaderboard ของ ARC Prize สะท้อนแนวโน้มนี้อย่างชัดเจน โดยผู้เข้าแข่งขันชั้นนำใช้ AI เพื่อช่วย generate โค้ดแก้ปัญหาแทนการพัฒนาอัลกอริทึมใหม่ๆ ผลลัพธ์คือ คะแนนพุ่งสูงในเวลาอันสั้น แต่ Chollet ยืนยันว่า ARC ยังคงเป็นเกณฑ์ที่ท้าทายที่สุดสำหรับ LLMs และการ optimize เหล่านี้เป็นเพียง “ชัยชนะชั่วคราว” ที่ไม่นำไปสู่ generalization ในโลกจริง

นี่คือบทเรียนสำคัญสำหรับอุตสาหกรรม AI: เกณฑ์ทดสอบต้องพัฒนาให้ทันกับความก้าวหน้าของเทคโนโลยี ไม่เช่นนั้นจะกลายเป็น “เหยื่อ” ของการ optimize ที่ไม่หยุดยั้ง สถานการณ์ของ ARC ชี้ให้เห็นว่าการแข่งขัน AGI กำลังเข้าสู่ยุคที่พลังคำนวณและเทคนิค test-time เป็นตัวกำหนด ไม่ใช่ architecture พื้นฐานอีกต่อไป นักพัฒนาและนักวิจัยจำเป็นต้องมองหาเกณฑ์ใหม่ที่เน้น robustness และ efficiency เพื่อให้การวัดผลมีความหมายอย่างแท้จริง

(จำนวนคำประมาณ 720 คำ)

This Article is sponsored by Gnoppix AI (https://www.gnoppix.org)