Arc-agi-3 เสนอเงินรางวัล 2 ล้านดอลลาร์ให้ ai ตัวไหนที่ทำได้เท่ามนุษย์ที่ไม่ได้ฝึกฝน แต่ทุกโมเดลชั้นนำทำคะแนนได้ต่ำกว่า 1%

amu · March 26, 2026, 11:57am

ARC-AGI-3 มอบรางวัลเงินสด 2 ล้านดอลลาร์สหรัฐแก่ระบบ AI ที่ทำคะแนนเทียบเท่ามนุษย์ทั่วไปโดยไม่ผ่านการฝึก แต่โมเดลชั้นนำทุกรุ่นทำได้ต่ำกว่า 1%

ARC Prize ได้ประกาศเปิดตัว ARC-AGI-3 ซึ่งเป็นเวอร์ชันล่าสุดของ基准การทดสอบที่ออกแบบมาเพื่อวัดความก้าวหน้าสู่ปัญญาประดิษฐ์ทั่วไป (AGI) โดยมีรางวัลเงินสดสูงถึง 2 ล้านดอลลาร์สหรัฐ สำหรับระบบ AI ใดๆ ที่สามารถทำคะแนนได้ถึง 85% บนชุดข้อมูลทดสอบสาธารณะ (public eval set) ซึ่งเป็นระดับคะแนนเฉลี่ยของมนุษย์ทั่วไปที่ไม่เคยผ่านการฝึกฝนมาก่อน อย่างไรก็ตาม โมเดล AI ชั้นนำหรือที่เรียกว่า “frontier models” เช่น o1 จาก OpenAI, Claude 3.5 Sonnet จาก Anthropic และ Gemini 2.0 จาก Google ล้วนทำคะแนนได้ต่ำกว่า 1% โดยมีคะแนนสูงสุดอยู่ที่ประมาณ 0.1-0.9% เท่านั้น

基准 ARC-AGI ถือเป็นการทดสอบที่ท้าทายที่สุดสำหรับการวัด “core intelligence” หรือความฉลาดหลักของระบบ AI โดยมุ่งเน้นที่ความสามารถในการเรียนรู้แบบ few-shot learning บนงานใหม่ๆ ที่ไม่เคยพบมาก่อน รวมถึงการคิดเชิงนามธรรม (abstraction) การใช้เหตุผล (reasoning) และการแก้ปัญหาในสถานการณ์ที่ซับซ้อน ต่างจาก基准อื่นๆ เช่น GLUE หรือ MMLU ที่สามารถถูก “overfit” หรือปรับแต่งโมเดลให้จำข้อมูลได้ ARC-AGI ออกแบบให้ต้านทานการท่องจำ โดยใช้ชุดข้อมูลฝึกสาธารณะ (public training set) ขนาดเล็กเพียง 1,000 ตัวอย่าง และชุดทดสอบส่วนตัว (private eval set) ที่ไม่เปิดเผย เพื่อป้องกันการรั่วไหลของข้อมูล

มนุษย์ทั่วไปที่ไม่ผ่านการฝึกสามารถทำคะแนนได้เฉลี่ย 85% บนชุดทดสอบนี้ ซึ่งสะท้อนถึงความสามารถพื้นฐานในการปรับตัวและแก้ปัญหาใหม่ๆ ในขณะที่ระบบ AI ปัจจุบัน แม้จะมีพารามิเตอร์นับพันล้านหรือล้านล้านตัว และใช้ข้อมูลฝึกจำนวนมหาศาล ก็ยังล้มเหลวอย่างสิ้นเชิง นี่คือหลักฐานที่ชัดเจนว่าการขยายขนาด (scaling) เพียงอย่างเดียวไม่เพียงพอต่อการบรรลุ AGI ตามที่ François Chollet ผู้สร้าง ARC-AGI และผู้ร่วมก่อตั้ง ARC Prize กล่าวว่า “ARC-AGI-3 ยกระดับความยากขึ้นอีกขั้น โดยแก้ไขจุดอ่อนจากเวอร์ชันก่อนหน้า เพื่อให้มั่นใจว่าเป็นการทดสอบความฉลาดที่แท้จริง ไม่ใช่การท่องจำ”

ประวัติของ ARC-AGI เริ่มต้นตั้งแต่ปี 2020 ด้วยเวอร์ชัน ARC-AGI-1 ที่เปิดตัวโดย Chollet ซึ่งเป็นนักวิจัยจาก Google และผู้พัฒนา Keras จากนั้นในปี 2024 ARC Prize ได้เปิดตัว ARC-AGI-2 ร่วมกับคณะกรรมการที่ประกอบด้วยนักวิจัยชั้นนำ เช่น Dan Hendrycks จาก Center for AI Safety และ Mike Knoop ผู้ร่วมก่อตั้ง Instacart ปัจจุบัน ARC-AGI-3 เป็นเวอร์ชันที่ปรับปรุงใหม่ โดยเพิ่มความซับซ้อนของงานทดสอบ เช่น การใช้สีที่หลากหลายมากขึ้น การรวมองค์ประกอบหลายชั้น และกฎเกณฑ์ที่ซับซ้อนยิ่งขึ้น เพื่อป้องกันช่องโหว่ที่ระบบ AI สามารถ exploit ได้ในเวอร์ชันก่อนหน้า

ตารางคะแนนล่าสุด (leaderboard) บนเว็บไซต์ ARC Prize แสดงให้เห็นว่าโมเดลชั้นนำทำคะแนนได้ต่ำมาก เช่น o1-preview ได้ 0.8%, Claude 3.5 Sonnet ได้ 0.7% และ Gemini 1.5 Pro ได้ 0.4% แม้แต่ระบบที่ปรับแต่งเฉพาะ เช่น ARC-AGI Agent จาก ARC Prize team ก็ทำได้เพียง 3.0% บนชุดทดสอบสาธารณะเท่านั้น สิ่งนี้ชี้ให้เห็นถึงช่องว่างอันยิ่งใหญ่ระหว่าง AI ปัจจุบันกับความสามารถของมนุษย์ โดยเฉพาะในด้านการ generalize หรือการนำความรู้ไปประยุกต์กับสถานการณ์ใหม่

เป้าหมายหลักของ ARC Prize คือการกระตุ้นให้เกิดนวัตกรรมใหม่ๆ ในการพัฒนา AI ที่สามารถแก้ปัญหา AGI-level ได้ในราคาถูก โดย Chollet เชื่อว่าหากระบบ AI สามารถทำคะแนน 85% ได้ จะต้องใช้ทรัพยากรไม่เกิน 10,000 ดอลลาร์สหรัฐ ซึ่งต่ำกว่าการฝึกโมเดลขนาดใหญ่หลายล้านเท่า รางวัล 2 ล้านดอลลาร์นี้แบ่งเป็นเงินกองทุนหลัก 1 ล้านดอลลาร์ และเงินทุนสนับสนุนเพิ่มเติมจากพันธมิตร เช่น Von Neumann Prize มูลค่า 500,000 ดอลลาร์ และเงินทุนวิจัยอีก 500,000 ดอลลาร์ นอกจากนี้ ยังมีรางวัลย่อยสำหรับคะแนนสูงสุดบนชุดทดสอบสาธารณะ เช่น 50,000 ดอลลาร์สำหรับคะแนน 20% และ 75,000 ดอลลาร์สำหรับคะแนน 30%

การประกาศ ARC-AGI-3 นี้เกิดขึ้นท่ามกลางกระแสความตื่นเต้นในวงการ AI ที่โมเดลต่างๆ อ้างว่าทำงานได้ใกล้เคียงมนุษย์ แต่ผลทดสอบ ARC-AGI เผยให้เห็นความจริงที่ตรงกันข้าม Dan Hendrycks กล่าวว่า “ผลลัพธ์เหล่านี้แสดงให้เห็นว่าเรายังห่างไกลจาก AGI มาก และ scaling hypothesis อาจไม่ใช่คำตอบทั้งหมด” ARC Prize เชิญชวนนักพัฒนาทั่วโลกเข้าร่วม โดยสามารถดาวน์โหลดชุดข้อมูลฝึกและส่งผลทดสอบได้ฟรีบนแพลตฟอร์ม Kaggle หรือ GitHub

ในภาพรวม ARC-AGI-3 ไม่เพียงเป็น基准ทดสอบ แต่ยังเป็นตัวเร่งให้เกิดการเปลี่ยนแปลงในวงการ โดยท้าทายให้ทีมวิจัยมุ่งเน้นที่ core intelligence แทนการแข่งขันด้านขนาดโมเดล หากมีระบบ AI ใดทำคะแนนถึงเกณฑ์ได้ จะเป็นจุดเปลี่ยนสำคัญที่นำไปสู่ AGI ที่แท้จริงและเข้าถึงได้ในวงกว้าง

(จำนวนคำประมาณ 720 คำ)

This Article is sponsored by Gnoppix AI (https://www.gnoppix.org)