เกณฑ์มาตรฐาน AI เสียหาย แต่ผู้ประกอบการในอุตสาหกรรมยังคงใช้งานต่อไป รายงานวิจัยชี้
การประเมินสมรรถนะของโมเดลปัญญาประดิษฐ์ (AI) โดยเฉพาะโมเดลภาษาขนาดใหญ่ (Large Language Models: LLMs) เป็นหัวใจสำคัญในการเปรียบเทียบและส่งเสริมผลิตภัณฑ์ในอุตสาหกรรม AI อย่างไรก็ตาม รายงานวิจัยล่าสุดจากนักวิจัยชั้นนำเผยให้เห็นว่า เกณฑ์มาตรฐาน (Benchmarks) ที่ใช้กันอย่างแพร่หลายกว่า 72 ชุดนั้นมีปัญหาความบกพร่องร้ายแรง โดยโมเดล AI สามารถจดจำข้อมูลทดสอบได้ ทำให้ผลลัพธ์ไม่น่าเชื่อถือ แต่ผู้ประกอบการในอุตสาหกรรมยังคงนำไปใช้ในการประชาสัมพันธ์และจัดอันดับต่อไป
รายงานวิจัยชื่อ “The Broken Benchmark” ซึ่งตีพิมพ์โดยนักวิจัยจากสถาบัน Together AI, แอนดี คาร์นีเกี้อะคาเดมี, มหาวิทยาลัยสแตนฟอร์ด และสถาบันอื่นๆ ได้วิเคราะห์เกณฑ์มาตรฐาน 72 ชุดที่ใช้ประเมิน LLMs ในช่วงปี 2023-2024 โดยพบว่าเกณฑ์มาตรฐานเหล่านี้ “เสียหาย” (broken) ในหลายมิติ โดยเฉพาะปัญหาการปนเปื้อนข้อมูล (data contamination) และการปรับโมเดลให้เหมาะสมเกินไป (overfitting) ซึ่งทำให้คะแนนสูงขึ้นอย่างรวดเร็วแต่ไม่สะท้อนความสามารถที่แท้จริง
ปัญหาหลักของเกณฑ์มาตรฐาน AI
นักวิจัยชี้ว่า เกณฑ์มาตรฐานส่วนใหญ่เผยให้เห็น “การอิ่มตัวของสมรรถนะ” (performance saturation) อย่างรวดเร็ว ตัวอย่างเช่น ในเกณฑ์ MMLU (Massive Multitask Language Understanding) ซึ่งมี 57 งานย่อย คะแนนเฉลี่ยของโมเดลชั้นนำทะลุ 90% ไปแล้วตั้งแต่ปลายปี 2023 และในบางงานย่อยทะลุ 100% ซึ่งเป็นไปไม่ได้ในทางทฤษฎี นอกจากนี้ เกณฑ์ GPQA (Graduate-Level Google-Proof Q&A) และ MATH ก็เผชิญปัญหาคล้ายกัน โดยโมเดลขนาดใหญ่สามารถทำคะแนนได้เกือบเต็มหลังจากฝึกฝนเพียงไม่กี่เดือน
สาเหตุหลักมาจากการปนเปื้อนข้อมูลทดสอบ โดยนักวิจัยตรวจสอบพบว่า ข้อมูลจากเกณฑ์มาตรฐานเหล่านี้รั่วไหลเข้าสู่ชุดข้อมูลฝึกฝน (training data) ของโมเดล เช่น เว็บไซต์อย่าง GitHub, Reddit, และ Wikipedia ที่ใช้สร้างข้อมูลฝึก ประกอบกับการที่บริษัท AI ชอบเผยแพร่ผลงานวิจัยและโค้ด ทำให้ข้อมูลทดสอบกลายเป็นส่วนหนึ่งของการฝึกโมเดลโดยไม่ได้ตั้งใจ ผลคือ โมเดลไม่ได้ “เข้าใจ” แต่ “จดจำ” ข้อมูลทดสอบไว้ล่วงหน้า
นอกจากนี้ การทดสอบย่อย (subtasks) ในเกณฑ์เดียวกันยังมีความสัมพันธ์สูง โดยนักวิจัยคำนวณ correlation ระหว่างงานย่อยใน MMLU พบว่าสูงถึง 0.99 ซึ่งบ่งชี้ว่าโมเดลที่ทำดีในงานหนึ่งมักทำดีในงานอื่นโดยไม่จำเป็นต้องมีความสามารถเฉพาะทาง สถานการณ์นี้คล้ายกับ “การโกงสอบ” ที่นักเรียนจดจำเฉลยไว้ ทำให้เกณฑ์มาตรฐานสูญเสียประโยชน์ในการวัดความก้าวหน้า
การใช้งานเกณฑ์มาตรฐานที่ไม่เหมาะสมในอุตสาหกรรม
แม้ปัญหาจะชัดเจน แต่ผู้ประกอบการ AI ยังคงพึ่งพาเกณฑ์เหล่านี้ในการสร้าง leaderboard เช่น LMSYS Chatbot Arena, Hugging Face Open LLM Leaderboard และ Vertex AI Leaderboard ซึ่งใช้คะแนนจาก MMLU, HumanEval และอื่นๆ เพื่อจัดอันดับโมเดล บริษัทอย่าง OpenAI, Anthropic, Google DeepMind และ Meta มักอ้างอิงคะแนนเหล่านี้ในการเปิดตัวโมเดลใหม่ เช่น GPT-4o ทำคะแนน MMLU ได้ 88.7% หรือ Claude 3.5 Sonnet ได้ 88.3% โดยไม่คำนึงถึงปัญหาการอิ่มตัว
นักวิจัยวิจารณ์ว่าการกระทำดังกล่าวเป็น “การหลอกลวงตลาด” (market deception) เพราะคะแนนที่สูงเกือบเต็มไม่ช่วยให้ผู้บริโภคตัดสินใจได้ดีขึ้น และยังบดบังปัญหาจริง เช่น ความสามารถในการใช้เหตุผล (reasoning) ที่ยังอ่อนแอ นอกจากนี้ เกณฑ์อย่าง HumanEval ที่วัดการเขียนโค้ด ก็พบการจดจำเช่นกัน โดยโมเดลทำคะแนนได้เกือบ 100% หลังจากข้อมูลรั่วไหล
ข้อเสนอแนะเพื่อแก้ไขปัญหา
เพื่อรับมือกับวิกฤตนี้ นักวิจัยเสนอแนวทางปฏิบัติใหม่ ดังนี้
-
เกณฑ์มาตรฐานแบบไดนามิก (Dynamic Benchmarks): สร้างชุดทดสอบใหม่ที่สุ่มข้อมูลทุกครั้ง เช่น LiveCodeBench สำหรับการเขียนโค้ด หรือ GPQA Diamond ที่กรองคำถามยากๆ
-
ชุดทดสอบแบบ Holdout: เก็บข้อมูลทดสอบไว้ไม่เผยแพร่ เช่น Big-Bench Hard (BBH) ที่มี 23 งานยาก
-
การประเมินแบบมนุษย์ (Human Evaluation): ใช้การเปรียบเทียบโดยมนุษย์แทนคะแนนอัตโนมัติ อย่างที่ LMSYS Chatbot Arena ทำ แต่ต้องขยาย規模
-
การตรวจสอบการปนเปื้อน: ใช้เครื่องมืออย่าง EleutherAI’s LM Evaluation Harness เพื่อตรวจสอบการจดจำข้อมูล
-
เกณฑ์เฉพาะโดเมน: พัฒนาเกณฑ์สำหรับงานเฉพาะ เช่น Arena-Hard-Auto สำหรับการใช้เหตุผลขั้นสูง
นักวิจัยย้ำว่า หากไม่เปลี่ยนแปลง อุตสาหกรรม AI จะเผชิญ “กับดักเกณฑ์มาตรฐาน” คล้ายอุตสาหกรรมคอมพิวเตอร์ในอดีตที่ benchmarks เก่าๆ กำหนดทิศทางผิดพลาด สุดท้าย เรียกร้องให้บริษัทโปร่งใสมากขึ้น โดยเปิดเผยวิธีฝึกโมเดลและผลกระทบจากการปนเปื้อน เพื่อสร้างความเชื่อมั่นในระยะยาว
รายงานนี้ตอกย้ำ “บทเรียนขมขื่นของเกณฑ์มาตรฐาน” (The Bitter Lesson of Benchmarks) ว่าการแข่งขันคะแนนนำไปสู่การพัฒนาที่ไม่ยั่งยืน ผู้ประกอบการต้องหันมาโฟกัสที่ความก้าวหน้าที่แท้จริง มิเช่นนั้นชื่อเสียงของ AI อาจเสียหายจากภาพลวงตาเหล่านี้
(จำนวนคำประมาณ 750 คำ)
This Article is sponsored by Gnoppix AI (https://www.gnoppix.org)