OpenAI เสนอให้ยกเลิกเกณฑ์ทดสอบการเขียนโค้ด AI ที่ได้รับความนิยมอย่างกว้างขวาง
OpenAI กำลังผลักดันให้ยกเลิกการใช้ HumanEval ซึ่งเป็นเกณฑ์ทดสอบมาตรฐานสำหรับวัดสมรรถนะการเขียนโค้ดของโมเดลปัญญาประดิษฐ์ (AI) ที่บริษัทผู้พัฒนา AI ทั่วโลกต่างแข่งขันกันมานานหลายปี โดย Nathaniel Lambert นักวิจัยของ OpenAI ได้เผยแพร่ข้อเสนอดังกล่าวผ่านโพสต์บนแพลตฟอร์ม X (เดิมชื่อ Twitter) เมื่อเร็ว ๆ นี้ โดยชี้ว่าเกณฑ์ทดสอบนี้ได้กลายเป็นเรื่องล้าสมัยและไม่เหมาะสมสำหรับการประเมินสมรรถนะของโมเดล AI รุ่นใหม่แล้ว
HumanEval ถูกแนะนำครั้งแรกโดย OpenAI ในปี 2021 ร่วมกับการเปิดตัวโมเดล Codex ซึ่งเป็นรุ่นก่อนหน้าของ GPT รุ่นต่อ ๆ มา เกณฑ์ทดสอบนี้ประกอบด้วยโจทย์ปัญหาการเขียนโปรแกรมจำนวน 164 โจทย์ โดยวัดผลผ่านตัวชี้วัด “pass@1” ซึ่งหมายถึงอัตราความสำเร็จในการแก้ปัญหาครั้งแรกที่โมเดลสร้างโค้ดขึ้นมาโดยไม่มีการปรับแก้ เกณฑ์นี้ได้รับความนิยมอย่างมาก เนื่องจากเป็นมาตรฐานที่เรียบง่าย สามารถทำซ้ำได้ และช่วยให้บริษัทต่าง ๆ เปรียบเทียบสมรรถนะโมเดลของตนกับคู่แข่งได้อย่างตรงไปตรงมา
อย่างไรก็ตาม ปัจจุบัน HumanEval ได้เข้าสู่ภาวะอิ่มตัว (saturation) อย่างชัดเจน โมเดลชั้นนำหลายตัวทำคะแนนได้ใกล้เคียงหรือเกิน 90% เช่น GPT-4o ได้คะแนน 90.2% o1-preview ได้ 93.3% Claude 3.5 Sonnet ได้ 92.0% และ Gemini 1.5 Pro ได้ 90.2% การแข่งขันจึงไม่สามารถแยกแยะสมรรถนะที่เหนือกว่าออกจากกันได้อีกต่อไป Lambert ระบุว่าการแข่งขันบนเกณฑ์นี้ได้กลายเป็น “การแข่งขันเพื่อชิงอันดับ 1% แรก” ซึ่งไม่ช่วยให้เห็นความแตกต่างที่แท้จริงในด้านคุณภาพ
สาเหตุหลักที่ทำให้ HumanEval ล้าสมัยมาจากปัญหาการปนเปื้อนข้อมูล (data contamination) เนื่องจากชุดข้อมูลทดสอบนี้ถูกเผยแพร่สู่สาธารณะตั้งแต่ปี 2021 ทำให้โมเดล AI รุ่นหลัง ๆ สามารถ “จำ” คำตอบจากข้อมูลฝึกอบรมที่อาจรวมชุดข้อมูลนี้ไว้ได้ นอกจากนี้ เกณฑ์ทดสอบยังไม่สะท้อนถึงสถานการณ์การเขียนโค้ดในโลกจริง ซึ่งมักเกี่ยวข้องกับ codebase ขนาดใหญ่ การแก้ไขบั๊ก และการทำงานร่วมกับโค้ดที่มีอยู่แล้ว แทนที่จะเป็นการเขียนฟังก์ชันจากศูนย์ดังเช่นใน HumanEval
Lambert เสนอแนะให้เลิกใช้ HumanEval อย่างเป็นทางการ โดยเรียกร้องให้บริษัทผู้พัฒนา AI ชั้นนำทั้งหมด เช่น OpenAI, Anthropic, Google และ xAI ประกาศยกเลิกการรายงานผลคะแนนบนเกณฑ์นี้ตั้งแต่ทันที เขายังชี้ว่าการยึดติดกับเกณฑ์เก่า ๆ จะทำให้เกิด “rat race” หรือการแข่งขันที่ไม่มีสาระ โดยเฉพาะเมื่อโมเดล AI ก้าวหน้าจนเกณฑ์ทดสอบไม่สามารถติดตามทัน
แทนที่ด้วยเกณฑ์ทดสอบใหม่ ๆ ที่เหมาะสมกว่า Lambert แนะนำ SWE-bench ซึ่งเป็นชุดข้อมูลที่ท้าทายกว่า โดยดึงโจทย์มาจากปัญหาจริงใน GitHub issues ของ repository โอเพ่นซอร์สยอดนิยม เกณฑ์นี้วัดความสามารถในการแก้ไขบั๊กและปรับปรุงโค้ดใน codebase ขนาดใหญ่ ปัจจุบันโมเดลชั้นนำยังทำคะแนนได้ต่ำ เช่น Claude 3.5 Sonnet ได้ 33.4% และ GPT-4o ได้ 23.9% ซึ่งยังมีช่องว่างให้พัฒนาอย่างมาก นอกจากนี้ ยังมี LiveCodeBench ที่อัปเดตโจทย์ใหม่ ๆ ทุกเดือนเพื่อป้องกันการปนเปื้อน และ Aider polyglot benchmark ที่ครอบคลุมหลายภาษาการเขียนโปรแกรม
ข้อเสนอนี้สอดคล้องกับแนวโน้มในวงการ AI ที่หันมาใช้เกณฑ์ทดสอบแบบ “agentic” หรือที่เน้นการทำงานอัตโนมัติในสภาพแวดล้อมจริง เช่นการใช้เครื่องมือภายนอกหรือการแก้ปัญหาหลายขั้นตอน Lambert ยังเตือนว่าการไม่ยอมเลิกเกณฑ์เก่าอาจนำไปสู่ปัญหาเดียวกับที่เกิดขึ้นกับ GLUE และ SuperGLUE ในด้านการประมวลภาษาธรรมชาติ ซึ่งเคยเป็นมาตรฐานแต่ถูกยกเลิกเนื่องจากอิ่มตัวและปนเปื้อนเช่นกัน
การเคลื่อนไหวของ OpenAI ครั้งนี้ถือเป็นสัญญาณสำคัญต่ออุตสาหกรรม AI โดยรวม เนื่องจาก HumanEval เป็นเกณฑ์ที่ใช้กันอย่างกว้างขวางในการเปรียบเทียบโมเดล เช่น ใน leaderboard ของ Hugging Face และรายงานผลงานของบริษัทต่าง ๆ หากบริษัทชั้นนำตอบรับข้อเสนอ จะช่วยเร่งให้เกิดมาตรฐานใหม่ที่เชื่อถือได้มากขึ้น ส่งผลดีต่อการพัฒนา AI coding assistant ที่ใช้งานได้จริงในธุรกิจและการผลิตซอฟต์แวร์
อย่างไรก็ตาม การเปลี่ยนผ่านนี้ไม่ใช่เรื่องง่าย เนื่องจากเกณฑ์ใหม่ ๆ อย่าง SWE-bench ใช้เวลาทดสอบนานกว่าและมีค่าใช้จ่ายสูงกว่า Lambert ยอมรับว่าการทดสอบเหล่านี้อาจใช้เวลาหลายชั่วโมงต่อโจทย์ แต่ยืนยันว่าความท้าทายนี้จำเป็นเพื่อให้ได้ข้อมูลที่แม่นยำ Lambert ยังเปิดเชิญชวนให้นักวิจัยทดลองใช้เกณฑ์ใหม่และแบ่งปันผลลัพธ์ เพื่อสร้างชุมชนที่มุ่งเน้นคุณภาพมากกว่าคะแนนตัวเลข
ในท้ายที่สุด ข้อเสนอของ OpenAI ไม่เพียงช่วยกำจัด “legacy benchmark” ที่ล้าสมัย แต่ยังเป็นก้าวสำคัญสู่การวัดสมรรถนะ AI ที่สอดคล้องกับความต้องการในโลกธุรกิจจริง ซึ่งต้องการ AI ที่สามารถจัดการงานซับซ้อนได้อย่างมีประสิทธิภาพ
(จำนวนคำประมาณ 728 คำ)
This Article is sponsored by Gnoppix AI (https://www.gnoppix.org)