การทดสอบประสิทธิภาพ AI มองข้ามความไม่เห็นพ้องกันของมนุษย์ การศึกษาจาก Google พบ
การประเมินประสิทธิภาพของโมเดลภาษาขนาดใหญ่ (Large Language Models: LLMs) ในปัจจุบันมักอาศัยชุดข้อมูลทดสอบมาตรฐาน (benchmarks) ที่สมมติว่ามีคำตอบที่ถูกต้องเพียงคำตอบเดียว อย่างไรก็ตาม การศึกษาล่าสุดจากนักวิจัย Google DeepMind เผยให้เห็นว่ามาตรฐานเหล่านี้ละเลยความไม่เห็นพ้องกันของมนุษย์ในการตอบคำถาม ซึ่งนำไปสู่การประเมินผลงานของ AI ที่สูงเกินจริง
พื้นฐานปัญหาของ benchmarks ปัจจุบัน
benchmarks ยอดนิยม เช่น MMLU (Massive Multitask Language Understanding), HellaSwag, ARC และ GSM8K ล้วนกำหนด “ground truth” หรือคำตอบที่ถูกต้องเพียงข้อความเดียว โดยอาศัยการเลือกจากผู้标注ข้อมูล (annotators) มนุษย์เพียงไม่กี่คน กระบวนการนี้สมมติว่าคำตอบดังกล่าวเป็นความจริงสูงสุด (human ceiling) แต่ในความเป็นจริง คำถามเหล่านี้มักมีความคลุมเครือหรือตีความได้หลายแบบ ทำให้มนุษย์มีความเห็นต่างกัน
นักวิจัย Google DeepMind นำโดย Dan Hendrycks และทีม ได้ตีพิมพ์ผลการศึกษาในชื่อ “Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena” โดยวิเคราะห์ชุดข้อมูลทดสอบ 14 ชุดที่ใช้กันอย่างแพร่หลาย พบว่าความไม่เห็นพ้องกันของมนุษย์เกิดขึ้นอย่างเป็นระบบ (systematically) ในทุก benchmarks
ผลการวิเคราะห์: ความไม่เห็นพ้องกันสูงกว่าที่คิด
ในการทดลอง นักวิจัยรวบรวมคำตอบจากผู้标注ข้อมูลมนุษย์หลายรายต่อคำถามเดียวกัน โดยใช้แพลตฟอร์มเช่น Amazon Mechanical Turk และผู้เชี่ยวชาญเฉพาะด้าน
- คำถามแบบเลือกตอบหลายตัวเลือก (Multiple-Choice Questions): ใน MMLU พบว่าผู้标注ข้อมูลเห็นพ้องกันในระดับ 81-96% เท่านั้น ใน HellaSwag อยู่ที่ 91% และ ARC อยู่ที่ 88% โดยเฉลี่ยแล้ว 75% ของคำถามมีมนุษย์อย่างน้อย 2 รายเลือกคำตอบต่างกัน
- คำถามปลายเปิด (Open-Ended Questions): ความไม่เห็นพ้องกันยิ่งสูงกว่า เช่น ในชุดข้อมูล BigBenchHard ผู้标注ข้อมูลเลือกคำตอบที่แตกต่างกันถึง 40-50%
ตัวอย่างเช่น ในคำถามคณิตศาสตร์จาก GSM8K แม้จะดูตรงไปตรงมา แต่ผู้标注ข้อมูลบางรายเลือกวิธีแก้ปัญหาต่างกัน ส่งผลให้คำตอบสุดท้ายไม่ตรงกัน นักวิจัยชี้ว่าปัญหานี้เกิดจากความคลุมเครือในภาษา บริบททางวัฒนธรรม และการตีความส่วนบุคคล
หากคำนวณ “human ceiling” จากอัตราความเห็นพ้องสูงสุด (maximum agreement) ประสิทธิภาพของโมเดล AI เช่น GPT-4 จะลดลงอย่างมีนัยสำคัญ จากเดิมที่ทำได้ใกล้เคียงหรือเกินมนุษย์ (เช่น 86% ใน MMLU) เป็นเพียง 70-80% เมื่อปรับตามความไม่เห็นพ้องกันจริง
วิธีการใหม่ที่เสนอ: ปรับ benchmarks ให้สะท้อนความจริง
เพื่อแก้ปัญหา นักวิจัยเสนอแนวทางใหม่ดังนี้
- วัดอัตราความเห็นพ้องกันของมนุษย์ (Inter-Annotator Agreement): ใช้เมตริกเช่น Cohen’s Kappa หรือ Fleiss’ Kappa เพื่อคำนวณระดับความสอดคล้อง จากนั้นปรับคะแนน AI ให้สัมพันธ์กับ human ceiling จริง
- Multiple Ground Truths: เปลี่ยนจากคำตอบเดียวเป็นชุดคำตอบที่เป็นไปได้ โดยให้คะแนน AI หากตรงกับคำตอบใดคำตอบหนึ่งจากมนุษย์ส่วนใหญ่
- Human Disagreement-Aware Scoring: สร้างสูตรคะแนนใหม่ เช่น คะแนน = (คะแนน AI / human agreement rate) เพื่อสะท้อนช่องว่างที่แท้จริง
ตัวอย่างการประยุกต์ ใน MMLU หาก human agreement อยู่ที่ 90% คะแนนของโมเดลที่ได้ 85% จะถูกปรับให้เหลือประมาณ 94% ของ human ceiling แทนที่จะเป็น 94% ของ 100% เดิม
ผลกระทบต่อวงการ AI และข้อเสนอแนะ
การค้นพบนี้มีนัยสำคัญต่อการพัฒนาและเปรียบเทียบโมเดล AI เนื่องจาก benchmarks ปัจจุบันทำให้ดูเหมือนว่า AI เกินขีดจำกัดมนุษย์แล้ว (superhuman performance) ในขณะที่จริงๆ แล้วยังมีช่องว่างมาก โดยเฉพาะในงานที่ต้องการการตีความเชิงลึก เช่น กฎหมาย การแพทย์ หรือจริยธรรม
นักวิจัยเตือนว่า “การละเลยความไม่เห็นพ้องกันของมนุษย์ทำให้เกิดการประเมินที่บิดเบือน (overestimation) และอาจนำไปสู่การตัดสินใจทางธุรกิจที่ผิดพลาด เช่น การนำ AI ไปใช้ในระบบสำคัญโดยไม่รู้ถึงความเสี่ยง”
ข้อเสนอแนะสำหรับนักพัฒนา ได้แก่
- รวบรวมข้อมูล标注จากมนุษย์จำนวนมากขึ้น (อย่างน้อย 5-10 รายต่อคำถาม)
- เปิดเผยอัตราความเห็นพ้องกันในทุก benchmarks ใหม่
- พัฒนา benchmarks ใหม่ที่ออกแบบให้ลดความคลุมเครือ เช่น Humanity’s Last Exam (HLE) ซึ่งทดสอบคำถามยากที่มนุษย์ยังถกเถียงกัน
Google DeepMind กำลังนำแนวทางนี้ไปใช้ในการประเมินโมเดลภายใน และเชิญชวนชุมชนวิจัยร่วมพัฒนามาตรฐานใหม่
สรุปความสำคัญทางธุรกิจ
ในยุคที่องค์กรธุรกิจแข่งขันด้าน AI การเลือก benchmarks ที่แม่นยำคือกุญแจสำคัญ หากมองข้ามความไม่เห็นพ้องกันของมนุษย์ อาจนำไปสู่การลงทุนผิดทิศทางหรือความเสี่ยงด้านความน่าเชื่อถือ ส่งผลกระทบต่อชื่อเสียงและผลกำไร การศึกษานี้จาก Google เป็นสัญญาณเตือนให้ผู้นำธุรกิจและนักพัฒนา AI ทบทวนกระบวนการประเมินใหม่ เพื่อให้ได้ภาพที่สมจริงและยั่งยืนยิ่งขึ้น
(จำนวนคำประมาณ 720 คำ)
This Article is sponsored by Gnoppix AI (https://www.gnoppix.org)