เกณฑ์ประเมิน ai ละเลยอย่างเป็นระบบถึงความไม่เห็นพ้องกันของมนุษย์ การศึกษาของกูเกิลพบ

การทดสอบประสิทธิภาพ AI มองข้ามความไม่เห็นพ้องกันของมนุษย์ การศึกษาจาก Google พบ

การประเมินประสิทธิภาพของโมเดลภาษาขนาดใหญ่ (Large Language Models: LLMs) ในปัจจุบันมักอาศัยชุดข้อมูลทดสอบมาตรฐาน (benchmarks) ที่สมมติว่ามีคำตอบที่ถูกต้องเพียงคำตอบเดียว อย่างไรก็ตาม การศึกษาล่าสุดจากนักวิจัย Google DeepMind เผยให้เห็นว่ามาตรฐานเหล่านี้ละเลยความไม่เห็นพ้องกันของมนุษย์ในการตอบคำถาม ซึ่งนำไปสู่การประเมินผลงานของ AI ที่สูงเกินจริง

พื้นฐานปัญหาของ benchmarks ปัจจุบัน

benchmarks ยอดนิยม เช่น MMLU (Massive Multitask Language Understanding), HellaSwag, ARC และ GSM8K ล้วนกำหนด “ground truth” หรือคำตอบที่ถูกต้องเพียงข้อความเดียว โดยอาศัยการเลือกจากผู้标注ข้อมูล (annotators) มนุษย์เพียงไม่กี่คน กระบวนการนี้สมมติว่าคำตอบดังกล่าวเป็นความจริงสูงสุด (human ceiling) แต่ในความเป็นจริง คำถามเหล่านี้มักมีความคลุมเครือหรือตีความได้หลายแบบ ทำให้มนุษย์มีความเห็นต่างกัน

นักวิจัย Google DeepMind นำโดย Dan Hendrycks และทีม ได้ตีพิมพ์ผลการศึกษาในชื่อ “Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena” โดยวิเคราะห์ชุดข้อมูลทดสอบ 14 ชุดที่ใช้กันอย่างแพร่หลาย พบว่าความไม่เห็นพ้องกันของมนุษย์เกิดขึ้นอย่างเป็นระบบ (systematically) ในทุก benchmarks

ผลการวิเคราะห์: ความไม่เห็นพ้องกันสูงกว่าที่คิด

ในการทดลอง นักวิจัยรวบรวมคำตอบจากผู้标注ข้อมูลมนุษย์หลายรายต่อคำถามเดียวกัน โดยใช้แพลตฟอร์มเช่น Amazon Mechanical Turk และผู้เชี่ยวชาญเฉพาะด้าน

  • คำถามแบบเลือกตอบหลายตัวเลือก (Multiple-Choice Questions): ใน MMLU พบว่าผู้标注ข้อมูลเห็นพ้องกันในระดับ 81-96% เท่านั้น ใน HellaSwag อยู่ที่ 91% และ ARC อยู่ที่ 88% โดยเฉลี่ยแล้ว 75% ของคำถามมีมนุษย์อย่างน้อย 2 รายเลือกคำตอบต่างกัน
  • คำถามปลายเปิด (Open-Ended Questions): ความไม่เห็นพ้องกันยิ่งสูงกว่า เช่น ในชุดข้อมูล BigBenchHard ผู้标注ข้อมูลเลือกคำตอบที่แตกต่างกันถึง 40-50%

ตัวอย่างเช่น ในคำถามคณิตศาสตร์จาก GSM8K แม้จะดูตรงไปตรงมา แต่ผู้标注ข้อมูลบางรายเลือกวิธีแก้ปัญหาต่างกัน ส่งผลให้คำตอบสุดท้ายไม่ตรงกัน นักวิจัยชี้ว่าปัญหานี้เกิดจากความคลุมเครือในภาษา บริบททางวัฒนธรรม และการตีความส่วนบุคคล

หากคำนวณ “human ceiling” จากอัตราความเห็นพ้องสูงสุด (maximum agreement) ประสิทธิภาพของโมเดล AI เช่น GPT-4 จะลดลงอย่างมีนัยสำคัญ จากเดิมที่ทำได้ใกล้เคียงหรือเกินมนุษย์ (เช่น 86% ใน MMLU) เป็นเพียง 70-80% เมื่อปรับตามความไม่เห็นพ้องกันจริง

วิธีการใหม่ที่เสนอ: ปรับ benchmarks ให้สะท้อนความจริง

เพื่อแก้ปัญหา นักวิจัยเสนอแนวทางใหม่ดังนี้

  1. วัดอัตราความเห็นพ้องกันของมนุษย์ (Inter-Annotator Agreement): ใช้เมตริกเช่น Cohen’s Kappa หรือ Fleiss’ Kappa เพื่อคำนวณระดับความสอดคล้อง จากนั้นปรับคะแนน AI ให้สัมพันธ์กับ human ceiling จริง
  2. Multiple Ground Truths: เปลี่ยนจากคำตอบเดียวเป็นชุดคำตอบที่เป็นไปได้ โดยให้คะแนน AI หากตรงกับคำตอบใดคำตอบหนึ่งจากมนุษย์ส่วนใหญ่
  3. Human Disagreement-Aware Scoring: สร้างสูตรคะแนนใหม่ เช่น คะแนน = (คะแนน AI / human agreement rate) เพื่อสะท้อนช่องว่างที่แท้จริง

ตัวอย่างการประยุกต์ ใน MMLU หาก human agreement อยู่ที่ 90% คะแนนของโมเดลที่ได้ 85% จะถูกปรับให้เหลือประมาณ 94% ของ human ceiling แทนที่จะเป็น 94% ของ 100% เดิม

ผลกระทบต่อวงการ AI และข้อเสนอแนะ

การค้นพบนี้มีนัยสำคัญต่อการพัฒนาและเปรียบเทียบโมเดล AI เนื่องจาก benchmarks ปัจจุบันทำให้ดูเหมือนว่า AI เกินขีดจำกัดมนุษย์แล้ว (superhuman performance) ในขณะที่จริงๆ แล้วยังมีช่องว่างมาก โดยเฉพาะในงานที่ต้องการการตีความเชิงลึก เช่น กฎหมาย การแพทย์ หรือจริยธรรม

นักวิจัยเตือนว่า “การละเลยความไม่เห็นพ้องกันของมนุษย์ทำให้เกิดการประเมินที่บิดเบือน (overestimation) และอาจนำไปสู่การตัดสินใจทางธุรกิจที่ผิดพลาด เช่น การนำ AI ไปใช้ในระบบสำคัญโดยไม่รู้ถึงความเสี่ยง”

ข้อเสนอแนะสำหรับนักพัฒนา ได้แก่

  • รวบรวมข้อมูล标注จากมนุษย์จำนวนมากขึ้น (อย่างน้อย 5-10 รายต่อคำถาม)
  • เปิดเผยอัตราความเห็นพ้องกันในทุก benchmarks ใหม่
  • พัฒนา benchmarks ใหม่ที่ออกแบบให้ลดความคลุมเครือ เช่น Humanity’s Last Exam (HLE) ซึ่งทดสอบคำถามยากที่มนุษย์ยังถกเถียงกัน

Google DeepMind กำลังนำแนวทางนี้ไปใช้ในการประเมินโมเดลภายใน และเชิญชวนชุมชนวิจัยร่วมพัฒนามาตรฐานใหม่

สรุปความสำคัญทางธุรกิจ

ในยุคที่องค์กรธุรกิจแข่งขันด้าน AI การเลือก benchmarks ที่แม่นยำคือกุญแจสำคัญ หากมองข้ามความไม่เห็นพ้องกันของมนุษย์ อาจนำไปสู่การลงทุนผิดทิศทางหรือความเสี่ยงด้านความน่าเชื่อถือ ส่งผลกระทบต่อชื่อเสียงและผลกำไร การศึกษานี้จาก Google เป็นสัญญาณเตือนให้ผู้นำธุรกิจและนักพัฒนา AI ทบทวนกระบวนการประเมินใหม่ เพื่อให้ได้ภาพที่สมจริงและยั่งยืนยิ่งขึ้น

(จำนวนคำประมาณ 720 คำ)

This Article is sponsored by Gnoppix AI (https://www.gnoppix.org)