โมเดล AI อธิบายภาพที่ไม่เคยเห็นด้วยความมั่นใจสูง และเกณฑ์มาตรฐานตรวจสอบล้มเหลวในการตรวจจับปัญหานี้
ในยุคที่โมเดลปัญญาประดิษฐ์สำหรับวิเคราะห์ภาพและภาษา (Vision-Language Models: VLMs) พัฒนาอย่างรวดเร็ว โมเดลเหล่านี้แสดงศักยภาพในการอธิบายภาพได้อย่างละเอียดและน่าเชื่อถือ อย่างไรก็ตาม การทดสอบล่าสุดเผยให้เห็นปัญหาสำคัญที่ซ่อนเร้น: โมเดลดังกล่าวสามารถอธิบายภาพที่ไม่เคยพบเห็นในข้อมูลฝึกอบรมได้ด้วยความมั่นใจสูงมาก โดยที่เกณฑ์มาตรฐานการประเมิน (benchmarks) ปัจจุบันไม่สามารถตรวจจับปรากฏการณ์นี้ได้
นักวิจัยจาก Shanghai AI Laboratory, Fudan University, East China Normal University และ The University of Hong Kong ได้ตีพิมพ์ผลการศึกษาในเอกสารทางวิชาการชื่อ “Post-Training Images Matter: Rethinking Vision-Language Models Evaluation” บน arXiv (arXiv:2410.10360) ซึ่งชี้ให้เห็นถึงช่องโหว่ในกระบวนการประเมินประสิทธิภาพของโมเดล VLM พวกเขาได้สร้างชุดข้อมูลทดสอบใหม่ชื่อ Post-2024 Image Test (PIT) โดยรวบรวมภาพจำนวน 500 ภาพจากแหล่งข่าวชั้นนำ เช่น CNN, BBC, Reuters, The New York Times และ The Guardian ภาพเหล่านี้ทั้งหมดเผยแพร่ในปี 2024 ซึ่งอยู่นอกช่วงเวลาตัดข้อมูลฝึกอบรม (training cutoff) ของโมเดลหลักๆ เช่น GPT-4o (ตัดข้อมูลตุลาคม 2023), Claude 3.5 Sonnet (เมษายน 2024), Gemini 1.5 Pro (มกราคม 2024) และ Llama 3.1 405B (กรกฎาคม 2024)
ชุดข้อมูล PIT ครอบคลุมหัวข้อที่หลากหลาย เช่น การเมือง เศรษฐกิจ กีฬา ความบันเทิง และเหตุการณ์ปัจจุบัน เพื่อให้มั่นใจว่าภาพเหล่านี้เป็นข้อมูลใหม่ที่โมเดลไม่เคยสัมผัส นักวิจัยใช้พรอมต์ง่ายๆ คือ “Describe this image in detail” เพื่อทดสอบการตอบสนอง โดยวัดทั้งความถูกต้องของคำอธิบาย ความมั่นใจ (confidence) จากคะแนน logits และความยาวของคำตอบ
ผลการทดสอบเผยให้เห็นปรากฏการณ์ที่น่าตกใจ: โมเดล VLM ชั้นนำทั้งหมดสามารถสร้างคำอธิบายที่ละเอียดยิบสำหรับภาพเหล่านี้ได้ แม้จะไม่เคยเห็นมาก่อน โดยมีความมั่นใจเฉลี่ยสูงกว่า 90% ในบางกรณี GPT-4o ทำได้ดีที่สุด โดยให้คำอธิบายที่ถูกต้องในบางภาพ แต่ในภาพส่วนใหญ่ โมเดลเหล่านี้ “หลอน” (hallucinate) เนื้อหาที่ไม่ตรงกับภาพจริง เช่น อธิบายภาพเหตุการณ์ทางการเมืองปี 2024 ว่าเป็นภาพบุคคลที่มีชื่อเสียงแต่ไม่เกี่ยวข้อง หรือเพิ่มรายละเอียดที่ไม่มีในภาพจริง
ตัวอย่างที่ชัดเจนคือ ภาพจาก CNN เกี่ยวกับการเลือกตั้งสหรัฐฯ ในปี 2024 โมเดล Claude 3.5 Sonnet อธิบายอย่างมั่นใจว่าภาพแสดง “โดนัลด์ ทรัมป์ ยืนอยู่ข้างกองขยะ” ทั้งที่ภาพจริงเป็นภาพอื่น นอกจากนี้ Llama 3.1 405B ซึ่งมีข้อมูลฝึกอบรมล่าสุด สามารถอธิบายภาพหลังกรกฎาคม 2024 ได้ด้วยความมั่นใจสูงเช่นกัน แสดงให้เห็นว่าโมเดลขนาดใหญ่มีแนวโน้ม “เดาความเป็นไปได้” จาก pattern ในข้อมูลเก่าได้อย่างน่าเชื่อถือ
ปัญหาหลักคือเกณฑ์มาตรฐานเดิม เช่น MMMU, MathVista, AI2D และ ScienceQA++ ล้มเหลวในการตรวจจับปัญหานี้ เนื่องจากใช้ภาพจากก่อนปี 2024 ซึ่งอยู่ในช่วงข้อมูลฝึกอบรมของโมเดล ทำให้คะแนนสูงเกินจริงและไม่สะท้อนความสามารถในการจัดการข้อมูลใหม่ PIT แสดงให้เห็นว่าคะแนนบน benchmarks เก่าไม่สัมพันธ์กับประสิทธิภาพบนภาพใหม่ เช่น GPT-4o ได้คะแนนสูงใน MMMU แต่หลอนบ่อยบน PIT
นักวิจัยวิเคราะห์เพิ่มเติมว่าปรากฏการณ์นี้เกิดจาก “in-context learning” และการ generalize จากข้อมูลเก่า โมเดลเรียนรู้ที่จะสร้างคำอธิบายที่ coherent และ confident โดยไม่ต้องมีข้อมูลจริง พวกเขายังทดสอบด้วยการเพิ่ม context ในพรอมต์ เช่น “This image was published after your training cutoff date” แต่โมเดลยังคงมั่นใจสูง โดยลดลงเพียงเล็กน้อย (จาก 0.95 เป็น 0.92 ใน GPT-4o)
เพื่อยืนยันความน่าเชื่อถือ นักวิจัยใช้ human evaluation โดยผู้เชี่ยวชาญ 100 คนประเมินคำอธิบาย 1,000 คำจาก PIT พบว่าความสอดคล้องกับภาพจริงต่ำ (ต่ำกว่า 40% สำหรับบางโมเดล) แต่ความมั่นใจที่โมเดลแสดงออกทำให้มนุษย์หลงเชื่อได้ง่าย
ผลกระทบต่อวงการ AI มีนัยสำคัญ: ผู้ใช้และนักพัฒนาอาจประเมินความน่าเชื่อถือของโมเดลเกินจริง โดยเฉพาะในงานที่ต้องการความถูกต้องสูง เช่น การวิเคราะห์ข่าวสารหรือการแพทย์ นักวิจัยแนะนำให้รวมชุดข้อมูลอย่าง PIT ในกระบวนการประเมินมาตรฐานใหม่ เพื่อทดสอบความสามารถในการจัดการ “out-of-distribution” data นอกจากนี้ ควรพัฒนาเครื่องมือตรวจจับ hallucination เช่น การวัด uncertainty จาก entropy ของ logits
ตารางสรุปผลการทดสอบบน PIT (ความมั่นใจเฉลี่ย / คะแนนถูกต้องเฉลี่ย):
| โมเดล | ความมั่นใจ (%) | คะแนนถูกต้อง (%) |
|---|---|---|
| GPT-4o | 95.2 | 28.4 |
| Claude 3.5 Sonnet | 92.1 | 22.6 |
| Gemini 1.5 Pro | 91.8 | 25.1 |
| Llama 3.1 405B | 89.7 | 19.8 |
การศึกษานี้เน้นย้ำว่าการพัฒนา VLM ต้องคำนึงถึงข้อมูลหลังการฝึกอบรม เพื่อให้โมเดล robust ต่อโลกจริงที่เปลี่ยนแปลงรวดเร็ว ผู้สนใจสามารถเข้าถึงชุดข้อมูล PIT และโค้ดทดสอบได้ที่ GitHub repository ที่เชื่อมโยงในเอกสาร arXiv
(จำนวนคำประมาณ 720 คำ)
This Article is sponsored by Gnoppix AI (https://www.gnoppix.org)