นักวิจัยพบ โมเดล ai ชอบเดาเองมากกว่าขอความช่วยเหลือ

เมื่อโมเดล AI ไม่สามารถมองเห็น พวกมันก็แค่แต่งเรื่องขึ้นมา

ในยุคที่โมเดลปัญญาประดิษฐ์ (AI) แบบมัลติโมดัลหรือวิชัน-แลงเกจ (Vision-Language Models: VLMs) กำลังได้รับความนิยมอย่างแพร่หลาย เช่น GPT-4V ของ OpenAI, Gemini Pro Vision ของ Google และ Claude 3 Opus ของ Anthropic นักวิจัยได้ค้นพบปัญหาสำคัญที่อาจส่งผลกระทบต่อความน่าเชื่อถือของเทคโนโลยีเหล่านี้ โดยเฉพาะอย่างยิ่งเมื่อโมเดลเหล่านี้ถูกทดสอบด้วยภาพที่มองไม่เห็นหรือถูกบดบัง

การทดลองที่ดำเนินการโดยนักวิจัยจาก Apple, Black Sesame Technologies และมหาวิทยาลัย Tsinghua ได้เปิดเผยปรากฏการณ์ที่เรียกว่า “black box hallucination” หรือการหลอนประสาทในกล่องดำ ซึ่งหมายถึงพฤติกรรมที่โมเดล AI สร้างคำอธิบายที่สมจริงแต่ไม่ถูกต้องสำหรับภาพที่ไม่สามารถมองเห็นได้ ผลการศึกษานี้ตีพิมพ์ในเอกสารวิจัยชื่อ “Black Box Hallucination Ablation” ที่ arXiv.org โดยมีวัตถุประสงค์เพื่อตรวจสอบความสามารถในการรับรู้ภาพของ VLMs ในสถานการณ์ที่ภาพถูกบดบังบางส่วนหรือทั้งหมด

วิธีการทดลอง

นักวิจัยได้ใช้ชุดข้อมูลที่หลากหลายในการทดสอบ โดยแบ่งออกเป็นสามประเภทหลัก:

  1. ภาพสีดำสนิท (All-Black Images): ภาพที่เป็นสีดำทั้งหมด โดยไม่มีข้อมูลภาพใด ๆ เลย
  2. ภาพบดบังบางส่วน (Partial Blackout): ภาพจริงที่ถูกปกคลุมด้วยสี่เหลี่ยมสีดำในบางพื้นที่ โดยเฉพาะบริเวณวัตถุหลัก
  3. ภาพบดบังแบบสุ่ม (Random Blackout): การบดบังแบบสุ่มเพื่อทดสอบความสามารถในการแยกแยะ

โมเดลที่ถูกทดสอบ ได้แก่ GPT-4V, Gemini Pro Vision, Claude 3 Opus และโมเดลโอเพ่นซอร์สอื่น ๆ เช่น LLaVA-1.5 และ Qwen-VL-Chat การทดสอบนี้ใช้พรอมต์คำสั่งมาตรฐาน เช่น “อธิบายภาพนี้” หรือ “สิ่งที่เห็นในภาพคืออะไร” เพื่อให้โมเดลตอบสนองตามปกติ

ผลลัพธ์ที่น่าตกใจ

ผลการทดสอบเผยให้เห็นว่า แม้โมเดลจะไม่สามารถ “มองเห็น” ภาพได้เลย โมเดลเหล่านี้ก็ยังตอบสนองด้วยคำอธิบายที่มั่นใจและละเอียด โดยประดิษฐ์รายละเอียดขึ้นมาใหม่ ตัวอย่างเช่น:

  • เมื่อให้ภาพสีดำสนิท GPT-4V อธิบายว่า “นี่คือภาพถ่ายสุนัขพันธุ์โกลเด้น รีทรีฟเวอร์กำลังยืนอยู่บนพื้นหญ้าเขียวขจี ตัวสุนัขมีขนสีทองอ่อนและกำลังมองตรงมาที่กล้อง” ซึ่งทั้งหมดเป็นการแต่งเรื่องโดยสมบูรณ์
  • ในกรณีภาพจราจรที่มีไฟจราจรถูกบดบังด้วยสี่เหลี่ยมสีดำ Gemini Pro Vision ยังคงระบุว่า “ไฟจราจรเป็นสีเขียว” แม้จะมองไม่เห็นสีจริง
  • Claude 3 Opus เมื่อเห็นภาพนาฬิกาที่ถูกบดบัง ระบุเวลาที่แน่นอนว่า “บอกเวลา 10:08 น.” โดยไม่มีหลักฐานภาพรองรับ

อัตราความผิดพลาดสูงถึง 94% ในบางโมเดล โดย GPT-4V มีอัตราการหลอนประสาทสูงสุดที่ 97% สำหรับภาพสีดำ ขณะที่โมเดลโอเพ่นซอร์สอย่าง LLaVA-1.5 มีอัตราต่ำกว่าแต่ยังคงสูงถึง 80% การทดสอบยืนยันว่าโมเดลไม่ได้ปฏิเสธการมองเห็น แต่เลือกที่จะ “เติมเต็ม” ด้วยข้อมูลที่คาดเดาจากแพตเทิร์นการฝึกฝน

สาเหตุของปัญหา

นักวิจัยชี้ว่า ปัญหานี้เกิดจากการฝึกฝนโมเดลที่เน้นการจับคู่ข้อความกับภาพในชุดข้อมูลขนาดใหญ่ โดยโมเดลเรียนรู้แพตเทิร์นทางสถิติ เช่น คำว่า “ภาพนี้” มักตามด้วยคำอธิบายที่สมจริง แม้ภาพจะว่างเปล่า โมเดลจึงสร้าง output ที่น่าเชื่อถือเพื่อให้สอดคล้องกับการฝึกฝน แทนที่จะยอมรับข้อจำกัดในการมองเห็น

นอกจากนี้ การทดลอง ablation study พบว่า การปรับแต่งโมเดลด้วยเทคนิคต่าง ๆ เช่น การเพิ่ม noise หรือการฝึกให้โมเดลรู้จักภาพสีดำ สามารถลดอัตราการหลอนได้บ้าง แต่ยังไม่สมบูรณ์แบบ นักวิจัยแนะนำให้ใช้กลไกตรวจสอบความมั่นใจ (confidence scoring) เพื่อแจ้งเตือนผู้ใช้เมื่อโมเดลอาจกำลังแต่งเรื่อง

ความเสี่ยงทางธุรกิจและการใช้งานจริง

ปรากฏการณ์นี้ก่อให้เกิดความเสี่ยงสูงในแอปพลิเคชันทางธุรกิจ เช่น การวิเคราะห์ภาพทางการแพทย์ การตรวจสอบเอกสาร หรือระบบอัตโนมัติในอุตสาหกรรม หากโมเดลให้ข้อมูลเท็จที่ดูน่าเชื่อถือ อาจนำไปสู่การตัดสินใจที่ผิดพลาด เช่น ในระบบรักษาความปลอดภัยที่ระบุวัตถุผิด หรือในบริการลูกค้าที่ให้คำแนะนำจากภาพที่ไม่ชัดเจน

นักวิจัยจาก Apple ระบุว่า “VLMs ยังคงเป็น black box ที่คาดเดาไม่ได้ แม้จะฉลาดเพียงใด” ซึ่งเน้นย้ำถึงความจำเป็นในการพัฒนามาตรฐานความน่าเชื่อถือเพิ่มเติม ก่อนนำไปใช้งานในระดับองค์กร

ข้อเสนอแนะสำหรับผู้พัฒนา

เพื่อบรรเทาปัญหา นักวิจัยเสนอแนวทางดังนี้:

  • การฝึกฝนเฉพาะทาง: รวมภาพสีดำหรือบดบังในชุดข้อมูลฝึก เพื่อให้โมเดลเรียนรู้ที่จะปฏิเสธหรือระบุข้อจำกัด
  • กลไกตรวจสอบ: ใช้ multi-step verification โดยให้โมเดลตรวจสอบ output ด้วยตัวเอง
  • การแจ้งเตือนผู้ใช้: แสดงระดับความมั่นใจใน output เพื่อให้ผู้ใช้ตัดสินใจได้อย่างมีข้อมูล

การศึกษานี้เป็นเครื่องเตือนใจสำคัญสำหรับอุตสาหกรรม AI ว่า แม้เทคโนโลยีจะก้าวหน้า แต่ความโปร่งใสและความน่าเชื่อถือยังคงเป็นกุญแจสำคัญในการนำไปใช้จริง ผู้ประกอบการทางธุรกิจควรพิจารณาปัจจัยเหล่านี้ในการเลือกและปรับใช้โมเดล VLMs เพื่อลดความเสี่ยง

(จำนวนคำประมาณ 720 คำ)

This Article is sponsored by Gnoppix AI (https://www.gnoppix.org)