เกณฑ์ทดสอบ facts แสดงให้เห็นว่า แม้แต่โมเดล ai ชั้นนำยังประสบปัญหากับความจริง หากไม่แปลเป็นภาษาไทย

เกณฑ์ทดสอบ FACTS เผยให้เห็นว่า แม้แต่โมเดล AI ชั้นนำยังประสบปัญหากับความจริง

เกณฑ์ทดสอบใหม่ชื่อ FACTS (Faithfulness-Aware Conversational Truthfulness benchmark for Synthetic data) ได้รับการพัฒนาขึ้นเพื่อวัดระดับการหลอน (hallucination) ในโมเดลภาษาขนาดใหญ่ (Large Language Models: LLMs) โดยเฉพาะ โดยทีมนักวิจัยจาก Shanghai AI Laboratory, East China Normal University, Fudan University และ HKUST (Guangzhou) เกณฑ์นี้มุ่งเน้นการประเมินความสามารถของโมเดล AI ในการยึดติดกับข้อเท็จจริงที่ตรวจสอบได้ โดยไม่แต่งเติมข้อมูลที่ไม่มีมูลความจริง

วิธีการสร้างเกณฑ์ทดสอบ FACTS

เกณฑ์ FACTS ถูกออกแบบมาเพื่อแก้ปัญหาของเกณฑ์ทดสอบอื่นๆ ที่มีช่องโหว่ เช่น การรั่วไหลของข้อมูลทดสอบ (data contamination) หรือการใช้คำถามแบบเลือกตอบหลายตัวเลือกที่ทำให้โมเดลคาดเดาได้ง่าย ผู้พัฒนาเกณฑ์นี้จึงใช้วิธีการสร้างข้อมูลสังเคราะห์ (synthetic data generation) ที่ควบคุมได้ โดยดึงข้อมูลจากแหล่งความรู้ที่น่าเชื่อถือ 8 แหล่ง ได้แก่ Wikipedia, textbooks, arXiv papers, PubMed, news articles จาก CNN, code จาก GitHub, Common Crawl และ Pile-CC

กระบวนการสร้างคำถามมีดังนี้:

  1. การสกัดข้อเท็จจริงอะตอม (Atomic Facts Extraction): ใช้โมเดล GPT-4o เพื่อสกัดข้อเท็จจริงพื้นฐานจากเอกสารต้นทาง โดยกำหนดให้ข้อเท็จจริงแต่ละข้อต้องสั้น กระชับ สามารถตรวจสอบได้ (verifiable) และไม่ซับซ้อน เช่น “Earth is the third planet from the Sun” หรือ “Python is a programming language”
  2. การสร้างคำถามจริง/เท็จ (True/False Question Generation): จากข้อเท็จจริงที่สกัดได้ จะสร้างคำถามแบบไบนารี (binary true/false) สองประเภท คือ
    • True Questions: คำถามตรงตามข้อเท็จจริงจริง 4,598 ข้อ
    • False Questions: คำถามที่พลิกกลับข้อเท็จจริงจริงให้เป็นเท็จ เพื่อทดสอบการหลอน
  3. การตรวจสอบคุณภาพ: ใช้โมเดล LLM อื่นๆ เพื่อกรองคำถามที่คลุมเครือหรือยากเกินไป โดยคำนวณคะแนน GPQA-like score เพื่อให้มั่นใจว่าคำถามมีคุณภาพสูง

ผลลัพธ์คือชุดข้อมูลทดสอบที่มี 4,598 คำถามจริงและจำนวนเท่ากันสำหรับคำถามเท็จ รวมทั้งสิ้นกว่า 9,000 คำถาม ซึ่งครอบคลุมหลากหลายโดเมน เช่น วิทยาศาสตร์ คณิตศาสตร์ ประวัติศาสตร์ และเทคโนโลยี

ผลการทดสอบของโมเดล AI ชั้นนำ

การทดสอบใช้เกณฑ์หลักคือ TruthfulQA Accuracy ซึ่งวัดสัดส่วนคำถามที่โมเดลตอบถูกต้อง โดยระดับสุ่ม (random guess) คือ 50% ผลปรากฏว่า แม้แต่โมเดลชั้นนำยังทำคะแนนต่ำกว่าที่คาดหวังอย่างมาก

ตารางสรุปผลคะแนน (หน่วย: %):

โมเดล คะแนน TruthfulQA Chain-of-Thought (CoT)
Qwen2.5-72B-Instruct 64.0 62.8
GPT-4o 58.8 58.5
Claude-3.5-Sonnet 58.8 58.4
GPT-4o-mini 50.9 52.4
Gemini-1.5-Pro 56.3 55.8
Llama-3.1-405B-Instruct 59.6 59.6
Command-R+ 56.4 57.1
DeepSeek-V2.5 57.8 57.8
Llama-3.1-70B-Instruct 57.3 57.3

จากผล แม้โมเดลอย่าง GPT-4o และ Claude 3.5 Sonnet จะมีคะแนนสูงสุดที่ 58.8% แต่ก็ยังต่ำกว่า 60% ซึ่งบ่งชี้ว่ามีโอกาสหลอนเกือบครึ่งหนึ่ง แม้จะใช้เทคนิค Chain-of-Thought (CoT) ที่ช่วยให้โมเดลคิดทีละขั้นตอน คะแนนก็ไม่ดีขึ้นมากนัก

นอกจากนี้ ยังทดสอบ Hallucination Rate พบว่าโมเดลชั้นนำหลอนเฉลี่ย 35-45% ของคำถามจริง โดยเฉพาะคำถามจากโดเมน code และ news ที่ยากที่สุด

การเปรียบเทียบกับเกณฑ์อื่นๆ

FACTS ยากกว่าเกณฑ์มาตรฐานอื่นๆ อย่างมาก เช่น:

  • MMLU: โมเดลชั้นนำทำคะแนนได้ 85-90% แต่ FACTS ลดลงเหลือครึ่งหนึ่ง
  • TruthfulQA: คล้ายกันแต่ FACTS ควบคุมคุณภาพดีกว่า ไม่มี data leakage
  • GPQA: วัดความรู้ขั้นสูง แต่ FACTS มุ่งที่ faithfulness

สาเหตุที่ FACTS ยากเพราะ:

  • คำถามสร้างจากข้อเท็จจริงจริง ไม่ใช่ pattern ที่โมเดลฝึกมา
  • ไบนารี true/false บังคับให้โมเดลตัดสินใจชัดเจน ไม่มีตัวเลือกหลอก
  • ครอบคลุม atomic facts ที่ verifiable ลดโอกาสคาดเดา

ข้อจำกัดและแนวทางแก้ไข

ผู้พัฒนายอมรับข้อจำกัด เช่น:

  • ใช้ GPT-4o สร้างข้อมูล อาจมี bias
  • False questions มาจากการ negate atomic facts อาจไม่ครอบคลุม hallucination ทุกประเภท
  • ไม่ทดสอบ open-ended questions แต่อนาคตจะขยาย

แนวทางแก้ไขที่เสนอ:

  • SelfCheckGPT: ใช้โมเดลตรวจสอบตัวเอง
  • Faithful Chain-of-Thought: สั่งให้โมเดลยึด fact เท่านั้น
  • Retrieval-Augmented Generation (RAG): ดึงข้อมูลจริงก่อนตอบ

ความสำคัญต่ออุตสาหกรรม AI

เกณฑ์ FACTS ชี้ให้เห็นปัญหาโครงสร้างใน LLMs ว่ายังขาดความน่าเชื่อถือ แม้จะฉลาดแค่ไหน หากใช้ในธุรกิจการเงิน สุขภาพ หรือกฎหมาย การหลอนอาจนำไปสู่ความเสียหายร้ายแรง นักวิจัยเรียกร้องให้ชุมชน AI พัฒนาเกณฑ์ที่แข็งแกร่งขึ้นและเน้น faithfulness มากกว่าความรู้ทั่วไป

ชุดข้อมูล FACTS วางจำหน่ายฟรีที่ GitHub (https://github.com/shanghai-ai/FACTS) เพื่อให้ผู้พัฒนาโมเดลนำไปใช้ปรับปรุงต่อไป ผลการทดสอบนี้ย้ำเตือนว่าการเดินทางสู่ AGI ที่ truthful ยังอีกยาวไกล

(จำนวนคำประมาณ 728 คำ)

This Article is sponsored by Gnoppix AI (https://www.gnoppix.org)