เกณฑ์ทดสอบ FACTS เผยให้เห็นว่า แม้แต่โมเดล AI ชั้นนำยังประสบปัญหากับความจริง
เกณฑ์ทดสอบใหม่ชื่อ FACTS (Faithfulness-Aware Conversational Truthfulness benchmark for Synthetic data) ได้รับการพัฒนาขึ้นเพื่อวัดระดับการหลอน (hallucination) ในโมเดลภาษาขนาดใหญ่ (Large Language Models: LLMs) โดยเฉพาะ โดยทีมนักวิจัยจาก Shanghai AI Laboratory, East China Normal University, Fudan University และ HKUST (Guangzhou) เกณฑ์นี้มุ่งเน้นการประเมินความสามารถของโมเดล AI ในการยึดติดกับข้อเท็จจริงที่ตรวจสอบได้ โดยไม่แต่งเติมข้อมูลที่ไม่มีมูลความจริง
วิธีการสร้างเกณฑ์ทดสอบ FACTS
เกณฑ์ FACTS ถูกออกแบบมาเพื่อแก้ปัญหาของเกณฑ์ทดสอบอื่นๆ ที่มีช่องโหว่ เช่น การรั่วไหลของข้อมูลทดสอบ (data contamination) หรือการใช้คำถามแบบเลือกตอบหลายตัวเลือกที่ทำให้โมเดลคาดเดาได้ง่าย ผู้พัฒนาเกณฑ์นี้จึงใช้วิธีการสร้างข้อมูลสังเคราะห์ (synthetic data generation) ที่ควบคุมได้ โดยดึงข้อมูลจากแหล่งความรู้ที่น่าเชื่อถือ 8 แหล่ง ได้แก่ Wikipedia, textbooks, arXiv papers, PubMed, news articles จาก CNN, code จาก GitHub, Common Crawl และ Pile-CC
กระบวนการสร้างคำถามมีดังนี้:
- การสกัดข้อเท็จจริงอะตอม (Atomic Facts Extraction): ใช้โมเดล GPT-4o เพื่อสกัดข้อเท็จจริงพื้นฐานจากเอกสารต้นทาง โดยกำหนดให้ข้อเท็จจริงแต่ละข้อต้องสั้น กระชับ สามารถตรวจสอบได้ (verifiable) และไม่ซับซ้อน เช่น “Earth is the third planet from the Sun” หรือ “Python is a programming language”
- การสร้างคำถามจริง/เท็จ (True/False Question Generation): จากข้อเท็จจริงที่สกัดได้ จะสร้างคำถามแบบไบนารี (binary true/false) สองประเภท คือ
- True Questions: คำถามตรงตามข้อเท็จจริงจริง 4,598 ข้อ
- False Questions: คำถามที่พลิกกลับข้อเท็จจริงจริงให้เป็นเท็จ เพื่อทดสอบการหลอน
- การตรวจสอบคุณภาพ: ใช้โมเดล LLM อื่นๆ เพื่อกรองคำถามที่คลุมเครือหรือยากเกินไป โดยคำนวณคะแนน GPQA-like score เพื่อให้มั่นใจว่าคำถามมีคุณภาพสูง
ผลลัพธ์คือชุดข้อมูลทดสอบที่มี 4,598 คำถามจริงและจำนวนเท่ากันสำหรับคำถามเท็จ รวมทั้งสิ้นกว่า 9,000 คำถาม ซึ่งครอบคลุมหลากหลายโดเมน เช่น วิทยาศาสตร์ คณิตศาสตร์ ประวัติศาสตร์ และเทคโนโลยี
ผลการทดสอบของโมเดล AI ชั้นนำ
การทดสอบใช้เกณฑ์หลักคือ TruthfulQA Accuracy ซึ่งวัดสัดส่วนคำถามที่โมเดลตอบถูกต้อง โดยระดับสุ่ม (random guess) คือ 50% ผลปรากฏว่า แม้แต่โมเดลชั้นนำยังทำคะแนนต่ำกว่าที่คาดหวังอย่างมาก
ตารางสรุปผลคะแนน (หน่วย: %):
| โมเดล | คะแนน TruthfulQA | Chain-of-Thought (CoT) |
|---|---|---|
| Qwen2.5-72B-Instruct | 64.0 | 62.8 |
| GPT-4o | 58.8 | 58.5 |
| Claude-3.5-Sonnet | 58.8 | 58.4 |
| GPT-4o-mini | 50.9 | 52.4 |
| Gemini-1.5-Pro | 56.3 | 55.8 |
| Llama-3.1-405B-Instruct | 59.6 | 59.6 |
| Command-R+ | 56.4 | 57.1 |
| DeepSeek-V2.5 | 57.8 | 57.8 |
| Llama-3.1-70B-Instruct | 57.3 | 57.3 |
จากผล แม้โมเดลอย่าง GPT-4o และ Claude 3.5 Sonnet จะมีคะแนนสูงสุดที่ 58.8% แต่ก็ยังต่ำกว่า 60% ซึ่งบ่งชี้ว่ามีโอกาสหลอนเกือบครึ่งหนึ่ง แม้จะใช้เทคนิค Chain-of-Thought (CoT) ที่ช่วยให้โมเดลคิดทีละขั้นตอน คะแนนก็ไม่ดีขึ้นมากนัก
นอกจากนี้ ยังทดสอบ Hallucination Rate พบว่าโมเดลชั้นนำหลอนเฉลี่ย 35-45% ของคำถามจริง โดยเฉพาะคำถามจากโดเมน code และ news ที่ยากที่สุด
การเปรียบเทียบกับเกณฑ์อื่นๆ
FACTS ยากกว่าเกณฑ์มาตรฐานอื่นๆ อย่างมาก เช่น:
- MMLU: โมเดลชั้นนำทำคะแนนได้ 85-90% แต่ FACTS ลดลงเหลือครึ่งหนึ่ง
- TruthfulQA: คล้ายกันแต่ FACTS ควบคุมคุณภาพดีกว่า ไม่มี data leakage
- GPQA: วัดความรู้ขั้นสูง แต่ FACTS มุ่งที่ faithfulness
สาเหตุที่ FACTS ยากเพราะ:
- คำถามสร้างจากข้อเท็จจริงจริง ไม่ใช่ pattern ที่โมเดลฝึกมา
- ไบนารี true/false บังคับให้โมเดลตัดสินใจชัดเจน ไม่มีตัวเลือกหลอก
- ครอบคลุม atomic facts ที่ verifiable ลดโอกาสคาดเดา
ข้อจำกัดและแนวทางแก้ไข
ผู้พัฒนายอมรับข้อจำกัด เช่น:
- ใช้ GPT-4o สร้างข้อมูล อาจมี bias
- False questions มาจากการ negate atomic facts อาจไม่ครอบคลุม hallucination ทุกประเภท
- ไม่ทดสอบ open-ended questions แต่อนาคตจะขยาย
แนวทางแก้ไขที่เสนอ:
- SelfCheckGPT: ใช้โมเดลตรวจสอบตัวเอง
- Faithful Chain-of-Thought: สั่งให้โมเดลยึด fact เท่านั้น
- Retrieval-Augmented Generation (RAG): ดึงข้อมูลจริงก่อนตอบ
ความสำคัญต่ออุตสาหกรรม AI
เกณฑ์ FACTS ชี้ให้เห็นปัญหาโครงสร้างใน LLMs ว่ายังขาดความน่าเชื่อถือ แม้จะฉลาดแค่ไหน หากใช้ในธุรกิจการเงิน สุขภาพ หรือกฎหมาย การหลอนอาจนำไปสู่ความเสียหายร้ายแรง นักวิจัยเรียกร้องให้ชุมชน AI พัฒนาเกณฑ์ที่แข็งแกร่งขึ้นและเน้น faithfulness มากกว่าความรู้ทั่วไป
ชุดข้อมูล FACTS วางจำหน่ายฟรีที่ GitHub (https://github.com/shanghai-ai/FACTS) เพื่อให้ผู้พัฒนาโมเดลนำไปใช้ปรับปรุงต่อไป ผลการทดสอบนี้ย้ำเตือนว่าการเดินทางสู่ AGI ที่ truthful ยังอีกยาวไกล
(จำนวนคำประมาณ 728 คำ)
This Article is sponsored by Gnoppix AI (https://www.gnoppix.org)