เกณฑ์ทดสอบ facts แสดงให้เห็นว่า แม้แต่โมเดล ai ชั้นนำยังประสบปัญหากับความจริง หากไม่แปลเป็นภาษาไทย

amu · December 11, 2025, 4:43pm

เกณฑ์ทดสอบ FACTS เผยให้เห็นว่า แม้แต่โมเดล AI ชั้นนำยังประสบปัญหากับความจริง

เกณฑ์ทดสอบใหม่ชื่อ FACTS (Faithfulness-Aware Conversational Truthfulness benchmark for Synthetic data) ได้รับการพัฒนาขึ้นเพื่อวัดระดับการหลอน (hallucination) ในโมเดลภาษาขนาดใหญ่ (Large Language Models: LLMs) โดยเฉพาะ โดยทีมนักวิจัยจาก Shanghai AI Laboratory, East China Normal University, Fudan University และ HKUST (Guangzhou) เกณฑ์นี้มุ่งเน้นการประเมินความสามารถของโมเดล AI ในการยึดติดกับข้อเท็จจริงที่ตรวจสอบได้ โดยไม่แต่งเติมข้อมูลที่ไม่มีมูลความจริง

วิธีการสร้างเกณฑ์ทดสอบ FACTS

เกณฑ์ FACTS ถูกออกแบบมาเพื่อแก้ปัญหาของเกณฑ์ทดสอบอื่นๆ ที่มีช่องโหว่ เช่น การรั่วไหลของข้อมูลทดสอบ (data contamination) หรือการใช้คำถามแบบเลือกตอบหลายตัวเลือกที่ทำให้โมเดลคาดเดาได้ง่าย ผู้พัฒนาเกณฑ์นี้จึงใช้วิธีการสร้างข้อมูลสังเคราะห์ (synthetic data generation) ที่ควบคุมได้ โดยดึงข้อมูลจากแหล่งความรู้ที่น่าเชื่อถือ 8 แหล่ง ได้แก่ Wikipedia, textbooks, arXiv papers, PubMed, news articles จาก CNN, code จาก GitHub, Common Crawl และ Pile-CC

กระบวนการสร้างคำถามมีดังนี้:

การสกัดข้อเท็จจริงอะตอม (Atomic Facts Extraction): ใช้โมเดล GPT-4o เพื่อสกัดข้อเท็จจริงพื้นฐานจากเอกสารต้นทาง โดยกำหนดให้ข้อเท็จจริงแต่ละข้อต้องสั้น กระชับ สามารถตรวจสอบได้ (verifiable) และไม่ซับซ้อน เช่น “Earth is the third planet from the Sun” หรือ “Python is a programming language”
การสร้างคำถามจริง/เท็จ (True/False Question Generation): จากข้อเท็จจริงที่สกัดได้ จะสร้างคำถามแบบไบนารี (binary true/false) สองประเภท คือ
- True Questions: คำถามตรงตามข้อเท็จจริงจริง 4,598 ข้อ
- False Questions: คำถามที่พลิกกลับข้อเท็จจริงจริงให้เป็นเท็จ เพื่อทดสอบการหลอน
การตรวจสอบคุณภาพ: ใช้โมเดล LLM อื่นๆ เพื่อกรองคำถามที่คลุมเครือหรือยากเกินไป โดยคำนวณคะแนน GPQA-like score เพื่อให้มั่นใจว่าคำถามมีคุณภาพสูง

ผลลัพธ์คือชุดข้อมูลทดสอบที่มี 4,598 คำถามจริงและจำนวนเท่ากันสำหรับคำถามเท็จ รวมทั้งสิ้นกว่า 9,000 คำถาม ซึ่งครอบคลุมหลากหลายโดเมน เช่น วิทยาศาสตร์ คณิตศาสตร์ ประวัติศาสตร์ และเทคโนโลยี

ผลการทดสอบของโมเดล AI ชั้นนำ

การทดสอบใช้เกณฑ์หลักคือ TruthfulQA Accuracy ซึ่งวัดสัดส่วนคำถามที่โมเดลตอบถูกต้อง โดยระดับสุ่ม (random guess) คือ 50% ผลปรากฏว่า แม้แต่โมเดลชั้นนำยังทำคะแนนต่ำกว่าที่คาดหวังอย่างมาก

ตารางสรุปผลคะแนน (หน่วย: %):

โมเดล	คะแนน TruthfulQA	Chain-of-Thought (CoT)
Qwen2.5-72B-Instruct	64.0	62.8
GPT-4o	58.8	58.5
Claude-3.5-Sonnet	58.8	58.4
GPT-4o-mini	50.9	52.4
Gemini-1.5-Pro	56.3	55.8
Llama-3.1-405B-Instruct	59.6	59.6
Command-R+	56.4	57.1
DeepSeek-V2.5	57.8	57.8
Llama-3.1-70B-Instruct	57.3	57.3

จากผล แม้โมเดลอย่าง GPT-4o และ Claude 3.5 Sonnet จะมีคะแนนสูงสุดที่ 58.8% แต่ก็ยังต่ำกว่า 60% ซึ่งบ่งชี้ว่ามีโอกาสหลอนเกือบครึ่งหนึ่ง แม้จะใช้เทคนิค Chain-of-Thought (CoT) ที่ช่วยให้โมเดลคิดทีละขั้นตอน คะแนนก็ไม่ดีขึ้นมากนัก

นอกจากนี้ ยังทดสอบ Hallucination Rate พบว่าโมเดลชั้นนำหลอนเฉลี่ย 35-45% ของคำถามจริง โดยเฉพาะคำถามจากโดเมน code และ news ที่ยากที่สุด

การเปรียบเทียบกับเกณฑ์อื่นๆ

FACTS ยากกว่าเกณฑ์มาตรฐานอื่นๆ อย่างมาก เช่น:

MMLU: โมเดลชั้นนำทำคะแนนได้ 85-90% แต่ FACTS ลดลงเหลือครึ่งหนึ่ง
TruthfulQA: คล้ายกันแต่ FACTS ควบคุมคุณภาพดีกว่า ไม่มี data leakage
GPQA: วัดความรู้ขั้นสูง แต่ FACTS มุ่งที่ faithfulness

สาเหตุที่ FACTS ยากเพราะ:

คำถามสร้างจากข้อเท็จจริงจริง ไม่ใช่ pattern ที่โมเดลฝึกมา
ไบนารี true/false บังคับให้โมเดลตัดสินใจชัดเจน ไม่มีตัวเลือกหลอก
ครอบคลุม atomic facts ที่ verifiable ลดโอกาสคาดเดา

ข้อจำกัดและแนวทางแก้ไข

ผู้พัฒนายอมรับข้อจำกัด เช่น:

ใช้ GPT-4o สร้างข้อมูล อาจมี bias
False questions มาจากการ negate atomic facts อาจไม่ครอบคลุม hallucination ทุกประเภท
ไม่ทดสอบ open-ended questions แต่อนาคตจะขยาย

แนวทางแก้ไขที่เสนอ:

SelfCheckGPT: ใช้โมเดลตรวจสอบตัวเอง
Faithful Chain-of-Thought: สั่งให้โมเดลยึด fact เท่านั้น
Retrieval-Augmented Generation (RAG): ดึงข้อมูลจริงก่อนตอบ

ความสำคัญต่ออุตสาหกรรม AI

เกณฑ์ FACTS ชี้ให้เห็นปัญหาโครงสร้างใน LLMs ว่ายังขาดความน่าเชื่อถือ แม้จะฉลาดแค่ไหน หากใช้ในธุรกิจการเงิน สุขภาพ หรือกฎหมาย การหลอนอาจนำไปสู่ความเสียหายร้ายแรง นักวิจัยเรียกร้องให้ชุมชน AI พัฒนาเกณฑ์ที่แข็งแกร่งขึ้นและเน้น faithfulness มากกว่าความรู้ทั่วไป

ชุดข้อมูล FACTS วางจำหน่ายฟรีที่ GitHub (https://github.com/shanghai-ai/FACTS) เพื่อให้ผู้พัฒนาโมเดลนำไปใช้ปรับปรุงต่อไป ผลการทดสอบนี้ย้ำเตือนว่าการเดินทางสู่ AGI ที่ truthful ยังอีกยาวไกล

(จำนวนคำประมาณ 728 คำ)

This Article is sponsored by Gnoppix AI (https://www.gnoppix.org)