เมื่อโมเดลภาษาหลอน พวกมันทิ้งพลังงานที่หกรั่วไว้ในคณิตศาสตร์ของตัวเอง
ในยุคที่ปัญญาประดิษฐ์ (AI) โดยเฉพาะโมเดลภาษาขนาดใหญ่ (Large Language Models: LLMs) กลายเป็นเครื่องมือหลักในการสร้างเนื้อหาและตอบคำถาม ผู้ใช้จำนวนมากเผชิญปัญหา “ภาพหลอน” หรือ hallucinations ซึ่งหมายถึงการที่โมเดลผลิตข้อมูลเท็จหรือข้อเท็จจริงที่ไม่ถูกต้อง แม้จะดูมั่นใจมากนักวิจัยจากสถาบันเทคโนโลยีแมสซาชูเซตส์ (MIT) และมหาวิทยาลัยอื่น ๆ ได้ค้นพบหลักฐานที่น่าสนใจ โดยเผยว่าภาพหลอนเหล่านี้ทิ้งร่องรอย “พลังงานที่หกรั่ว” (spilled energy) ไว้ในกระบวนการคำนวณทางคณิตศาสตร์ภายในโมเดลเอง ซึ่งสามารถนำไปใช้ตรวจจับได้แบบเรียลไทม์โดยไม่ต้องพึ่งพาความรู้ภายนอก
ภาพหลอนเกิดขึ้นบ่อยครั้งใน LLMs เช่น ChatGPT หรือ Llama โดยโมเดลอาจสร้างชื่อบุคคล สถานที่ หรือเหตุการณ์ที่ไม่มีจริงขึ้นมา ปัญหานี้รุนแรงขึ้นเมื่อโมเดลขนาดใหญ่กว่าเพราะมีพารามิเตอร์มากขึ้น แต่การตรวจจับแบบดั้งเดิมมักต้องใช้เครื่องมือภายนอก เช่น การค้นหาข้อมูลจริงเพื่อเปรียบเทียบ ซึ่งช้าและไม่เหมาะกับการใช้งานจริงเวลาจริง งานวิจัยล่าสุดตีพิมพ์ใน arXiv ชื่อ “Hallucinations Lead to Spilled Energy: Towards Robust Language Models” โดยนักวิจัยนำโดย William Held จาก MIT CSAIL เสนอวิธีใหม่ที่ตรวจสอบภายในโมเดลโดยตรง
หัวใจของการค้นพบนี้อยู่ที่ “พลังงานที่หกรั่ว” ซึ่งวัดจากความไม่แน่นอนในกระจายความน่าจะเป็น (probability distribution) ของโทเค็นถัดไปในขั้นตอน attention ของ Transformer โมเดลภาษาทำงานโดยพยากรณ์โทเค็นถัดไปผ่านฟังก์ชัน softmax บน logits (คะแนนดิบก่อน normalization) เมื่อโมเดลมั่นใจในคำตอบที่ถูกต้อง กระจายความน่าจะเป็นจะแหลมคม (sharp) คือมวลความน่าจะเป็นส่วนใหญ่กระจุกตัวที่โทเค็นที่ถูกต้อง ทำให้พลังงานต่ำ แต่เมื่อหลอน กระจายจะกว้างขึ้น มวลกระจายไปยังโทเค็นอื่น ๆ ส่งผลให้พลังงานสูงขึ้น
นักวิจัยกำหนดพลังงานที่หกรั่วอย่างเป็นทางการว่า E = logsumexp(logits) - max(logits) โดย logsumexp คือลอการิทึมของผลรวมเอ็กซ์โปเนนเชียลของ logits ซึ่งวัด entropy ส่วนเกินที่ไม่จำเป็น หาก E ต่ำ แสดงว่าความน่าจะเป็นกระจุกตัว หากสูง แสดงถึงความไม่แน่นอนที่ซ่อนอยู่แม้ output จะดูมั่นใจ พวกเขาทดสอบกับโมเดล Llama-2-7B-chat และ Llama-3-8B บนชุดข้อมูล TriviaQA, BioNLP และ TruthfulQA
ผลการทดลองชี้ชัดว่า ในประโยคที่โมเดลหลอน ค่า E สูงกว่าประโยคที่ถูกต้องอย่างมีนัยสำคัญ ตัวอย่างเช่น ใน TriviaQA ค่า E เฉลี่ยของ hallucinations สูงถึง 2.5 เท่า นอกจากนี้ พวกเขาพัฒนาวิธี “energy-based uncertainty” (EBU) ที่คำนวณ E จากชั้น attention สุดท้าย แล้วนำไปเทียบกับเกณฑ์ที่กำหนด หาก E สูงเกินเกณฑ์ จะจัดเป็น hallucinations ผลลัพธ์แสดงประสิทธิภาพสูง โดย AUC (Area Under Curve) ในการตรวจจับสูงถึง 0.92 ใน Llama-3 ซึ่งเหนือกว่าวิธี semantic entropy (AUC 0.85)
ข้อดีของวิธีนี้คือ ไม่ต้องใช้ข้อมูลอ้างอิงภายนอก สามารถคำนวณได้เร็วภายในโมเดล ลดค่าใช้จ่ายและเวลา นักวิจัยยังทดสอบ robustness โดย fine-tune โมเดลด้วยข้อมูลหลอน พบว่าค่า E ยังสูงอยู่ แสดงว่าวิธีนี้ตรวจจับได้แม้โมเดลถูกฝึกให้หลอนมากขึ้น นอกจากนี้ ในงานสร้างสรรค์ เช่น summarization ของ CNN/DailyMail พบว่าหัวข้อที่มี E สูงมักมีข้อผิดพลาดจริง
อย่างไรก็ตาม งานวิจัยนี้มีข้อจำกัด เช่น ยังไม่ทดสอบกับโมเดลขนาดใหญ่มากอย่าง GPT-4 และ EBU อาจไม่แยกแยะระหว่างความไม่แน่นอนที่แท้จริงกับความรู้ขาดหาย นักวิจัยแนะนำให้รวมกับวิธีอื่น เช่น self-consistency เพื่อเพิ่มความแม่นยำ
การค้นพบนี้มีนัยสำคัญต่ออุตสาหกรรม AI โดยเปิดทางให้พัฒนา LLMs ที่ robust มากขึ้น เช่น การ reject output ที่ E สูง หรือใช้ E เป็นสัญญาณเตือนให้ผู้ใช้ตรวจสอบ สอดคล้องกับแนวโน้ม “mechanistic interpretability” ที่ถอดรหัสกลไกภายในโมเดลแทนการมองเป็น black box บริษัทอย่าง OpenAI และ Anthropic กำลังสำรวจแนวทางคล้ายกันเพื่อลด hallucinations ซึ่งเป็นอุปสรรคหลักในการนำ AI ไปใช้จริง
ในอนาคต วิธี spilled energy อาจกลายเป็นมาตรฐานในการประเมินและปรับปรุงโมเดลภาษา ช่วยให้ AI สร้างเนื้อหาที่เชื่อถือได้มากขึ้น สนับสนุนการใช้งานในธุรกิจ การแพทย์ และการศึกษา โดยไม่ต้องกังวลเรื่องข้อมูลเท็จ
(จำนวนคำประมาณ 728 คำ)
This Article is sponsored by Gnoppix AI (https://www.gnoppix.org)