แม้แต่โมเดลภาษาขนาดใหญ่ชั้นนำจาก GPT-5 เป็นต้นไป ก็สูญเสียความแม่นยำสูงสุดถึง 33% เมื่อสนทนาโต้ตอบยาวนานเกินไป
นักวิจัยจากมหาวิทยาลัยชั้นนำ เช่น UC Berkeley, Stanford, ETH Zurich และ University of Toronto ได้ทำการศึกษาพบว่า โมเดลภาษาขนาดใหญ่ (Large Language Models: LLMs) ชั้นนำระดับแนวหน้า แม้กระทั่งรุ่นที่คาดว่าจะมาจาก GPT-5 เป็นต้นไป ก็ยังประสบปัญหาการสูญเสียความแม่นยำอย่างรุนแรงเมื่อการสนทนาโต้ตอบยาวนานเกินไป โดยความแม่นยำอาจลดลงสูงสุดถึง 33% จากการทดสอบในสถานการณ์จริง
การศึกษานี้ตีพิมพ์ในชื่อ “Long Context LLMs Lose Control of their Context” โดยทีมนักวิจัยนำโดย Nelson F. Liu จาก UC Berkeley ร่วมกับนักวิจัยจากสถาบันอื่นๆ การทดสอบมุ่งเน้นไปที่ปัญหา “context collapse” หรือการเสื่อมถอยของประสิทธิภาพบริบท ซึ่งเป็นปัญหาที่พบได้แม้ในโมเดลที่มีหน้าต่างบริบท (context window) ขนาดใหญ่ถึง 1 ล้านโทเค็น
โมเดลที่ทดสอบและวิธีการทดสอบ
ทีมวิจัยได้ทดสอบโมเดลชั้นนำ 9 รุ่นจากผู้พัฒนาหลัก ได้แก่:
- OpenAI: GPT-4o, o1-preview, o1-mini
- Anthropic: Claude 3.5 Sonnet
- Google: Gemini 1.5 Pro, Gemini 1.5 Flash
- Meta: Llama 3.1 405B
- Mistral: Mistral Large 2
วิธีการทดสอบใช้แนวทาง “needle-in-the-haystack” (เข็มในกองฟาง) ในรูปแบบการสนทนาหลายรอบ (multi-turn conversation) โดยแทนที่ที่จะใส่ข้อมูลสำคัญเพียงครั้งเดียวในบริบทยาว ผู้วิจัยจะแทรก “เข็ม” หรือข้อมูลสำคัญเข้าไปในตำแหน่งสุ่มภายในข้อความสนทนาที่ยาวนานขึ้นเรื่อยๆ ขณะที่โมเดลต้องตอบคำถามเกี่ยวกับข้อมูลนั้นในแต่ละรอบ
การทดสอบแบ่งเป็น 4 สถานการณ์หลัก:
- สถานการณ์มาตรฐาน: แทรกเข็มในตำแหน่งสุ่มของการสนทนา
- สถานการณ์แบบขยาย: ขยายการสนทนาด้วยข้อมูลรบกวนเพิ่มเติม
- สถานการณ์แบบวนซ้ำ: ใส่ข้อมูลรบกวนซ้ำๆ เพื่อทดสอบการจดจำ
- สถานการณ์แบบหลอกลวง: ใส่ข้อมูลปลอมเพื่อทดสอบความสับสน
ผลลัพธ์วัดจากอัตราความแม่นยำ (accuracy) โดยคำนวณจากความสำเร็จในการดึงข้อมูลเข็มที่ถูกต้องในแต่ละรอบ
ผลการทดสอบ: การเสื่อมถอยอย่างรวดเร็ว
ผลการทดสอบเผยให้เห็นภาพที่น่าตกใจ แม้โมเดลเหล่านี้จะมีหน้าต่างบริบทขนาดใหญ่ แต่ประสิทธิภาพกลับลดลงอย่างรวดเร็วเมื่อจำนวนรอบสนทนาเพิ่มขึ้น
- GPT-4o: จากความแม่นยำ 100% ในรอบแรก ลดลงเหลือ 0% หลังจาก 10-15 รอบ โดยสูญเสียเฉลี่ย 33% ในสถานการณ์ขยาย
- Claude 3.5 Sonnet: ประสิทธิภาพดีในช่วงแรก แต่เสื่อมถอยหลัง 20 รอบ สูญเสียสูงสุด 25%
- Gemini 1.5 Pro: แม้มีบริบท 1 ล้านโทเค็น แต่ความแม่นยำตกลงเหลือต่ำกว่า 10% หลัง 30 รอบ
- Llama 3.1 405B: เสื่อมถอยช้ากว่าเล็กน้อย แต่ยังสูญเสีย 20-30% ในสถานการณ์วนซ้ำ
กราฟผลการทดสอบแสดงเส้นโค้งการเสื่อมถอยที่ชัน โดยโมเดลส่วนใหญ่สูญเสีย “control” ของบริบทหลังจาก 10-20 รอบสนทนา แม้จำนวนโทเค็นทั้งหมดจะยังไม่ถึงขีดจำกัดของหน้าต่างบริบท นักวิจัยพบว่า ปัญหานี้เกิดขึ้นไม่ใช่เพราะขีดจำกัดโทเค็น แต่เป็นเพราะ “attention dilution” หรือการกระจายความสนใจของโมเดลที่เจือจางลงเมื่อบริบทยาวขึ้น รวมถึงปัญหาการปรับแต่ง (fine-tuning) ที่ไม่เหมาะสมกับการสนทนายาว
ในสถานการณ์หลอกลวง โมเดลมักตอบข้อมูลปลอมแทนข้อมูลจริง โดยเฉพาะ o1-preview ที่พลาดบ่อยที่สุด
สาเหตุของปัญหาและข้อจำกัด
Nelson F. Liu อธิบายว่า “โมเดลเหล่านี้ไม่ได้ถูกออกแบบมาสำหรับการสนทนาที่ยาวนานจริงๆ แม้ผู้พัฒนาจะอ้างสิทธิ์บริบทยาว แต่ในทางปฏิบัติ การโต้ตอบหลายรอบทำให้โมเดลสูญเสียการควบคุมบริบท” ปัญหาหลักมาจากกลไก attention mechanism ที่ไม่สามารถรักษาความสำคัญของข้อมูลเก่าได้ดี เมื่อข้อมูลรบกวนสะสม โมเดลจึงมุ่งเน้นไปที่ส่วนท้ายของบริบทมากกว่า
นอกจากนี้ การทดสอบใน single-turn (รอบเดียว) มักให้ผลดี แต่ multi-turn ทำให้เห็นปัญหาจริง นักวิจัยแนะนำให้ผู้พัฒนาปรับปรุงการฝึกฝนให้รองรับการสนทนาต่อเนื่อง และผู้ใช้ควรหลีกเลี่ยงการสนทนายาวโดยไม่สรุปบริบทใหม่
ข้อเสนอแนะและผลกระทบต่ออุตสาหกรรม
การศึกษานี้ชี้ให้เห็นว่าอ้างสิทธิ์ “long-context” อาจเป็นการโฆษณาชวนเชื่อ โดยเฉพาะเมื่อนำไปใช้ในแอปพลิเคชันจริง เช่น ผู้ช่วย AI ในธุรกิจหรือการสนทนาลูกค้า ซึ่งต้องการความแม่นยำต่อเนื่อง ผู้พัฒนา LLM ควรทดสอบในสถานการณ์ multi-turn มากขึ้น เพื่อให้โมเดลทนทานต่อการเสื่อมถอย
ผลกระทบต่อ GPT-5 และรุ่นถัดไปที่คาดว่าจะมีบริบทยาวกว่านี้อาจไม่ต่างกัน หากไม่แก้ไขปัญหาการควบคุมบริบท นักวิจัยคาดหวังว่าการศึกษานี้จะกระตุ้นให้เกิด benchmark ใหม่ที่สมจริงยิ่งขึ้น
(จำนวนคำ: ประมาณ 720 คำ)
This Article is sponsored by Gnoppix AI (https://www.gnoppix.org)