แม้แต่ LLMs ชั้นนำจาก GPT-5 เป็นต้นไปจะสูญเสียความแม่นยำสูงสุด 33% เมื่อแชทนานเกินไป หากไม่แปลเป็นภาษาไทย

แม้แต่โมเดลภาษาขนาดใหญ่ชั้นนำจาก GPT-5 เป็นต้นไป ก็สูญเสียความแม่นยำสูงสุดถึง 33% เมื่อสนทนาโต้ตอบยาวนานเกินไป

นักวิจัยจากมหาวิทยาลัยชั้นนำ เช่น UC Berkeley, Stanford, ETH Zurich และ University of Toronto ได้ทำการศึกษาพบว่า โมเดลภาษาขนาดใหญ่ (Large Language Models: LLMs) ชั้นนำระดับแนวหน้า แม้กระทั่งรุ่นที่คาดว่าจะมาจาก GPT-5 เป็นต้นไป ก็ยังประสบปัญหาการสูญเสียความแม่นยำอย่างรุนแรงเมื่อการสนทนาโต้ตอบยาวนานเกินไป โดยความแม่นยำอาจลดลงสูงสุดถึง 33% จากการทดสอบในสถานการณ์จริง

การศึกษานี้ตีพิมพ์ในชื่อ “Long Context LLMs Lose Control of their Context” โดยทีมนักวิจัยนำโดย Nelson F. Liu จาก UC Berkeley ร่วมกับนักวิจัยจากสถาบันอื่นๆ การทดสอบมุ่งเน้นไปที่ปัญหา “context collapse” หรือการเสื่อมถอยของประสิทธิภาพบริบท ซึ่งเป็นปัญหาที่พบได้แม้ในโมเดลที่มีหน้าต่างบริบท (context window) ขนาดใหญ่ถึง 1 ล้านโทเค็น

โมเดลที่ทดสอบและวิธีการทดสอบ

ทีมวิจัยได้ทดสอบโมเดลชั้นนำ 9 รุ่นจากผู้พัฒนาหลัก ได้แก่:

  • OpenAI: GPT-4o, o1-preview, o1-mini
  • Anthropic: Claude 3.5 Sonnet
  • Google: Gemini 1.5 Pro, Gemini 1.5 Flash
  • Meta: Llama 3.1 405B
  • Mistral: Mistral Large 2

วิธีการทดสอบใช้แนวทาง “needle-in-the-haystack” (เข็มในกองฟาง) ในรูปแบบการสนทนาหลายรอบ (multi-turn conversation) โดยแทนที่ที่จะใส่ข้อมูลสำคัญเพียงครั้งเดียวในบริบทยาว ผู้วิจัยจะแทรก “เข็ม” หรือข้อมูลสำคัญเข้าไปในตำแหน่งสุ่มภายในข้อความสนทนาที่ยาวนานขึ้นเรื่อยๆ ขณะที่โมเดลต้องตอบคำถามเกี่ยวกับข้อมูลนั้นในแต่ละรอบ

การทดสอบแบ่งเป็น 4 สถานการณ์หลัก:

  1. สถานการณ์มาตรฐาน: แทรกเข็มในตำแหน่งสุ่มของการสนทนา
  2. สถานการณ์แบบขยาย: ขยายการสนทนาด้วยข้อมูลรบกวนเพิ่มเติม
  3. สถานการณ์แบบวนซ้ำ: ใส่ข้อมูลรบกวนซ้ำๆ เพื่อทดสอบการจดจำ
  4. สถานการณ์แบบหลอกลวง: ใส่ข้อมูลปลอมเพื่อทดสอบความสับสน

ผลลัพธ์วัดจากอัตราความแม่นยำ (accuracy) โดยคำนวณจากความสำเร็จในการดึงข้อมูลเข็มที่ถูกต้องในแต่ละรอบ

ผลการทดสอบ: การเสื่อมถอยอย่างรวดเร็ว

ผลการทดสอบเผยให้เห็นภาพที่น่าตกใจ แม้โมเดลเหล่านี้จะมีหน้าต่างบริบทขนาดใหญ่ แต่ประสิทธิภาพกลับลดลงอย่างรวดเร็วเมื่อจำนวนรอบสนทนาเพิ่มขึ้น

  • GPT-4o: จากความแม่นยำ 100% ในรอบแรก ลดลงเหลือ 0% หลังจาก 10-15 รอบ โดยสูญเสียเฉลี่ย 33% ในสถานการณ์ขยาย
  • Claude 3.5 Sonnet: ประสิทธิภาพดีในช่วงแรก แต่เสื่อมถอยหลัง 20 รอบ สูญเสียสูงสุด 25%
  • Gemini 1.5 Pro: แม้มีบริบท 1 ล้านโทเค็น แต่ความแม่นยำตกลงเหลือต่ำกว่า 10% หลัง 30 รอบ
  • Llama 3.1 405B: เสื่อมถอยช้ากว่าเล็กน้อย แต่ยังสูญเสีย 20-30% ในสถานการณ์วนซ้ำ

กราฟผลการทดสอบแสดงเส้นโค้งการเสื่อมถอยที่ชัน โดยโมเดลส่วนใหญ่สูญเสีย “control” ของบริบทหลังจาก 10-20 รอบสนทนา แม้จำนวนโทเค็นทั้งหมดจะยังไม่ถึงขีดจำกัดของหน้าต่างบริบท นักวิจัยพบว่า ปัญหานี้เกิดขึ้นไม่ใช่เพราะขีดจำกัดโทเค็น แต่เป็นเพราะ “attention dilution” หรือการกระจายความสนใจของโมเดลที่เจือจางลงเมื่อบริบทยาวขึ้น รวมถึงปัญหาการปรับแต่ง (fine-tuning) ที่ไม่เหมาะสมกับการสนทนายาว

ในสถานการณ์หลอกลวง โมเดลมักตอบข้อมูลปลอมแทนข้อมูลจริง โดยเฉพาะ o1-preview ที่พลาดบ่อยที่สุด

สาเหตุของปัญหาและข้อจำกัด

Nelson F. Liu อธิบายว่า “โมเดลเหล่านี้ไม่ได้ถูกออกแบบมาสำหรับการสนทนาที่ยาวนานจริงๆ แม้ผู้พัฒนาจะอ้างสิทธิ์บริบทยาว แต่ในทางปฏิบัติ การโต้ตอบหลายรอบทำให้โมเดลสูญเสียการควบคุมบริบท” ปัญหาหลักมาจากกลไก attention mechanism ที่ไม่สามารถรักษาความสำคัญของข้อมูลเก่าได้ดี เมื่อข้อมูลรบกวนสะสม โมเดลจึงมุ่งเน้นไปที่ส่วนท้ายของบริบทมากกว่า

นอกจากนี้ การทดสอบใน single-turn (รอบเดียว) มักให้ผลดี แต่ multi-turn ทำให้เห็นปัญหาจริง นักวิจัยแนะนำให้ผู้พัฒนาปรับปรุงการฝึกฝนให้รองรับการสนทนาต่อเนื่อง และผู้ใช้ควรหลีกเลี่ยงการสนทนายาวโดยไม่สรุปบริบทใหม่

ข้อเสนอแนะและผลกระทบต่ออุตสาหกรรม

การศึกษานี้ชี้ให้เห็นว่าอ้างสิทธิ์ “long-context” อาจเป็นการโฆษณาชวนเชื่อ โดยเฉพาะเมื่อนำไปใช้ในแอปพลิเคชันจริง เช่น ผู้ช่วย AI ในธุรกิจหรือการสนทนาลูกค้า ซึ่งต้องการความแม่นยำต่อเนื่อง ผู้พัฒนา LLM ควรทดสอบในสถานการณ์ multi-turn มากขึ้น เพื่อให้โมเดลทนทานต่อการเสื่อมถอย

ผลกระทบต่อ GPT-5 และรุ่นถัดไปที่คาดว่าจะมีบริบทยาวกว่านี้อาจไม่ต่างกัน หากไม่แก้ไขปัญหาการควบคุมบริบท นักวิจัยคาดหวังว่าการศึกษานี้จะกระตุ้นให้เกิด benchmark ใหม่ที่สมจริงยิ่งขึ้น

(จำนวนคำ: ประมาณ 720 คำ)

This Article is sponsored by Gnoppix AI (https://www.gnoppix.org)