การศึกษาชี้ให้เห็นว่าทำไมโมเดลการให้เหตุผลจึงมักคิดเกินกว่าคำตอบ

การศึกษาพบสาเหตุที่โมเดลเหตุผลศาสตร์มักคิดเกินกว่าคำตอบที่ถูกต้อง

การศึกษาล่าสุดจากนักวิจัยของสถาบันเทคโนโลยีแห่งสหพันธรัฐซูริค (ETH Zurich) เผยให้เห็นถึงปรากฏการณ์ที่น่าสนใจในโมเดลภาษาขนาดใหญ่ (Large Language Models: LLMs) ที่ถูกออกแบบมาเพื่อการเหตุผลศาสตร์ (reasoning) โดยเฉพาะ โมเดลเหล่านี้มักจะสร้างเหตุผลเชิงลึก (chain-of-thought) ยาวเหยียด แม้ว่าจะได้คำตอบที่ถูกต้องไปแล้วก็ตาม ปรากฏการณ์นี้ถูกเรียกว่า “overthinking” หรือการคิดเกินจำเป็น ซึ่งส่งผลกระทบต่อประสิทธิภาพการใช้งานและต้นทุนการคำนวณอย่างมีนัยสำคัญ

พื้นหลังของปัญหา

โมเดลเหตุผลศาสตร์ เช่น o1-preview ของ OpenAI, Claude 3.5 Sonnet ของ Anthropic และ DeepSeek-R1 ได้รับการฝึกฝนให้สร้างขั้นตอนการคิดทีละขั้นตอน (step-by-step reasoning) เพื่อแก้ปัญหาที่ซับซ้อน เช่น โจทย์คณิตศาสตร์ การเขียนโค้ด หรือปริศนาเชิงตรรกะ กระบวนการนี้ช่วยยกระดับประสิทธิภาพให้เหนือกว่าโมเดลทั่วไป แต่ผู้วิจัยพบว่า โมเดลเหล่านี้ไม่หยุดการสร้างข้อความ (token generation) หลังจากที่แก้ปัญหาเสร็จสิ้นแล้ว โดยจะดำเนินการคิดต่อไปอีกหลายสิบหรือหลายร้อยขั้นตอน ซึ่งเป็นการสูญเสียทรัพยากรโดยไม่จำเป็น

ในการทดลอง นักวิจัยนำโมเดลดังกล่าวมาทดสอบกับชุดข้อมูลมาตรฐานหลายชุด ได้แก่ GSM8K (โจทย์คณิตศาสตร์เกรดประถม), AIME (โจทย์คณิตศาสตร์โอลิมปิก), MATH (โจทย์คณิตศาสตร์ขั้นสูง), LiveCodeBench (การเขียนโค้ด) และ PuzzleBaron (ปริศนา Sudoku) ผลลัพธ์ชี้ให้เห็นว่า ในกรณีที่โมเดลตอบถูก โมเดลมักจะ “overthink” ถึงร้อยละ 70-90 ของกรณีทั้งหมด โดยเฉพาะใน o1-preview ที่มีแนวโน้มสูงสุด

ตัวอย่างเช่น ในชุดข้อมูล GSM8K โมเดล o1-preview ใช้ขั้นตอนกลาง (median) เพียง 10 ขั้นตอนในการแก้ปัญหา แต่สร้างโทเค็นเพิ่มเติมอีกกว่า 100 โทเค็นหลังจากนั้น ในขณะที่ Claude 3.5 Sonnet สร้างโทเค็นเพิ่มอีก 50 โทเค็น และ DeepSeek-R1 สูงถึง 200 โทเค็น สถิติเหล่านี้แสดงให้เห็นถึงรูปแบบที่ชัดเจน: โมเดลรู้คำตอบที่ถูกต้องตั้งแต่เนิ่นๆ แต่กระบวนการ autoregressive (การสร้างโทเค็นทีละตัวต่อเนื่องกัน) ทำให้ไม่สามารถหยุดได้ทันที

การวิเคราะห์ทางเทคนิค: สัญญาณหยุดที่ถูกละเลย

นักวิจัยได้วิเคราะห์ความน่าจะเป็นของโทเค็น (token probabilities) ในระหว่างกระบวนการสร้างข้อความ พบว่ามี “สัญญาณหยุดภายใน” (internal stop signal) ที่ชัดเจน โดยความน่าจะเป็นของโทเค็นที่บ่งชี้ถึงคำตอบที่ถูกต้องจะพุ่งสูงขึ้นอย่างกะทันหัน ตามด้วยการลดลงของ entropy (ความไม่แน่นอน) ซึ่งบ่งบอกว่าโมเดลมั่นใจในคำตอบแล้ว อย่างไรก็ตาม โมเดลไม่หยุดตามสัญญาณนี้ แต่กลับสร้างเหตุผลเพิ่มเติมต่อไป

เพื่อวัดระดับ overthinking นักวิจัยพัฒนา “overthinking score” ซึ่งคำนวณจากจำนวนโทเค็นที่สร้างหลังจากจุดที่โมเดลมั่นใจในคำตอบ (solution boundary) คะแนนนี้สูงในโมเดลเหตุผลศาสตร์เมื่อเทียบกับโมเดลทั่วไป เช่น GPT-4o หรือ Llama-3.1 นอกจากนี้ ยังพบว่า overthinking นี้สัมพันธ์กับความยาวของ chain-of-thought: ยิ่งคิดยาวเท่าไร โอกาสพลาด (hallucination หรือการตอบผิด) ก็ยิ่งสูงขึ้น โดยเฉพาะในโจทย์ที่ยาก

ผลกระทบต่อการใช้งานจริง

ปรากฏการณ์ overthinking สร้างปัญหาหลายประการในบริบททางธุรกิจและการใช้งานจริง ประการแรก คือต้นทุนการคำนวณที่สูงขึ้น เนื่องจากต้องประมวลผลโทเค็นเพิ่มเติมจำนวนมาก ซึ่งอาจทำให้ค่าใช้จ่ายในการรันโมเดลพุ่งสูง โดยเฉพาะในระบบที่เรียกใช้งาน API แบบ pay-per-token ประการที่สอง คือความเสี่ยงต่อข้อผิดพลาด เนื่องจาก chain-of-thought ที่ยาวเกินไปอาจนำไปสู่การเบี่ยงเบนจากคำตอบที่ถูกต้อง ประการที่สาม คือเวลาในการตอบสนองที่ช้าลง ซึ่งไม่เหมาะสมกับแอปพลิเคชันที่ต้องการความรวดเร็ว เช่น ระบบช่วยเหลือลูกค้าหรือการวิเคราะห์ข้อมูลเรียลไทม์

ในด้านการเขียนโค้ดจาก LiveCodeBench พบว่าโมเดล overthink สูงสุดถึง 300 โทเค็นหลังคำตอบถูกต้อง ซึ่งอาจทำให้โค้ดที่สร้างขึ้นมีส่วนเกินหรือผิดพลาด ในปริศนา Sudoku โมเดลยังคงอธิบายกลยุทธ์เพิ่มเติมแม้จะแก้เสร็จแล้ว

วิธีการตรวจจับและบรรเทาปัญหา

เพื่อแก้ไขปัญหานี้ นักวิจัยเสนอ “Solution Boundary Detection” ซึ่งเป็นเทคนิคตรวจจับจุดสิ้นสุดของคำตอบโดยอาศัยสัญญาณภายใน เช่น การพุ่งของความน่าจะเป็นโทเค็นและการลด entropy วิธีนี้สามารถตรวจจับจุด solution boundary ได้อย่างแม่นยำ โดยไม่ต้องรอให้โมเดลหยุดเอง ผลการทดสอบแสดงอัตราความแม่นยำสูงถึงร้อยละ 90 ในชุดข้อมูล GSM8K

นอกจากนี้ ยังแนะนำการฝึกฝนโมเดลใหม่ (fine-tuning) โดยใช้ข้อมูลที่ตัด chain-of-thought ให้สั้นลงหลังคำตอบถูกต้อง หรือใช้ early stopping mechanism ใน inference time ซึ่งช่วยลดโทเค็นที่ไม่จำเป็นได้ 30-50% โดยไม่กระทบความถูกต้อง

บทสรุปและแนวโน้มอนาคต

การศึกษานี้เน้นย้ำถึงข้อจำกัดพื้นฐานของโมเดล autoregressive ในงานเหตุผลศาสตร์ แม้จะประสบความสำเร็จอย่างมาก แต่ overthinking ยังคงเป็นอุปสรรคสำคัญต่อการใช้งานเชิงพาณิชย์ ผลงานของ Simon Wurster และคณะจาก ETH Zurich ได้รับการตีพิมพ์ใน arXiv (arXiv:2410.14925) และเปิดโค้ดทดลองให้ใช้งานฟรี ซึ่งจะช่วยให้นักพัฒนาสามารถนำไปปรับปรุงโมเดลของตนเอง

ในอนาคต คาดว่าโมเดลรุ่นถัดไปจะต้องปรับปรุงกลไกการหยุดให้ฉลาดขึ้น เพื่อให้เกิดสมดุลระหว่างความลึกของเหตุผลและประสิทธิภาพ โดยเฉพาะในยุคที่ AI ถูกนำมาใช้ในธุรกิจขนาดใหญ่ที่คำนวณทุกโทเค็นมีค่า

(จำนวนคำประมาณ 750 คำ)

This Article is sponsored by Gnoppix AI (https://www.gnoppix.org)