โมเดลการให้เหตุผลของ ai คิดหนักกับปัญหาง่ายกว่าปัญหายาก และนักวิจัยมีทฤษฎีอธิบายว่าทำไม

โมเดลเหตุผลปัญญาประดิษฐ์ คิดหนักกับโจทย์ง่ายมากกว่าโจทย์ยาก นักวิจัยมีทฤษฎีอธิบาย

นักวิจัยจากสถาบันเทคโนโลยีแห่งสหพันธรัฐซูริค (ETH Zurich) และมหาวิทยาลัยสแตนฟอร์ด ได้ค้นพบปรากฏการณ์ที่น่าประหลาดใจในโมเดลเหตุผลขนาดใหญ่ (Large Reasoning Models: LRMs) เช่น o1 และ o1-mini ของ OpenAI, DeepSeek-R1 และ Claude 3.5 Sonnet ของ Anthropic โมเดลเหล่านี้ใช้เวลา “คิด” หรือจำนวนโทเค็นในการประมวลผลมากขึ้นกับโจทย์ง่ายๆ มากกว่าโจทย์ยากๆ ซึ่งขัดแย้งกับพฤติกรรมของมนุษย์ที่มักใช้ความพยายามน้อยลงกับโจทย์เบื้องต้น

ปรากฏการณ์นี้ถูกเรียกว่า “Inverse Scaling of Thinking Effort” หรือ ISTE โดยโมเดล LRMs จะสร้างโทเค็น “คิด” (thinking tokens) ซึ่งเป็นโทเค็นที่เกิดขึ้นก่อนคำตอบสุดท้ายจำนวนมากในโจทย์ง่าย แต่จำนวนน้อยลงในโจทย์ยาก การศึกษานี้ตีพิมพ์ใน arXiv และนำเสนอข้อมูลเชิงประจักษ์จากชุดข้อมูลมาตรฐานหลายชุด

การทดลองและผลลัพธ์

นักวิจัยวัด “ความพยายามในการคิด” โดยนับจำนวนโทเค็นที่โมเดลสร้างขึ้นระหว่างกระบวนการเหตุผล ก่อนให้คำตอบสุดท้าย ในชุดข้อมูล MATH ซึ่งเป็นโจทย์คณิตศาสตร์ระดับการแข่งขัน โมเดล o1 ใช้โทเค็นเฉลี่ย 1,200 โทเค็นกับโจทย์ง่าย (ระดับ 1-2) แต่ลดลงเหลือประมาณ 800 โทเค็นกับโจทย์ยาก (ระดับ 7-8) ในขณะที่อัตราความถูกต้องเพิ่มขึ้นตามความยากของโจทย์

ผลลัพธ์คล้ายกันในชุดข้อมูลอื่นๆ เช่น GSM8K (โจทย์คณิตศาสตร์เกรดประถม) และ AIME (โจทย์คณิตศาสตร์ระดับสูง) โมเดล o1-mini ใช้โทเค็นสูงสุดกับโจทย์ง่ายสุดใน GSM8K ขณะที่ DeepSeek-R1 แสดง ISTE ชัดเจนใน AIME โดยโทเค็นลดลงอย่างมีนัยสำคัญเมื่อโจทย์ยากขึ้น Claude 3.5 Sonnet ก็มีแนวโน้มคล้ายกัน แม้จะไม่ชัดเจนเท่าโมเดลอื่น

กราฟจากงานวิจัยแสดงเส้นโค้งที่ชัน โดยจำนวนโทเค็นลดลงอย่างรวดเร็วเมื่อระดับความยากเพิ่มขึ้น ในทางตรงกันข้าม อัตราความถูกต้องเพิ่มขึ้นแบบ stepwise สะท้อนถึงการฝึกโมเดลที่มุ่งเน้นโจทย์ยาก

ทฤษฎีอธิบาย ISTE

นักวิจัยเสนอทฤษฎีหลักว่า ISTE เกิดจากการฝึกโมเดลด้วย “ร่องรอยเหตุผลของมนุษย์” (human reasoning traces) มนุษย์มักอธิบายโจทย์ง่ายอย่างละเอียดยาวเหยียด เช่น การบวกเลขง่ายๆ อาจเขียนขั้นตอนหลายบรรทัดเพื่อให้ชัดเจน แต่กับโจทย์ยาก มนุษย์อาจให้คำตอบสั้นๆ หรือล้มเหลวในการแก้ โดยเฉพาะในชุดข้อมูลที่รวบรวมจากผู้แก้โจทย์ที่ประสบความสำเร็จ

โมเดล LRMs ถูกฝึกให้เลียนแบบร่องรอยเหล่านี้ ดังนั้น จึงสร้างเหตุผลยาวๆ สำหรับโจทย์ง่ายเพื่อให้ตรงกับข้อมูลฝึก แต่สำหรับโจทย์ยาก ร่องรอยมนุษย์ที่ประสบความสำเร็จมักสั้นและมีประสิทธิภาพมากกว่า นอกจากนี้ การฝึกแบบ reinforcement learning from human feedback (RLHF) อาจเสริมให้โมเดลหลีกเลี่ยงเหตุผลยาวๆ ในกรณีที่เสี่ยงผิดพลาด

เพื่อทดสอบทฤษฎี นักวิจัยฝึกโมเดลขนาดเล็ก (Qwen2.5-3B-Instruct) ด้วยร่องรอยเหตุผลที่ปรับแต่ง พบว่าโมเดลที่ฝึกด้วยร่องรอยยาวสำหรับโจทย์ง่ายแสดง ISTE ชัดเจน ในขณะที่ร่องรอยสั้นทำให้จำนวนโทเค็นคงที่หรือเพิ่มขึ้นตามความยาก

ข้อจำกัดและนัยยะทางธุรกิจ

การศึกษานี้มีข้อจำกัด เช่น การวัดเฉพาะโทเค็นคิด ไม่รวมค่าใช้จ่ายในการอนุมานทั้งหมด และผลลัพธ์อาจแตกต่างตามเวอร์ชันโมเดล อย่างไรก็ตาม นัยยะสำคัญคือ LRMs สิ้นเปลืองทรัพยากรคอมพิวติ้งกับโจทย์ง่าย ซึ่งอาจเป็นปัญหาในแอปพลิเคชันธุรกิจที่ต้องการประสิทธิภาพสูง เช่น การวิเคราะห์ข้อมูลหรือการตัดสินใจอัตโนมัติ

ในบริบทธุรกิจ การใช้ LRMs กับโจทย์ผสม (ง่ายและยาก) อาจนำไปสู่ต้นทุนสูงโดยไม่จำเป็น นักวิจัยแนะนำให้ปรับปรุงการฝึก โดยสร้างร่องรอยเหตุผลสั้นๆ สำหรับโจทย์ง่าย เพื่อให้โมเดลมีประสิทธิภาพดีขึ้น ลดค่าใช้จ่าย และเพิ่ม scalability ในระบบ AI ขนาดใหญ่

ปรากฏการณ์ ISTE นี้เผยให้เห็นจุดอ่อนในการฝึกโมเดลเหตุผล และเปิดโอกาสให้บริษัทพัฒนาเทคโนโลยี AI ที่มีประสิทธิภาพยั่งยืนมากขึ้น โดยเฉพาะในยุคที่ค่าใช้จ่ายคอมพิวติ้งกลายเป็นปัจจัยกำหนดความสำเร็จทางธุรกิจ

(จำนวนคำประมาณ 720 คำ)

This Article is sponsored by Gnoppix AI (https://www.gnoppix.org)