กราฟที่เข้าใจผิดมากที่สุดในวงการปัญญาประดิษฐ์
ในวงการปัญญาประดิษฐ์ (AI) มีกราฟชิ้นหนึ่งที่ถูกนำเสนอซ้ำแล้วซ้ำเล่าในงานวิจัย บทความ และการนำเสนอต่างๆ แต่กลับถูกตีความผิดพลาดอย่างกว้างขวาง กราฟดังกล่าวมาจากงานวิจัยของ DeepMind ในปี 2022 ชื่อเต็มว่า “Training Compute-Optimal Large Language Models” หรือที่รู้จักกันในชื่อ “Chinchinlla scaling laws” กราฟนี้แสดงเส้นทางแนวหน้าที่เหมาะสมที่สุดในการจัดสรรทรัพยากรคอมพิวต์สำหรับการฝึกโมเดลภาษาขนาดใหญ่ โดยพล็อตขนาดโมเดล (จำนวนพารามิเตอร์ N) เทียบกับขนาดชุดข้อมูล (จำนวนโทเค็น D)
กราฟนี้เผยให้เห็นว่าสำหรับงบประมาณคอมพิวต์คงที่ (C) เส้นทางแนวหน้าที่เหมาะสมทางคอมพิวต์จะมี N สัดส่วนกับรากที่สองของ C และ D สัดส่วนกับรากที่สองของ C เช่นกัน นั่นหมายความว่า เพื่อให้ได้ประสิทธิภาพสูงสุด ควรเพิ่มขนาดโมเดลและขนาดชุดข้อมูลในอัตราที่เท่าเทียมกันเมื่อเพิ่มคอมพิวต์เข้าไป งานวิจัย Chinchilla ยังระบุว่าจำนวนรอบการฝึก (epochs) ที่เหมาะสมอยู่ที่ประมาณ 20 รอบ โดยใช้โมเดลขนาด 70 พันล้านพารามิเตอร์ ฝึกด้วยชุดข้อมูล 1.4 ล้านล้านโทเค็น ซึ่งให้ผลลัพธ์ดีกว่าโมเดลขนาดใหญ่กว่าอย่าง Gopher หรือ PaLM ที่ใช้ข้อมูลน้อยกว่ามาก
อย่างไรก็ตาม การตีความที่ผิดพลาดมักเกิดขึ้นตรงที่ผู้คนมองว่ากราฟนี้กำหนด “กฎตายตัว” ว่าต้องใช้ 20 โทเค็นต่อพารามิเตอร์เสมอไป แต่แท้จริงแล้ว มันแสดงถึงเส้นทางแนวหน้าที่เหมาะสมสำหรับงบประมาณคอมพิวต์แต่ละระดับเท่านั้น หากงบคอมพิวต์มากขึ้น สามารถใช้โมเดลใหญ่ขึ้นและข้อมูลมากขึ้นได้ในอัตราส่วนรากที่สอง ไม่ใช่เพิ่มแบบเชิงเส้น ผู้ที่เข้าใจผิดมักคิดว่าการスケลโมเดลใหญ่ต้องスケลข้อมูลตามสัดส่วนเดียวกัน ซึ่งไม่ถูกต้อง
ประวัติศาสตร์ของ scaling laws เริ่มจากงานของ Kaplan et al. ในปี 2020 จาก OpenAI ที่เสนอว่าการスケลข้อมูลมีขีดจำกัด โดย loss ลดลงช้าลงเมื่อข้อมูลมากเกินไป ส่งผลให้บริษัทต่างๆ อย่าง Google ฝึก PaLM (540 พันล้านพารามิเตอร์) ด้วยข้อมูลเพียง 780 พันล้านโทเค็น หรือ 1.4 โทเค็นต่อพารามิเตอร์ และ Gopher ของ DeepMind ก็คล้ายกัน ใช้ epochs น้อยมาก แต่ Chinchilla พิสูจน์ว่าการฝึกแบบ undertrain (ข้อมูลน้อยเกิน) ทำให้สูญเสียประสิทธิภาพ โดยโมเดล Chinchilla เล็กกว่าแต่ประสิทธิภาพดีกว่าเพราะใช้ข้อมูลมากกว่า
หลังจาก Chinchilla กราฟนี้กลายเป็นมาตรฐาน โดยโมเดลสมัยใหม่อย่าง Llama ของ Meta ใช้ 20 โทเค็นต่อพารามิเตอร์ตรงๆ และ Gemini ของ Google ก็ปรับตามแนวทางนี้ อย่างไรก็ตาม ในปัจจุบันมีข้อถกเถียงว่ากราฟ Chinchilla ยังใช้ได้หรือไม่ เนื่องจากสถาปัตยกรรมโมเดลพัฒนาขึ้น เช่น Mixture of Experts (MoE) ที่ใช้พารามิเตอร์ active น้อยลง หรือการใช้ test-time compute เพิ่มเติมหลังฝึกเสร็จ
บทความนี้ชี้แจงว่ากราฟ Chinchilla ยังคงถูกต้องสำหรับการฝึก pretraining ภายใต้งบคอมพิวต์คงที่ โดยไม่รวม test-time compute หากรวม test-time เข้าไป Scaling laws จะเปลี่ยนไป เช่น งานของ Snell et al. (2024) แสดงว่าสำหรับโมเดลขนาดคงที่ การเพิ่ม test compute ช่วยลด loss ได้มาก แต่กราฟ Chinchilla มุ่งเน้นที่ pretraining compute เท่านั้น นอกจากนี้ งานวิจัยล่าสุดยืนยันว่าสำหรับโมเดล dense ทั่วไป สูตร N ~ C^{0.34} ถึง C^{0.5} และ D ~ C^{0.5} ถึง C^{0.7} ยังคงใกล้เคียง โดยตัวเลข 20 โทเค็นต่อพารามิเตอร์เป็นเพียงจุดหนึ่งบนเส้นโค้ง ไม่ใช่กฎตายตัว
ผู้วิจารณ์บางคน เช่น Dan Hendrycks ชี้ว่ากราฟนี้อาจล้าสมัยเพราะโมเดล MoE อย่าง Mixtral ใช้ active parameters น้อย ทำให้ดูเหมือนใช้ข้อมูลน้อย แต่หากนับ total parameters แล้ว มันยังยึดตาม Chinchilla เช่นกัน นอกจากนี้ งานของ Hoffmann et al. (ผู้เขียน Chinchilla) ในปี 2024 ชื่อ “Beyond Chinchilla-optimal” ยืนยันว่าสำหรับโมเดลขนาดใหญ่เกิน 100 พันล้านพารามิเตอร์ ยังคงต้องการข้อมูลมากขึ้นต่อพารามิเตอร์
สรุปแล้ว กราฟ Chinchilla ไม่ใช่คำสั่งบังคับ แต่เป็นแนวทางในการจัดสรรคอมพิวต์ให้เหมาะสม เพื่อหลีกเลี่ยงการสูญเสียทรัพยากรจากการฝึกโมเดลใหญ่เกินจำเป็นหรือข้อมูลน้อยเกินไป ในยุคที่ค่าใช้จ่ายในการฝึก AI พุ่งสูง การเข้าใจกราฟนี้อย่างถูกต้องจะช่วยให้องค์กรตัดสินใจลงทุนได้อย่างชาญฉลาดยิ่งขึ้น โดยเฉพาะเมื่อพิจารณาถึงการผสมผสาน pretraining กับ post-training compute ในอนาคต
This Article is sponsored by Gnoppix AI (https://www.gnoppix.org)