การศึกษาจาก MIT อธิบายเหตุผลที่การขยายขนาดโมเดลภาษาทำงานได้อย่างน่าเชื่อถือ
นักวิจัยจากสถาบันเทคโนโลยีแมสซาชูเซตส์ (MIT) ได้ตีพิมพ์งานวิจัยล่าสุดที่ให้คำอธิบายทางคณิตศาสตร์ว่าทำไมกฎการขยายขนาด (scaling laws) ในโมเดลภาษาจึงทำงานได้อย่างน่าเชื่อถือ โดยศึกษานี้ช่วยไขปริศนาว่าทำไมการเพิ่มขนาดโมเดล พารามิเตอร์ ข้อมูลฝึก และกำลังคำนวณ จึงนำไปสู่การปรับปรุงประสิทธิภาพที่คาดการณ์ได้อย่างสม่ำเสมอ
พื้นฐานของกฎการขยายขนาด
กฎการขยายขนาดในโมเดลภาษาถูกค้นพบครั้งแรกโดยทีมจาก OpenAI ในปี 2020 ผ่านงานวิจัยของ Kaplan และคณะ ซึ่งแสดงให้เห็นว่าประสิทธิภาพของโมเดล เช่น การลดลงของค่า loss ในการทำนายโทเค็นถัดไป จะปรับปรุงตามกฎอุปมธิ (power law) เมื่อเพิ่มขนาดโมเดล ข้อมูล หรือกำลังคำนวณ ปรากฏการณ์นี้กลายเป็นหลักการสำคัญในการพัฒนาโมเดลขนาดใหญ่ เช่น GPT-3 หรือ PaLM ที่ประสบความสำเร็จอย่างมาก อย่างไรก็ตาม จนถึงขณะนี้ยังไม่มีคำอธิบายทางทฤษฎีที่ชัดเจนว่าทำไมจึงเกิดขึ้นได้อย่างน่าเชื่อถือเช่นนี้
กรอบทางคณิตศาสตร์จาก MIT
Eric J. Michaud, David M. Kreps, Thomas L. Griffiths และ Mikhail I. Belkin จาก MIT และ Princeton University ได้เผยแพร่งานวิจัยเรื่อง “Progress measures for grokking via mechanistic interpretability” แต่ในบริบทนี้คือ “Explanations for Scaling Emergent Phenomena” หรือที่เกี่ยวข้องกับ scaling โดยเฉพาะ พวกเขาเสนอกรอบทางคณิตศาสตร์ที่มองการสร้างโมเดลภาษาเป็นกระบวนการอนุมานแบบ Bayesian inference บนตัวแปรแฝง (latent variables)
ในมุมมองนี้ ข้อมูลข้อความถูกมองว่าเกิดจากกระบวนการสร้างข้อมูลจากตัวแปรแหล่งกำเนิดที่ไม่รู้จัก (unknown source variables) โมเดลภาษาที่ฝึกด้วย gradient descent จะพยายามเรียนรู้การแจกแจงโพสทีเรียอร์ (posterior distribution) ของตัวแปรเหล่านี้ โดยการทำนายโทเค็นถัดไปคือการทำนายค่าที่คาดหวังภายใต้การแจกแจงดังกล่าว
ทำไมการขยายขนาดจึงลดค่า loss ตาม power law
นักวิจัยแสดงให้เห็นว่าการเพิ่มขนาดโมเดล (เช่น จำนวนพารามิเตอร์) จะช่วยให้การประมาณโพสทีเรียอร์แม่นยำยิ่งขึ้น โดยเฉพาะในพื้นที่ loss landscape ที่ซับซ้อน การ scaling ช่วยให้โมเดลหลีกเลี่ยง local minima และเข้าใกล้ global minimum ได้ดีกว่า ส่งผลให้ค่า cross-entropy loss ลดลงตาม power law L(N) ∝ N^{-α} โดยที่ N คือขนาดโมเดล และ α เป็นค่าคงที่
นอกจากนี้ กรอบนี้ยังอธิบายปรากฏการณ์ double descent ซึ่งค่า loss ลดลงก่อนเพิ่มขึ้นเมื่อ overparameterize แล้วลดลงอีกครั้งเมื่อ scale ใหญ่ขึ้น สาเหตุมาจากการที่โมเดลขนาดใหญ่สามารถจับ interpolation regime ได้ดีกว่า โดยใน Bayesian view มุมมองนี้สอดคล้องกับการลด uncertainty ใน posterior
การเชื่อมโยงกับ grokking และ emergent abilities
งานวิจัยชี้ว่าการ grokking—ซึ่งโมเดลเรียนรู้ pattern ง่ายๆ หลังจาก overfit ข้อมูลฝึกก่อน—เกิดจากการที่โมเดลค่อยๆ ค้นหา posterior ทั่วไปแทน memorized solution การ scaling เร่งกระบวนการนี้ ทำให้ emergent abilities เช่น การแก้ปัญหา arithmetic หรือ reasoning ปรากฏขึ้นเมื่อ scale ใหญ่พอ เนื่องจากโมเดลสามารถ approximate true posterior ได้ใกล้ชิดยิ่งขึ้น
ตัวอย่างเช่น ในงาน modular arithmetic โมเดลขนาดเล็กอาจ memorize pattern แต่ขนาดใหญ่จะ generalize ได้ โดย scaling laws คาดการณ์จุดที่ emergent behaviors เกิดขึ้นได้อย่างแม่นยำ
การทดลองยืนยันทฤษฎี
นักวิจัยทดสอบกรอบนี้กับโมเดลภาษาขนาดเล็ก เช่น transformer บนชุดข้อมูล synthetic และจริง พบว่าค่า loss ติดตาม power law อย่างใกล้เคียง โดย exponent α ขึ้นกับ dimensionality ของ latent space สูงสุด นอกจากนี้ ยังแสดงให้เห็นว่าการ scaling compute (C) และ data (D) ส่งผลต่อ effective parameter count ทำให้ performance พึ่งพา C^{0.75} หรือคล้าย Kaplan scaling
นัยยะต่ออนาคตของ AI
ทฤษฎีนี้ยืนยันว่าการ scaling จะยังคงมีประสิทธิภาพในอนาคต หากเรามี compute และ data เพียงพอ โดยไม่จำเป็นต้องเปลี่ยน architecture หลัก มันช่วยคาดการณ์ limit ของ scaling เช่น เมื่อ data หมดหรือ compute แพงเกินไป นอกจากนี้ ยังเปิดทางให้ optimize scaling ด้วยการเลือก hyperparameters ที่เหมาะสมกับ Bayesian approximation
อย่างไรก็ตาม งานวิจัยเตือนว่าปรากฏการณ์นี้อาจจำกัดด้วย real-world data distribution ที่ซับซ้อนยิ่งขึ้น แต่โดยรวมแล้ว มันให้ความมั่นใจแก่บริษัทเทคโนโลยีที่ลงทุนมหาศาลในโมเดลขนาดยักษ์ เช่น xAI หรือ Anthropic
สรุปความสำคัญทางธุรกิจ
สำหรับผู้บริหารในอุตสาหกรรม AI การศึกษานี้เป็นหลักฐานทางวิทยาศาสตร์ที่แข็งแกร่งในการจัดสรรงบประมาณสำหรับ hardware และ data acquisition มันลดความเสี่ยงในการพัฒนาโมเดล โดยยืนยันว่ากลยุทธ์ “bigger is better” ยังคงใช้ได้ โดยไม่ต้องเสี่ยงกับ paradigm shift ที่ไม่แน่นอน นักลงทุนสามารถใช้ scaling curves เพื่อประเมิน ROI ของโครงการ LLM ได้อย่างแม่นยำยิ่งขึ้น
(จำนวนคำประมาณ 720 คำ)
This Article is sponsored by Gnoppix AI (https://www.gnoppix.org)