พารามิเตอร์คืออะไรกันแน่?
ในยุคที่ปัญญาประดิษฐ์ (AI) กำลังเติบโตอย่างรวดเร็ว โดยเฉพาะโมเดลภาษาขนาดใหญ่ (Large Language Models: LLMs) คำว่า “พารามิเตอร์” (parameters) กลายเป็นตัวชี้วัดหลักที่ใช้เปรียบเทียบความสามารถของโมเดลต่างๆ ผู้พัฒนาโมเดลอย่าง OpenAI, Google, Meta และบริษัทอื่นๆ มักประกาศตัวเลขพารามิเตอร์จำนวนมหาศาล เช่น GPT-4 ที่มีข่าวลือว่ามีพารามิเตอร์ถึง 1.7 ล้านล้านตัว หรือโมเดลล่าสุดอย่าง DeepSeek-V3 ที่มี 671 พันล้านพารามิเตอร์ แต่คำถามพื้นฐานคือ พารามิเตอร์คืออะไรกันแน่? และทำไมตัวเลขเหล่านี้ถึงสร้างความสับสนบ่อยครั้ง?
พารามิเตอร์ในบริบทของเครือข่ายประสาทเทียม (neural networks) คือค่าตัวเลขที่โมเดลเรียนรู้และปรับแต่งระหว่างกระบวนการฝึกอบรม (training) โดยหลักแล้ว พารามิเตอร์ประกอบด้วย “น้ำหนัก” (weights) และ “อคติ” (biases) ซึ่งเป็นตัวแปรที่กำหนดวิธีที่โมเดลประมวลผลข้อมูลเข้าและข้อมูลออก ในโครงสร้างแบบ Transformer ซึ่งเป็นฐานของโมเดลภาษาสมัยใหม่ พารามิเตอร์จะกระจายอยู่ในชั้นต่างๆ เช่น ชั้นฝังข้อมูล (embedding layers), ชั้นกลไกสนใจ (attention mechanisms), ชั้นฟีดฟอร์เวิร์ด (feed-forward networks) และชั้นนอร์มัลไลเซชัน (normalization layers)
มาดูรายละเอียดกันทีละชั้น ชั้น embedding ใช้พารามิเตอร์ในการแปลงคำศัพท์เป็นเวกเตอร์ตัวเลข โดยมีเมทริกซ์ขนาด vocabulary size คูณ dimension เช่น หาก vocabulary มี 50,000 คำ และ dimension 8,000 จะมีพารามิเตอร์ 400 ล้านตัว ในชั้น attention ซึ่งเป็นหัวใจของ Transformer มีเมทริกซ์สำหรับ query (Q), key (K), value (V) และ output projection รวมกันประมาณ 12 เท่าของ dimension คูณ hidden size ในชั้นฟีดฟอร์เวิร์ด ซึ่งมักมีขนาดใหญ่ที่สุด จะมีพารามิเตอร์ราว 8 เท่าของ hidden size คูณ intermediate size ชั้น layer normalization มีพารามิเตอร์เพียงเล็กน้อย คือ scale และ bias อย่างละ hidden size ตัว แต่รวมทั้งหมดแล้ว โมเดล Transformer ขนาดใหญ่จะมีพารามิเตอร์จำนวนมหาศาล โดยตัวเลขมักคำนวณจากสูตรมาตรฐาน: ประมาณ 12 * L * D^2 สำหรับโมเดล dense (L คือจำนวนชั้น, D คือ dimension)
อย่างไรก็ตาม ความสับสนเกิดขึ้นเมื่อพูดถึงโมเดลแบบ Mixture of Experts (MoE) ซึ่งเป็นเทคนิคที่ทำให้โมเดลมีพารามิเตอร์รวมจำนวนมากแต่ใช้งานจริงเพียงส่วนย่อยเท่านั้น ใน MoE แต่ละชั้นจะมี “ผู้เชี่ยวชาญ” (experts) หลายตัว แต่ในแต่ละการประมวลผลจะเปิดใช้งานผู้เชี่ยวชาญเพียงไม่กี่ตัวตามข้อมูลเข้า เช่น Grok-1 ของ xAI มีพารามิเตอร์รวม 314 พันล้านตัว แต่ active parameters ในการใช้งานจริงคือ 86 พันล้านตัว หรือ Mixtral 8x7B ที่มีพารามิเตอร์รวม 47 พันล้านตัว แต่ active เพียง 13 พันล้านตัว นักวิจัยบางคนโต้แย้งว่าควรนับเฉพาะ active parameters เพราะสะท้อนทรัพยากรที่ใช้จริงในการอนุมาน (inference) ในขณะที่บางส่วนยืนยันว่านับพารามิเตอร์รวมทั้งหมดเพราะเป็นตัววัดความซับซ้อนในการฝึกอบรม
ประเด็นนี้ยิ่งชัดเจนในโมเดลล่าสุด เช่น Llama 3.1 405B ของ Meta ซึ่งเป็นโมเดล dense ที่มีพารามิเตอร์ 405 พันล้านตัวทั้งหมดใช้งานได้จริง ทำให้ประสิทธิภาพสูงในหลายเกณฑ์วัด หรือ o1 ของ OpenAI ที่เน้นการใช้เหตุผล (reasoning) แต่ไม่เปิดเผยจำนวนพารามิเตอร์ ทำให้เกิดการคาดเดาว่าอาจใช้ MoE ขนาดใหญ่ นอกจากนี้ ยังมีคำถามเกี่ยวกับส่วนประกอบอื่นๆ เช่น ในชั้น layer normalization พารามิเตอร์ scale และ bias ควรนับหรือไม่? คำตอบคือใช่ ตามนิยามมาตรฐานของ PyTorch และ TensorFlow พารามิเตอร์คือทุกค่าที่โมเดลปรับแต่งได้ ยกเว้น hyperparameters ที่กำหนดล่วงหน้า
ประวัติศาสตร์ของพารามิเตอร์สะท้อนการเติบโตของ AI ตั้งแต่ AlexNet ปี 2012 ที่มี 60 ล้านพารามิเตอร์ ไปจนถึง GPT-3 ปี 2020 ที่ 175 พันล้านตัว และปัจจุบันทะลุพันล้านล้านตัว ตัวเลขเหล่านี้ไม่เพียงบ่งชี้ถึงความสามารถ แต่ยังเชื่อมโยงกับค่าใช้จ่ายในการฝึกอบรม เช่น GPT-4 ใช้พลังงานเทียบเท่าการไฟฟ้าของครัวเรือนหลายพันหลัง การนับพารามิเตอร์ที่ไม่ชัดเจนอาจนำไปสู่การเปรียบเทียบที่ไม่เป็นธรรม โดยเฉพาะเมื่อบริษัทแข่งขันกันประกาศตัวเลขเพื่อดึงดูดนักลงทุน
เพื่อความโปร่งใส นักวิจัยแนะนำให้เปิดเผยรายละเอียดสถาปัตยกรรม เช่น จำนวนชั้น, dimension, และประเภทโมเดล (dense หรือ sparse) รวมถึง metrics การใช้งานจริง เช่น active parameters per token หรือ FLOPs (floating-point operations) นอกจากนี้ ยังมีแนวโน้มพัฒนาโมเดลที่มีประสิทธิภาพสูงด้วยพารามิเตอร์น้อยลง ผ่านเทคนิคอย่าง quantization, pruning หรือ distillation ซึ่งลดขนาดโมเดลโดยไม่เสียประสิทธิภาพมากนัก
ในท้ายที่สุด พารามิเตอร์ไม่ใช่ตัววัดเดียวของความฉลาดของ AI แต่เป็นจุดเริ่มต้นในการเข้าใจความซับซ้อนของโมเดล การกำหนดนิยามที่ชัดเจนและสอดคล้องกันจะช่วยให้อุตสาหกรรมก้าวหน้าอย่างแท้จริง โดยไม่ตกหลุมพรางของการแข่งขันตัวเลขเพียงอย่างเดียว
(จำนวนคำประมาณ 720 คำ)
This Article is sponsored by Gnoppix AI (https://www.gnoppix.org)