คณิตศาสตร์ต้องการเวลาคิด ความรู้ทั่วไปต้องการความทรงจำ และสถาปัตยกรรม Transformer ใหม่มุ่งมอบทั้งสองสิ่งนี้
ในยุคที่โมเดลภาษาขนาดใหญ่ (Large Language Models: LLMs) ครองวงการปัญญาประดิษฐ์ โมเดลเหล่านี้แสดงศักยภาพอันน่าทึ่งในการประมวลผลภาษาธรรมชาติ การตอบคำถามทั่วไป และแม้กระทั่งการสร้างเนื้อหาเชิงสร้างสรรค์ อย่างไรก็ตาม เมื่อเผชิญกับงานที่ต้องใช้การใช้เหตุผลเชิงคณิตศาสตร์ (mathematical reasoning) โมเดลเหล่านี้มักเผยจุดอ่อนที่ชัดเจน โดยเฉพาะอย่างยิ่งในการแก้โจทย์คณิตศาสตร์ที่ซับซ้อน ซึ่งต้องการกระบวนการคิดทีละขั้นตอน (step-by-step thinking) แตกต่างจากงานความรู้ทั่วไปที่อาศัยการเรียกคืนข้อมูลจากความทรงจำ (memory retrieval) เป็นหลัก
นักวิจัยจากสถาบันเทคโนโลยีแห่งสหพันธรัฐสวิส (ETH Zurich) ได้ตีพิมพ์ผลงานวิจัยล่าสุดใน arXiv โดยเสนอสถาปัตยกรรม Transformer ใหม่ที่ชื่อว่า “Memorizing Transformers” ซึ่งออกแบบมาเพื่อแก้ปัญหานี้โดยเฉพาะ สถาปัตยกรรมดังกล่าวรวมเอากลไกสองส่วนเข้าด้วยกัน ได้แก่ “โมดูลการคิด” (thinking module) ที่ทำงานแบบวนซ้ำ (iterative) เพื่อรองรับการใช้เหตุผลทีละขั้นตอน และ “โมดูลความทรงจำ” (memory module) ที่เก็บข้อมูลข้อเท็จจริงเพื่อการเรียกคืนอย่างรวดเร็ว วิธีการนี้เลียนแบบกระบวนการคิดของมนุษย์ที่แยกการใช้เหตุผลเชิงลึกออกจากความทรงจำระยะยาว
จุดอ่อนของ Transformer แบบดั้งเดิมในงานคณิตศาสตร์
Transformer แบบดั้งเดิมซึ่งเป็นหัวใจของโมเดลอย่าง GPT หรือ Llama อาศัยกลไก attention เพื่อจับคู่แพทเทิร์นจากข้อมูลฝึกสอนขนาดมหาศาล ทำให้เก่งในการทำนายคำถัดไป (next-token prediction) แต่เมื่อต้องแก้โจทย์คณิตศาสตร์ เช่น การบวกเลขหลายหลักหรือการแก้สมการ โมเดลเหล่านี้มักให้คำตอบผิดพลาด เว้นแต่จะใช้เทคนิค Chain-of-Thought (CoT) ซึ่งกระตุ้นให้โมเดลสร้างเหตุผลทีละขั้นตอนก่อนตอบ
ตัวอย่างเช่น ในโจทย์ "ถ้า 17 + 25 = ? " โมเดลอาจตอบถูกโดยตรงจากแพทเทิร์น แต่สำหรับโจทย์ที่ซับซ้อนอย่าง “คำนวณ 1234 + 5678 โดยไม่ใช้เครื่องคิดเลข” โมเดลต้องสร้างลำดับการคำนวณย่อยหลายขั้นตอน CoT ช่วยเพิ่มความแม่นยำได้ถึง 20-50% ในชุดข้อมูล基准อย่าง GSM8K หรือ MATH แต่มีข้อเสียคือใช้โทเค็นจำนวนมาก (token-intensive) ทำให้การประมวลผลช้าลงและต้นทุนสูงขึ้น โดยเฉพาะในระบบเรียลไทม์
ความทรงจำสำหรับความรู้ประจำวัน
ตรงกันข้ามกับงานคณิตศาสตร์ ความรู้ทั่วไป เช่น ชื่อเมืองหลวงของประเทศหรือข้อเท็จจริงทางประวัติศาสตร์ ต้องการการเรียกคืนข้อมูลอย่างรวดเร็วจากความทรงจำ Transformer ดั้งเดิมทำได้ดีในด้านนี้โดยอาศัยพารามิเตอร์ขนาดใหญ่ที่ “จำ” ข้อมูลจากการฝึกสอน แต่เมื่อข้อมูลนั้นไม่อยู่ในชุดฝึกหรือมีการเปลี่ยนแปลง (distribution shift) ประสิทธิภาพจะลดลง นอกจากนี้ การขยายขนาดโมเดลเพื่อเพิ่มความทรงจำยังนำไปสู่ปัญหาการใช้ทรัพยากรสูงและการเกิด hallucination (ข้อมูลเท็จ)
สถาปัตยกรรม Memorizing Transformers: การรวมสองโลกเข้าด้วยกัน
สถาปัตยกรรมใหม่นี้แก้ปัญหาด้วยการแยกหน้าที่ชัดเจน โมดูลการคิดใช้โครงสร้าง recurrent state คล้าย RNN เพื่ออัปเดตสถานะทีละก้าว (iterative refinement) โดยไม่ต้องสร้างโทเค็นเพิ่มเติม ทำให้ประหยัดทรัพยากร ในขณะที่โมดูลความทรงจำเป็น external memory bank แบบ key-value store ที่เก็บข้อมูลข้อเท็จจริงและเรียกคืนผ่าน attention mechanism แบบ sparse
กระบวนการทำงานมีดังนี้:
- ขั้นตอนแรก: Input ผ่าน embedding layer แล้วแยกไปยังสองโมดูล
- โมดูลการคิด: เริ่มจาก state เริ่มต้น (initial state) แล้ววนซ้ำ n ครั้ง โดยแต่ละรอบคำนวณ attention ภายใน state และอัปเดตด้วย MLP layers คล้ายการคิดซ้ำในสมองมนุษย์
- โมดูลความทรงจำ: ค้นหา key ที่ตรงกับ query จาก input แล้วดึง value มาผสานกับ output จากโมดูลการคิด
- การรวมผลลัพธ์: สองโมดูลผสานกันผ่าน gating mechanism เพื่อตัดสินว่าควรใช้การคิดหรือความทรงจำมากกว่ากันตามลักษณะงาน
การฝึกสอนใช้ loss function ที่รวม next-token prediction กับ auxiliary losses สำหรับการอัปเดต memory และ iterative thinking ทำให้โมเดลเรียนรู้การสลับใช้สองโหมดได้อย่างมีประสิทธิภาพ
ผลการทดลองและประสิทธิภาพ
ในการทดสอบบนชุดข้อมูลมาตรฐาน นักวิจัยเปรียบเทียบกับ baseline อย่าง Llama-7B และ Mistral-7B พบว่า Memorizing Transformers ทำคะแนนสูงกว่าในงานคณิตศาสตร์:
- GSM8K: เพิ่มจาก 78% เป็น 92%
- MATH: จาก 45% เป็น 67%
- ในขณะที่งานความรู้ทั่วไปอย่าง MMLU คงประสิทธิภาพใกล้เคียงแต่ใช้เวลา inference น้อยลง 3-5 เท่า เนื่องจากไม่ต้อง generate CoT เต็มรูปแบบ
โมเดลขนาด 1.3B พารามิเตอร์ของพวกเขาทำผลงานเทียบเท่าโมเดล 7B แบบดั้งเดิม แสดงถึงประสิทธิภาพต่อขนาด (parameter efficiency) ที่เหนือกว่า นอกจากนี้ ในงาน multi-hop reasoning ที่ผสมคณิตและข้อเท็จจริง โมเดลใหม่ลด error rate ลง 30%
ความหมายทางธุรกิจและอนาคต
สถาปัตยกรรมนี้มีศักยภาพสูงในแอปพลิเคชันธุรกิจ เช่น ระบบวิเคราะห์ข้อมูลทางการเงินที่ต้องคำนวณแบบ real-time ซอฟต์แวร์การแพทย์ที่รวมข้อเท็จจริงทางการแพทย์กับการพยากรณ์ และเครื่องมือช่วยเหลือลูกค้าที่ตอบคำถามซับซ้อนได้รวดเร็ว โดยลดต้นทุนการ deploy บน edge devices
อย่างไรก็ตาม ยังมีจุดที่ต้องปรับปรุง เช่น ขนาด memory bank ที่จำกัดและการจัดการ long-context ในอนาคต นักวิจัยคาดว่าจะขยายไปสู่ multimodal tasks เช่น การรวม vision กับ reasoning
การพัฒนานี้ยืนยันว่า Transformer ไม่จำเป็นต้องใหญ่เสมอไป หากออกแบบให้เหมาะสมกับธรรมชาติของงาน การแยก “เวลาคิด” สำหรับคณิตศาสตร์และ “ความทรงจำ” สำหรับความรู้ทั่วไป คือกุญแจสู่ AI ที่สมดุลและมีประสิทธิภาพยิ่งขึ้น
(จำนวนคำ: 728)
This Article is sponsored by Gnoppix AI (https://www.gnoppix.org)