การถอดรหัสสถาปัตยกรรมโมเดลภาษาใหม่: แรงบันดาลใจจากโครงสร้างสมองมนุษย์
ในภูมิทัศน์ที่พัฒนาอย่างรวดเร็วของปัญญาประดิษฐ์เชิงสร้างสรรค์ (Generative AI) การแสวงหาสถาปัตยกรรมโมเดลภาษา (Language Model – LM) ที่มีประสิทธิภาพและประสิทธิผลมากขึ้นยังคงดำเนินต่อไป แนวทางที่เป็นนวัตกรรมใหม่กำลังเกิดขึ้น โดยนักวิจัยได้ศึกษาโครงสร้างที่เป็นรากฐานของความฉลาดทางชีวภาพ โดยเฉพาะอย่างยิ่ง โครงสร้างของสมองมนุษย์ ซึ่งเป็นแรงบันดาลใจในการออกแบบโมเดลภาษาแบบใหม่ที่เรียกว่า “โมเดลที่ได้รับแรงบันดาลใจจากกลีบสมอง” (Lobe-Inspired Model) ซึ่งมีศักยภาพในการปรับปรุงประสิทธิภาพและลดค่าใช้จ่ายในการดำเนินงานอย่างมีนัยสำคัญ
โมเดลภาษาแบบดั้งเดิม เช่น ตระกูล Transformer ที่มีชื่อเสียง ซึ่งรวมถึง GPT-3 และ Llama ได้รับการกำหนดลักษณะโดยการออกแบบแบบรวมศูนย์ที่ประมวลผลอินพุตทั้งหมดในคราวเดียวผ่านเครือข่ายเดียว อย่างไรก็ตาม นักวิจัยจาก University of Massachusetts Amherst และ MIT ได้พัฒนาสถาปัตยกรรมทางเลือกที่สะท้อนถึงหลักการแบ่งส่วนเฉพาะทาง (specialized modularity) ที่สังเกตได้ในสมองของสัตว์เลี้ยงลูกด้วยนม
สมองมนุษย์ไม่ได้เป็นหน่วยประมวลผลแบบรวมศูนย์ แต่ประกอบด้วยกลีบสมองหลายส่วน ได้แก่ กลีบสมองส่วนหน้า (Frontal), กลีบสมองส่วนขมับ (Temporal), กลีบสมองส่วนท้ายทอย (Occipital), และกลีบสมองส่วนข้าง (Parietal) ซึ่งแต่ละส่วนมีความเชี่ยวชาญในการประมวลผลข้อมูลประเภทเฉพาะ (เช่น การมองเห็น การได้ยิน การวางแผน และการเคลื่อนไหว) การแยกส่วนความรับผิดชอบนี้ช่วยให้การประมวลผลมีประสิทธิภาพและประสิทธิผลสูง
โมเดลที่ได้รับแรงบันดาลใจจากกลีบสมองได้นำหลักการนี้มาใช้โดยการแบ่งเครือข่ายประสาทเทียมออกเป็นหน่วยย่อยที่มีความเชี่ยวชาญ (specialized subnetworks) ที่จัดเรียงตามลำดับ แทนที่จะใช้เครือข่าย Transformer แบบ “หนา” (dense) ขนาดใหญ่ โมเดลนี้จะใช้การตั้งค่าแบบต่อเนื่อง โดยที่อินพุตจะผ่านส่วนต่าง ๆ ของโมเดล โดยแต่ละส่วนจะเน้นไปที่แง่มุมเฉพาะของกระบวนการภาษา
สถาปัตยกรรมใหม่นี้ประกอบด้วยสามส่วนหลัก:
- โมดูลการประมวลผลบริบท (Context Processing Module): ทำหน้าที่คล้ายกับกลีบสมองที่เกี่ยวข้องกับการทำความเข้าใจความสัมพันธ์ทาง ngữ (syntactic) และความหมาย (semantic) ของอินพุต
- โมดูลการประเมิน (Evaluation Module): มุ่งเน้นไปที่การประเมินสถานะปัจจุบันของบริบท
- โมดูลการขยายบริบท (Context Extension Module): รับผิดชอบในการสร้างโทเค็นถัดไปในลำดับผลลัพธ์
นักวิจัยรายงานว่าการออกแบบที่มีการแบ่งส่วนนี้ช่วยเพิ่มประสิทธิภาพในการคำนวณได้อย่างน่าทึ่ง เมื่อเปรียบเทียบกับโมเดล Transformer มาตรฐานที่มีพารามิเตอร์เท่ากัน โมเดลที่ได้รับแรงบันดาลใจจากกลีบสมองสามารถทำงานโดยใช้หน่วยความจำ (memory) ที่น้อยลง และใช้พลังงานในการคำนวณ (computational power) ที่ลดลง ในขณะที่ยังคงรักษาประสิทธิภาพในการทำงานของโมเดลภาษาไว้
ผลการทดลองที่นำเสนอในการศึกษาฉบับร่าง (preprint) ชี้ให้เห็นว่าโมเดลที่ได้รับแรงบันดาลใจจากกลีบสมองแสดงให้เห็นถึงความได้เปรียบที่สำคัญในด้านความเร็วและประสิทธิภาพการใช้พลังงาน (energy efficiency) ในระหว่างขั้นตอนการอนุมาน (inference) โดยเฉพาะอย่างยิ่ง การออกแบบนี้ส่งผลให้เกิดการลดการใช้หน่วยความจำในการทำงาน (Working Memory) ซึ่งเป็นหนึ่งในอุปสรรคสำคัญในการปรับใช้โมเดลภาษาขนาดใหญ่ในวงกว้าง
การพัฒนาสถาปัตยกรรม LM แบบแบ่งส่วนนี้เป็นการเคลื่อนไหวเชิงกลยุทธ์ที่สำคัญในสาขา AI โดยย้ายออกจากสถาปัตยกรรมแบบรวมศูนย์ขนาดใหญ่ไปสู่การออกแบบที่ใช้เครื่องหมายการค้าของประสิทธิภาพทางชีวภาพ (biological efficiency) แนวทางนี้ได้เปิดประตูสู่การพัฒนาโมเดลภาษาที่มีขนาดเล็กลง ราคาไม่แพง และมีความสามารถมากขึ้น ซึ่งจะช่วยให้สามารถนำ AI ขั้นสูงไปใช้ในสภาพแวดล้อมที่มีข้อจำกัดด้านทรัพยากรได้มากขึ้น การใช้ความรู้จากประสาทวิทยาศาสตร์ (neuroscience) มาประยุกต์ใช้ในการสร้าง AI นั้นไม่เพียงแต่เป็นความก้าวหน้าทางเทคนิคเท่านั้น แต่ยังเน้นย้ำถึงคุณค่าของการเลียนแบบกลไกการเรียนรู้และหน่วยความจำที่มีประสิทธิภาพของธรรมชาติอีกด้วย
This Article is sponsored by Gnoppix AI (https://www.gnoppix.org)