Inception เปิดตัว Mercury 2 โมเดลเหตุผลภาษาระดับสูงตัวแรกที่ใช้เทคนิค Diffusion
Inception ซึ่งเป็นสตาร์ทอัพด้านปัญญาประดิษฐ์ ได้เปิดตัว Mercury 2 ซึ่งเป็นโมเดลเหตุผลภาษา (Language Reasoning Model) ตัวแรกของโลกที่ใช้เทคนิคการแพร่กระจาย (Diffusion) โดยโมเดลนี้ถือเป็นนวัตกรรมสำคัญในการพัฒนาระบบปัญญาประดิษฐ์ที่สามารถจัดการกับงานเหตุผลเชิงภาษาได้อย่างมีประสิทธิภาพสูง โดยไม่ต้องพึ่งพาวิธีการ autoregressive แบบดั้งเดิมที่ใช้กันอย่างแพร่หลายในโมเดลภาษาขนาดใหญ่ (LLM) ในปัจจุบัน
เทคนิค Diffusion ซึ่งเดิมทีถูกนำมาใช้หลักๆ กับการสร้างภาพและวิดีโอ ได้รับการปรับใช้ใหม่ใน Mercury 2 เพื่อจัดการกับกระบวนการเหตุผลภาษา โดยโมเดลนี้ทำงานโดยการ “ลด噪声” (denoising) ในเส้นทางการเหตุผล (reasoning trajectories) ที่มี噪声รบกวนสูง แทนที่จะทำนายโทเค็นทีละตัวแบบต่อเนื่องเหมือนโมเดล autoregressive กระบวนการนี้ช่วยให้โมเดลสามารถสร้างเส้นทางการเหตุผลที่สมบูรณ์และมีคุณภาพสูงได้ในขั้นตอนเดียว โดยอาศัยหลักการ diffusion ที่ค่อยๆ เพิ่มและลด噪声เพื่อสร้างผลลัพธ์ที่ชัดเจน
Mercury 2 ได้รับการฝึกฝนด้วยข้อมูลสังเคราะห์จำนวนมหาศาลกว่า 1.5 ล้านเส้นทางการเหตุผล ซึ่งสร้างขึ้นจากโมเดล Claude 3.5 Sonnet ของ Anthropic ข้อมูลเหล่านี้ครอบคลุมปัญหาคณิตศาสตร์ที่หลากหลาย เพื่อให้โมเดลสามารถเรียนรู้รูปแบบการแก้ปัญหาที่ซับซ้อนได้อย่างมีประสิทธิภาพ ผลการทดสอบแสดงให้เห็นว่า Mercury 2 สามารถทำคะแนนเหนือกว่าโมเดลพื้นฐาน (baselines) ในหลายเกณฑ์มาตรฐานคณิตศาสตร์ เช่น GSM8K, MATH และ AIME โดยเฉพาะในระดับความยากสูง
ในด้านสถาปัตยกรรม Mercury 2 ใช้โครงสร้างที่เรียกว่า Diffusion Transformer (DiT) ซึ่งปรับปรุงจากโมเดล Diffusion แบบดั้งเดิมให้เหมาะสมกับข้อมูลภาษา โมเดลนี้มีพารามิเตอร์ทั้งหมด 3 พันล้านตัว โดยใช้ tokenizer ของ Llama 3.1 ขนาด 128K เพื่อรองรับข้อมูลภาษาที่หลากหลาย กระบวนการฝึกฝนแบ่งออกเป็นสองขั้นตอนหลัก คือ การฝึก pre-training ด้วยข้อมูล噪声รบกวนทั้งหมด และ fine-tuning ด้วยข้อมูล噪声ระดับต่ำ เพื่อให้โมเดลสามารถ generalize ได้ดีในงานเหตุผลจริง
หนึ่งในจุดเด่นของ Mercury 2 คือความสามารถในการสร้างเส้นทางการเหตุผลหลายเส้นทางพร้อมกัน (parallel sampling) ซึ่งช่วยลดเวลาในการประมวลผลและเพิ่มความแม่นยำ โดยในระหว่าง inference โมเดลจะเริ่มจาก噪声สุ่มและค่อยๆ ลด噪声ลงใน 64 ขั้นตอน เพื่อให้ได้เส้นทางการเหตุผลที่ถูกต้อง ผู้พัฒนายังได้เปิดเผยโมเดลเวอร์ชัน open-weights บน Hugging Face Hub ทำให้ผู้ใช้สามารถดาวน์โหลดและนำไปใช้งานหรือปรับแต่งได้ฟรี โดยมีไฟล์ checkpoint ขนาดใหญ่สำหรับการใช้งานจริง
ผลการประเมินประสิทธิภาพของ Mercury 2 บนเกณฑ์มาตรฐานคณิตศาสตร์ชี้ให้เห็นถึงศักยภาพที่เหนือชั้น เช่น ใน GSM8K โมเดลทำคะแนนได้ 92.1% ซึ่งสูงกว่าโมเดล autoregressive ขนาดใกล้เคียงกัน ขณะที่ใน MATH ทำได้ 68.3% และใน AIME 2024 ทำได้ 45.2% ความสำเร็จนี้มาจากการออกแบบที่เน้นการ denoising reasoning traces ซึ่งช่วยให้โมเดลหลีกเลี่ยงข้อจำกัดของ autoregressive เช่น การสะสมข้อผิดพลาด (error accumulation) ในเส้นทางยาว
นอกจากนี้ Inception ยังได้เผยแพร่โค้ดสำหรับการฝึกฝนและ inference บน GitHub ทำให้ชุมชนนักพัฒนาสามารถศึกษาวิธีการและนำไปต่อยอดได้ โมเดลนี้ถูกฝึกบนคลัสเตอร์ GPU ขนาดใหญ่ โดยใช้ข้อมูลที่สร้างจาก Claude 3.5 Sonnet เพื่อให้มั่นใจในคุณภาพของ synthetic trajectories การทดลองเปรียบเทียบกับโมเดล diffusion อื่นๆ เช่น Mercury 1 และ baselines อื่นๆ แสดงให้เห็นว่า Mercury 2 มีประสิทธิภาพสูงกว่าในทุกมิติ โดยเฉพาะในงานที่ต้องการเหตุผลเชิงลึก
Mercury 2 ไม่เพียงแต่เป็นก้าวแรกในการนำ diffusion มาสู่ภาษาเหตุผลเท่านั้น แต่ยังเปิดประตูสู่การพัฒนาโมเดลใหม่ๆ ที่มีประสิทธิภาพสูงขึ้นในอนาคต โดยเฉพาะในด้านคณิตศาสตร์และการแก้ปัญหาที่ซับซ้อน Inception ซึ่งเดิมชื่อ Merak ได้เปลี่ยนชื่อและมุ่งเน้นไปที่การวิจัยด้าน diffusion สำหรับ reasoning ทำให้ Mercury 2 เป็นผลงานที่โดดเด่นในวงการปัญญาประดิษฐ์
ผู้ที่สนใจสามารถเข้าถึงโมเดลได้ที่ Hugging Face: https://huggingface.co/InceptionAI/Mercury-2-3B และโค้ดที่ GitHub: https://github.com/InceptionAI/Mercury ซึ่งรวมถึงสคริปต์สำหรับ sampling และ evaluation การเปิดตัวนี้ถือเป็นสัญญาณบวกสำหรับอนาคตของเทคโนโลยี LLM ที่อาจเปลี่ยนแปลงวิธีการฝึกฝนและใช้งานโมเดลเหตุผลภาษาไปอย่างสิ้นเชิง
(จำนวนคำประมาณ 720 คำ)
This Article is sponsored by Gnoppix AI (https://www.gnoppix.org)