ควอลคอมม์ลดขนาดโซ่เหตุผลปัญญาประดิษฐ์ลง 2-4 เท่า เพื่อรองรับโมเดลคิดขั้นสูงบนสมาร์ทโฟน
บริษัทควอลคอมม์ (Qualcomm) ผู้พัฒนาชิปเซ็ตชั้นนำ ได้เปิดตัวเทคนิคใหม่ที่สามารถบีบอัดโซ่เหตุผล (reasoning chains) ของปัญญาประดิษฐ์ได้ถึง 2-4 เท่า สิ่งนี้ทำให้เป็นไปได้ที่จะรันโมเดลภาษาขนาดใหญ่ (Large Language Models: LLMs) แบบ “คิดขั้นสูง” เช่น OpenAI o1 บนอุปกรณ์สมาร์ทโฟน โดยไม่ต้องพึ่งพาเซิร์ฟเวอร์ระยะไกล เทคนิคดังกล่าวถูกนำเสนอในงาน TinyML Summit โดยนักวิจัยด้านปัญญาประดิษฐ์ของควอลคอมม์ นาย Mandar Gogate และนาย Hemant Shukla ซึ่งเน้นย้ำถึงศักยภาพในการนำโมเดลเหล่านี้มาทำงานบนอุปกรณ์พกพาได้อย่างมีประสิทธิภาพ
ในยุคที่โมเดลภาษาขนาดใหญ่พัฒนาขึ้นอย่างรวดเร็ว โมเดลประเภท “reasoning models” หรือโมเดลที่สามารถคิดวิเคราะห์ปัญหาเชิงซับซ้อนได้ เช่น OpenAI o1-preview ได้รับความนิยมเพิ่มขึ้น เนื่องจากสามารถแก้ปัญหาคณิตศาสตร์ การเขียนโค้ด และการให้เหตุผลเชิงตรรกะได้ดีกว่าโมเดลทั่วไป อย่างไรก็ตาม เทคนิคหลักที่ทำให้โมเดลเหล่านี้มีประสิทธิภาพคือ “Chain-of-Thought” (CoT) หรือการให้เหตุผลแบบทีละขั้นตอน โดยโมเดลจะสร้างข้อความยาวเหยียดที่อธิบายกระบวนการคิด ก่อนจึงให้คำตอบสุดท้าย
ปัญหาหลักของ CoT คือการใช้ท็อกเก็น (tokens) จำนวนมหาศาล ซึ่งท็อกเก็นคือหน่วยพื้นฐานที่โมเดลภาษาใช้ในการประมวลผล ข้อความยาวหลายพันท็อกเก็นเหล่านี้ทำให้เกิดความต้องการหน่วยความจำ (memory) และกำลังประมวลผล (compute) สูงมาก ไม่เหมาะกับสมาร์ทโฟนที่มีข้อจำกัดด้านฮาร์ดแวร์ เช่น ชิปเซ็ต ARM-based ที่มี RAM เพียงไม่กี่กิกะไบต์ นอกจากนี้ ยังทำให้เกิดความล่าช้า (latency) และการใช้พลังงานสูง ซึ่งขัดกับหลักการของการประมวลผลบนอุปกรณ์ (on-device processing) ที่เน้นความรวดเร็วและเป็นส่วนตัว
เพื่อแก้ปัญหานี้ ควอลคอมม์ได้พัฒนาเทคนิค “Reasoning Token Compression” ซึ่งเป็นกระบวนการบีบอัดโซ่เหตุผลโดยรักษาความถูกต้องของผลลัพธ์ไว้ เทคนิคนี้ทำงานโดยใช้โมเดลเสริมขนาดเล็ก (auxiliary model) ที่ถูกฝึกฝนให้รับโซ่เหตุผลเต็มรูปแบบ แล้วแปลงเป็นเวอร์ชันสั้นลงที่เข้ารหัสข้อมูลสำคัญทั้งหมด โดยไม่สูญเสียสาระสำคัญ กระบวนการนี้แบ่งเป็นสองขั้นตอนหลัก ประการแรกคือการสร้างโซ่เหตุผลปกติด้วย CoT จากนั้นจึงนำผ่านตัวบีบอัด (compressor) เพื่อลดจำนวนท็อกเก็นลง โมเดลบีบอัดนี้ถูกฝึกด้วยข้อมูลจากโซ่เหตุผลจริง โดยใช้การสูญเสีย (loss function) ที่วัดความคล้ายคลึงระหว่างเวอร์ชันบีบอัดกับต้นฉบับ
ผลการทดสอบของควอลคอมม์แสดงให้เห็นประสิทธิภาพที่โดดเด่น โดยทดสอบบนโมเดลยอดนิยม เช่น Llama-3-8B, Mistral-7B, และ Phi-3-mini บนชุดข้อมูลมาตรฐาน เช่น GSM8K (ปัญหาคณิตศาสตร์เกรด 8), AIME (การแข่งขันคณิตศาสตร์), และ LiveCodeBench (การเขียนโค้ด) ผลปรากฏว่า เทคนิคนี้ลดจำนวนท็อกเก็นลงเฉลี่ย 2-4 เท่า โดยความแม่นยำ (accuracy) ลดลงน้อยกว่า 1-2% เท่านั้น ตัวอย่างเช่น บน Llama-3-8B โซ่เหตุผลปกติใช้ท็อกเก็นกว่า 2,000 ตัว แต่หลังบีบอัดเหลือเพียง 500-1,000 ตัว สิ่งนี้ช่วยลดความต้องการหน่วยความจำลงอย่างมาก จากเดิมที่โมเดล 7B พารามิเตอร์อาจต้องใช้ VRAM กว่า 16GB เหลือเพียงระดับที่สมาร์ทโฟนรองรับได้
การทดสอบจริงบนแพลตฟอร์ม Snapdragon ยิ่งตอกย้ำความสำเร็จ โดยเฉพาะ Snapdragon 8 Gen 3 ซึ่งเป็นชิปเซ็ตเรือธงสำหรับสมาร์ทโฟนแอนดรอยด์ โมเดล Llama-3-8B ที่ใช้ CoT ปกติใช้เวลาประมวลผลนานหลายวินาทีและอาจค้าง แต่หลังใช้เทคนิคบีบอัด ความเร็วเพิ่มขึ้น 2-3 เท่า ลด latency ลงเหลือระดับที่ผู้ใช้สัมผัสได้ทันที นอกจากนี้ ยังช่วยประหยัดพลังงานแบตเตอรี่ ซึ่งเป็นปัจจัยสำคัญสำหรับอุปกรณ์พกพา ควอลคอมม์ยังชี้ว่า เทคนิคนี้สามารถนำไปใช้กับโมเดลขนาดใหญ่กว่าได้ หากปรับแต่งให้เหมาะสมกับชิป Hexagon NPU (Neural Processing Unit) ใน Snapdragon
ประโยชน์เชิงธุรกิจของเทคนิคนี้ชัดเจนสำหรับผู้ผลิตสมาร์ทโฟนและนักพัฒนาแอปพลิเคชัน โดยช่วยให้สามารถนำฟีเจอร์ AI ขั้นสูง เช่น ผู้ช่วยส่วนตัวที่แก้ปัญหาคณิตศาสตร์หรือเขียนโค้ดได้จริง มาอยู่บนเครื่องโดยไม่ต้องเชื่อมต่ออินเทอร์เน็ต สร้างความแตกต่างในตลาดที่แข่งขันดุเดือด เช่น Samsung Galaxy, Google Pixel หรือ Xiaomi นอกจากนี้ ยังเสริมความเป็นส่วนตัว (privacy) เนื่องจากข้อมูลไม่ต้องส่งไปยังคลาวด์ ลดความเสี่ยงด้านความมั่นคงปลอดภัย
ในภาพรวม เทคนิค Reasoning Token Compression ของควอลคอมม์ถือเป็นก้าวสำคัญในการ democratize AI reasoning models สู่สมาร์ทโฟนทั่วไป ทำให้ผู้ใช้ทุกคนเข้าถึงพลังการคิดเชิงตรรกะของ AI ได้โดยตรง โดยไม่ต้องพึ่งพาโครงสร้างพื้นฐานขนาดใหญ่ สิ่งนี้สอดคล้องกับวิสัยทัศน์ของควอลคอมม์ในการผลักดัน edge AI ที่ชาญฉลาดและมีประสิทธิภาพยิ่งขึ้น
(จำนวนคำประมาณ 728 คำ)
This Article is sponsored by Gnoppix AI (https://www.gnoppix.org)