Xiaomi เปิดตัวโมเดลปัญญาประดิษฐ์ MiMo สามรุ่น เพื่อขับเคลื่อนเอเจนต์ หุ่นยนต์ และระบบเสียง
บริษัท Xiaomi ผู้ผลิตอุปกรณ์อิเล็กทรอนิกส์ชั้นนำจากจีน ได้ประกาศเปิดตัวโมเดลปัญญาประดิษฐ์ (AI) ภายใต้ตระกูล MiMo จำนวนสามรุ่น ได้แก่ MiMo-7B, MiMo-72B และ MiMo-Agent-32B โดยโมเดลเหล่านี้ถูกออกแบบมาเพื่อรองรับการใช้งานในด้านเอเจนต์อัจฉริยะ หุ่นยนต์ และระบบประมวลผลเสียงเป็นหลัก การเปิดตัวครั้งนี้ถือเป็นก้าวสำคัญในการพัฒนาเทคโนโลยี AI ของ Xiaomi ซึ่งมุ่งเน้นการนำไปประยุกต์ใช้ในอุปกรณ์และบริการของบริษัทเอง รวมถึงการเปิดให้ใช้งานฟรีสำหรับนักพัฒนา
โมเดล MiMo-7B และ MiMo-72B เป็นโมเดลภาษาขนาดใหญ่ (Large Language Models: LLMs) ที่ได้รับการฝึกฝนด้วยข้อมูลจำนวนมหาศาลถึง 15 ล้านล้านโทเค็น (15 trillion tokens) โดยใช้ชิปประมวลผล XRING O1 ซึ่งเป็นชิป AI แบบกำหนดเองของ Xiaomi ชิปดังกล่าวช่วยให้การฝึกฝนมีประสิทธิภาพสูง โดย MiMo-7B มีพารามิเตอร์ 7 พันล้านตัว (7 billion parameters) และสามารถแข่งขันกับโมเดล Qwen2.5-7B ได้อย่างสูสี ในขณะที่ MiMo-72B มีพารามิเตอร์ถึง 72 พันล้านตัว (72 billion parameters) และแสดงผลงานเหนือกว่า Llama3.1-70B ในหลายเกณฑ์มาตรฐาน เช่น MMLU, GPQA และ MATH
สำหรับผลการทดสอบเบื้องต้น MiMo-72B ทำคะแนนได้สูงในหมวดหมู่การใช้เหตุผล (reasoning) การตอบคำถามทางคณิตศาสตร์ และการประมวลผลภาษาธรรมชาติ โดยเฉพาะอย่างยิ่งในภาษาจีนและภาษาอังกฤษ ซึ่งสะท้อนถึงจุดแข็งของข้อมูลฝึกฝนที่ครอบคลุมทั้งสองภาษาเป็นหลัก นอกจากนี้ โมเดลทั้งสองยังรองรับการประมวลผลแบบหลายภาษา (multilingual) ทำให้เหมาะสำหรับการใช้งานในตลาดเอเชียและระดับโลก
โมเดลที่โดดเด่นอีกตัวคือ MiMo-Agent-32B ซึ่งพัฒนาขึ้นมาเพื่อการใช้งานด้านเอเจนต์โดยเฉพาะ โดยมีพารามิเตอร์ 32 พันล้านตัว โมเดลนี้ได้รับการปรับแต่งให้มีความสามารถในการวางแผน (planning) การใช้เครื่องมือภายนอก (tool use) การย้อนกลับ (reflection) และการทำงานแบบหลายขั้นตอน (multi-step reasoning) ซึ่งจำเป็นสำหรับการสร้างเอเจนต์ AI ที่สามารถปฏิบัติงานซับซ้อนได้ เช่น การจัดการงานอัตโนมัติ การโต้ตอบกับผู้ใช้ และการเชื่อมต่อกับระบบภายนอก ผลการทดสอบในเบนช์มาร์กเช่น Berkeley Function-Calling Leaderboard (BFCL) และ AgentBench แสดงให้เห็นว่า MiMo-Agent-32B มีประสิทธิภาพสูง โดยเฉพาะในงานที่ต้องใช้เครื่องมือและการตัดสินใจแบบไดนามิก
การนำโมเดล MiMo ไปใช้งานนั้นครอบคลุมหลากหลายด้าน โดยเฉพาะในอุปกรณ์ของ Xiaomi เช่น หุ่นยนต์ดูดฝุ่นและระบบบ้านอัจฉริยะที่ต้องการการประมวลผลแบบเรียลไทม์ สำหรับด้านหุ่นยนต์ โมเดลเหล่านี้ช่วยให้หุ่นยนต์สามารถเข้าใจคำสั่งเสียง วิเคราะห์สภาพแวดล้อม และตัดสินใจได้อย่างชาญฉลาด ในส่วนของระบบเสียง (voice) MiMo สนับสนุนการแปลงเสียงเป็นข้อความ (speech-to-text) การสังเคราะห์เสียง (text-to-speech) และการสนทนาแบบธรรมชาติ ทำให้เหมาะสำหรับผู้ช่วยเสียงในสมาร์ทโฟน ลำโพงอัจฉริยะ และอุปกรณ์ IoT อื่นๆ ของ Xiaomi นอกจากนี้ ยังมีการกล่าวถึงการผสานรวมกับเทคโนโลยี XRING O1 เพื่อเพิ่มความเร็วในการอนุมาน (inference) ทำให้โมเดลทำงานได้รวดเร็วบนอุปกรณ์ปลายทาง
จุดเด่นสำคัญของ MiMo คือใบอนุญาต Apache 2.0 ซึ่งเป็นใบอนุญาตแบบเปิด (open-source) ทำให้สามารถดาวน์โหลดและใช้งานได้ฟรีจากแพลตฟอร์ม Hugging Face นักพัฒนาสามารถนำไปปรับแต่ง (fine-tune) และนำไปใช้ในโครงการของตนเองได้โดยไม่เสียค่าใช้จ่าย Xiaomi ยังเปิดให้เข้าถึงโมเดลผ่าน API เพื่อการทดสอบและพัฒนาเพิ่มเติม การเปิดตัวครั้งนี้เป็นส่วนหนึ่งของกลยุทธ์ “Human x AI x Car x Home” ของ Xiaomi ซึ่งมุ่งสร้างระบบนิเวศ AI ที่เชื่อมโยงอุปกรณ์ต่างๆ เข้าด้วยกัน
ในแง่เทคนิค โมเดล MiMo ใช้สถาปัตยกรรม Transformer ที่ปรับปรุงแล้ว โดยมีการฝึกฝนด้วยเทคนิคเช่น Grouped-Query Attention (GQA) เพื่อเพิ่มประสิทธิภาพในการประมวลผล ข้อมูลฝึกฝนมาจากแหล่งข้อมูลคุณภาพสูง รวมถึงเนื้อหาจากเว็บไซต์ เอกสารทางวิชาการ และข้อมูลภายในของ Xiaomi ซึ่งช่วยให้โมเดลมีความแม่นยำสูงในงานเฉพาะทาง เช่น การแปลภาษา การสรุปเอกสาร และการตอบคำถามเชิงเทคนิค
การเปิดตัว MiMo เกิดขึ้นท่ามกลางการแข่งขันที่ดุเดือดในวงการ AI ของจีน โดย Xiaomi ถือเป็นผู้เล่นรายใหม่ที่เข้มแข็ง ด้วยทรัพยากรด้านฮาร์ดแวร์และข้อมูลขนาดใหญ่จากฐานผู้ใช้กว่า 600 ล้านคนทั่วโลก โมเดลเหล่านี้ไม่เพียงเสริมความสามารถให้ผลิตภัณฑ์ของ Xiaomi แต่ยังช่วยยกระดับอุตสาหกรรม AI โดยรวม โดยเฉพาะในด้านเอเจนต์และหุ่นยนต์ที่ต้องการความฉลาดแบบ end-to-end
Xiaomi วางแผนขยายตระกูล MiMo ในอนาคต โดยอาจเพิ่มขนาดโมเดลและปรับปรุงประสิทธิภาพให้ดียิ่งขึ้น เพื่อรองรับการใช้งานในรถยนต์อัจฉริยะและระบบบ้านอัจฉริยะ ซึ่งเป็นแกนหลักของยุทธศาสตร์บริษัท นักพัฒนาที่สนใจสามารถเริ่มใช้งานได้ทันทีผ่าน Hugging Face เพื่อทดสอบและนำไปประยุกต์ใช้ในโครงการจริง
(จำนวนคำประมาณ 728 คำ)
This Article is sponsored by Gnoppix AI (https://www.gnoppix.org)