ทีม Qwen ของ Alibaba ทำให้โมเดล AI คิดได้ลึกซึ้งยิ่งขึ้นด้วยอัลกอริทึมใหม่

ทีมวิจัย Qwen ของอาลีบาบา พัฒนาอัลกอริทึมใหม่ช่วยให้โมเดล AI คิดวิเคราะห์ลึกซึ้งยิ่งขึ้น

ทีมวิจัยจาก Qwen ของบริษัทอาลีบาบา ได้เปิดตัวอัลกอริทึมใหม่ที่ช่วยให้โมเดลภาษาขนาดใหญ่ (Large Language Models: LLMs) สามารถ “คิดลึกซึ้งยิ่งขึ้น” โดยการสร้างโซ่อรรถคดี (Chain-of-Thought: CoT) ที่ยาวนานและละเอียดมากกว่าเดิม อัลกอริทึมนี้มีชื่อว่า “Let-Talk” ซึ่งเป็นเทคนิคการ prompting แบบใหม่ที่ใช้ prompts ที่สามารถเรียนรู้ได้ (learnable prompts) เพื่อนำทางโมเดลให้ผลิตกระบวนการคิดที่ซับซ้อนและมีประสิทธิภาพสูงขึ้น

ในวงการปัญญาประดิษฐ์ (AI) การใช้ Chain-of-Thought prompting เป็นวิธีที่ได้รับความนิยมอย่างมาก เนื่องจากช่วยให้โมเดลสามารถแก้ปัญหาที่ซับซ้อน เช่น คณิตศาสตร์ การเขียนโค้ด หรือการให้เหตุผลเชิงตรรกะ โดยการแบ่งปัญหาออกเป็นขั้นตอนย่อยๆ อย่างไรก็ตาม วิธีการเดิมมักจำกัดอยู่ที่โซ่อรรถคดีสั้นๆ ซึ่งไม่เพียงพอสำหรับปัญหาที่ยากลึกซึ้ง ทีม Qwen จึงพัฒนา Let-Talk เพื่อแก้ปัญหานี้ โดยให้โมเดลสร้างโซ่อรรถคดีที่ยาวขึ้นหลายเท่าและมีคุณภาพสูงกว่า

หลักการทำงานของ Let-Talk อาศัยการฝึกโมเดลด้วยการเสริมแรง (Reinforcement Learning: RL) โดยใช้ prompts พิเศษที่เรียนรู้ได้สองประเภทหลัก ได้แก่ “Let’s think step by step” สำหรับการคิดทีละขั้นตอน และ “Let’s talk about it” สำหรับการสนทนาแลกเปลี่ยนความคิดระหว่างตัวโมเดลเอง Prompts เหล่านี้ถูกฝึกให้ปรับตัวเข้ากับลักษณะเฉพาะของแต่ละโมเดล ทำให้สามารถกระตุ้นให้โมเดลผลิตข้อความคิดที่ละเอียดและเชื่อมโยงกันอย่างเป็นธรรมชาติ

ผลการทดสอบที่ตีพิมพ์ในเอกสารวิจัยบนแพลตฟอร์ม arXiv แสดงให้เห็นถึงประสิทธิภาพที่เหนือชั้น โดย Let-Talk ช่วยให้โมเดล Qwen2.5-7B-Instruct เพิ่มคะแนนใน基准การทดสอบคณิตศาสตร์ GSM8K จาก 91.1% เป็น 94.5% และใน MATH จาก 68.5% เป็น 72.3% นอกจากนี้ ในงานเขียนโค้ดกับ LiveCodeBench คะแนนพุ่งจาก 37.9% เป็น 42.7% ซึ่งสูงกว่าโมเดลชั้นนำอื่นๆ เช่น Llama-3.1-8B ที่ 40.5% และเทียบเท่ากับโมเดลขนาดใหญ่กว่า เช่น GPT-4o-mini

สิ่งที่น่าประทับใจคือ Let-Talk ไม่ได้เพิ่มพารามิเตอร์หรือใช้ทรัพยากรคอมพิวเตอร์มากขึ้น แต่กลับใช้ inference time เพิ่มขึ้นเพียง 1.5 เท่าเพื่อสร้างโซ่อรรถคดีที่ยาวกว่า 3 เท่า ทีมวิจัยอธิบายว่า วิธีนี้ช่วยลดปัญหา “hallucination” หรือการประดิษฐ์ข้อมูลเท็จ เนื่องจากกระบวนการคิดที่ยาวนานช่วยให้โมเดลตรวจสอบตัวเองได้ดีขึ้น

ในการทดลอง ทีม Qwen ใช้โมเดลฐาน Qwen2.5 ต่างๆ ขนาด 1.5B ถึง 72B พารามิเตอร์ โดยฝึกด้วยข้อมูล RLHF (Reinforcement Learning from Human Feedback) ขนาด 10,000 ตัวอย่างจากชุดข้อมูลการให้เหตุผลคณิตศาสตร์ Prompts ที่เรียนรู้ได้ถูกฝึกแยกกันสำหรับแต่ละโมเดล เพื่อให้เหมาะสมกับพฤติกรรมเฉพาะ เช่น โมเดลขนาดเล็กต้องการ prompts ที่กระชับกว่า ในขณะที่โมเดลใหญ่ตอบสนองดีกับ prompts ที่ยืดหยุ่น

เปรียบเทียบกับวิธีการอื่นๆ เช่น Self-Consistency ที่สร้างหลายเส้นทางคิดแล้วเลือกเส้นทางที่ดีที่สุด หรือ Tree-of-Thoughts ที่สำรวจเส้นทางหลายแขนง Let-Talk โดดเด่นด้วยความเรียบง่ายและประสิทธิภาพ โดยไม่ต้องสร้างหลาย outputs แต่ใช้ prompts เดียวที่ปรับแต่งได้ ทำให้เหมาะสำหรับการใช้งานจริงในธุรกิจที่ต้องการความรวดเร็ว

ทีมวิจัยยังเปิดเผยโค้ดและโมเดลที่ฝึกแล้วบน Hugging Face ทำให้ผู้พัฒนาสามารถนำไปใช้งานหรือปรับปรุงต่อได้ นอกจากนี้ เอกสารวิจัยชี้ให้เห็นถึงศักยภาพในการขยายไปยังงานอื่นๆ เช่น การวิเคราะห์ข้อมูลทางธุรกิจ การวางแผนกลยุทธ์ หรือการตรวจสอบความเสี่ยง ซึ่งต้องการการให้เหตุผลเชิงลึก

การพัฒนานี้สะท้อนถึงกลยุทธ์ของอาลีบาบาในการแข่งขัน AI ระดับโลก โดย Qwen ถือเป็นหนึ่งในโมเดล open-source ชั้นนำที่ท้าชน DeepSeek, Llama และ Mistral ด้วยประสิทธิภาพสูงในราคาต่ำ Let-Talk จึงไม่เพียงยกระดับความสามารถของ Qwen แต่ยังเป็นนวัตกรรมที่ช่วยให้ธุรกิจต่างๆ สามารถนำ AI ไปใช้แก้ปัญหาซับซ้อนได้อย่างมีประสิทธิภาพมากขึ้น

ในยุคที่ AI กลายเป็นเครื่องมือหลักในการขับเคลื่อนธุรกิจ การมีอัลกอริทึมที่ช่วยให้โมเดลคิดลึกซึ้งยิ่งขึ้นจะเป็นข้อได้เปรียบสำคัญ โดยเฉพาะในภาคอุตสาหกรรมที่ต้องการความแม่นยำสูง เช่น การเงิน การผลิต และการดูแลสุขภาพ ทีม Qwen ได้วางรากฐานให้กับอนาคตของ AI ที่ชาญฉลาดและน่าเชื่อถือยิ่งขึ้น

(จำนวนคำประมาณ 720 คำ)

This Article is sponsored by Gnoppix AI (https://www.gnoppix.org)