การเพิ่มจำนวนเอเจนต์ AI มากขึ้นไม่ใช่ทางเลือกที่ดีเสมอไป ผลการศึกษาล่าสุดจาก Google และ MIT ค้นพบ
ในยุคที่ระบบเอเจนต์ปัญญาประดิษฐ์ (AI Agents) กำลังได้รับความนิยมอย่างสูง โดยเฉพาะระบบหลายเอเจนต์ (Multi-Agent Systems) ที่ช่วยแก้ปัญหาซับซ้อนผ่านการทำงานร่วมกัน ผู้เชี่ยวชาญหลายรายเชื่อว่าการเพิ่มจำนวนเอเจนต์จะนำไปสู่ประสิทธิภาพที่ดีขึ้น อย่างไรก็ตาม ผลการศึกษาล่าสุดจากนักวิจัยของ Google DeepMind และสถาบันเทคโนโลยีแมสซาชูเซตส์ (MIT) ชี้ให้เห็นว่าแนวคิดดังกล่าวอาจไม่ถูกต้องเสมอไป การเพิ่มเอเจนต์มากเกินไปอาจทำให้ประสิทธิภาพลดลงแทน
งานวิจัยนี้ตีพิมพ์ในชื่อ “Fewer Agents Are Better: Counterintuitive Scaling Laws for Multi-Agent Systems” โดยมีนักวิจัยหลัก ได้แก่ Anton Bakhtin และ Yuhuai Wu จาก Google DeepMind รวมถึง Jacob Andreas จาก MIT นักวิจัยได้ทดสอบระบบเอเจนต์ที่ทำงานร่วมกัน โดยแต่ละเอเจนต์ใช้โมเดลภาษาขนาดใหญ่ (Large Language Model: LLM) เช่น GPT-4 หรือ Llama-3.1 ในการสื่อสารผ่านกระดานดำส่วนกลาง (Shared Blackboard) ซึ่งเป็นช่องทางสำหรับการแลกเปลี่ยนข้อความระหว่างเอเจนต์ โดยจำกัดจำนวนข้อความสูงสุดต่อรอบเพื่อควบคุมค่าใช้จ่ายในการสื่อสาร
วิธีการทดสอบและงานที่ใช้ประเมิน
นักวิจัยเลือกทดสอบในสี่งานที่แตกต่างกัน เพื่อวัดผลกระทบของจำนวนเอเจนต์ต่อประสิทธิภาพ โดยวัดจากอัตราความสำเร็จ (Success Rate) ดังนี้
-
Last Letter Concatenation (LLC): งานง่ายที่ให้เอเจนต์นำตัวอักษรสุดท้ายของคำศัพท์แต่ละคำมารวมกัน เช่น จากคำว่า “apple, banana, cherry” จะได้ “aec” ผลการทดสอบพบว่าประสิทธิภาพเพิ่มขึ้นตามจำนวนเอเจนต์ โดยเอเจนต์ 32 ตัวให้ผลดีที่สุด เนื่องจากงานนี้ต้องการการแบ่งงานง่ายๆ และการรวมผลลัพธ์ที่ไม่ซับซ้อน
-
Tower of Hanoi: งานปริศนาคลาสสิกที่ต้องย้ายจานเรียงลำดับจากเสา A ไปเสา C โดยใช้เสอ B เป็นตัวกลาง โดยจำกัดการย้ายทีละจานและไม่ให้จานใหญ่ทับจานเล็ก ผลปรากฏว่าประสิทธิภาพสูงสุดอยู่ที่เอเจนต์ 1-2 ตัว และลดลงเมื่อเพิ่มจำนวน เนื่องจากปัญหาการประสานงานที่เพิ่มขึ้น
-
TriviaQA: งานถาม-ตอบความรู้ทั่วไปจากชุดข้อมูล TriviaQA ซึ่งต้องการการรวบรวมและสังเคราะห์ข้อมูลจากหลายแหล่ง ประสิทธิภาพดีที่สุดที่เอเจนต์ 8 ตัว และลดลงเมื่อเกินกว่านั้น เนื่องจากเอเจนต์จำนวนมากทำให้เกิดการแทรกแซงซึ่งกันและกัน
-
HumanEval: งานเขียนโค้ดจากชุดข้อมูล OpenAI HumanEval ที่ทดสอบการแก้ปัญหาโปรแกรมมิ่ง ประสิทธิภาพสูงสุดอยู่ที่เอเจนต์ 1 ตัว และลดลงอย่างชัดเจนเมื่อเพิ่มจำนวน สะท้อนถึงความซับซ้อนสูงที่ไม่เหมาะกับการทำงานกลุ่มขนาดใหญ่
กฎเกณฑ์การขยายขนาด (Scaling Laws) ที่ค้นพบ
ผลการทดสอบเผยให้เห็น “กฎเกณฑ์การขยายขนาดสำหรับระบบหลายเอเจนต์” คล้ายกับกฎเกณฑ์ของโมเดลภาษาขนาดใหญ่ โดยประสิทธิภาพจะเพิ่มขึ้นในช่วงแรกเมื่อเพิ่มจำนวนเอเจนต์ แต่จะถึงจุดสูงสุด (Peak Performance) แล้วลดลง (Performance Cliff) ขึ้นอยู่กับความซับซ้อนของงาน
- สำหรับงานง่าย เช่น LLC จุดสูงสุดอยู่ที่จำนวนเอเจนต์สูง (เช่น 32 ตัว)
- สำหรับงานซับซ้อน เช่น HumanEval จุดสูงสุดอยู่ที่ 1 ตัว
- งานระดับกลาง เช่น TriviaQA สูงสุดที่ 8 ตัว
นักวิจัยอธิบายปรากฏการณ์นี้ว่าเกิดจาก “ต้นทุนการประสานงาน” (Coordination Overhead) และ “โศกนาฏกรรมของส่วนรวม” (Tragedy of the Commons) โดยเอเจนต์จำนวนมากแข่งขันแย่งชิงพื้นที่สื่อสารบนกระดานดำ ทำให้เกิดข้อความที่ไม่เกี่ยวข้องหรือขัดแย้งกัน ส่งผลให้ระบบโดยรวมทำงานได้แย่ลง นอกจากนี้ ยังพบว่าการเพิ่มงบประมาณข้อความ (Message Budget) สามารถชดเชยปัญหาบางส่วนได้ แต่ไม่สามารถแก้ไขได้ทั้งหมด
นัยยะทางธุรกิจและการออกแบบระบบ
ผลการศึกษานี้มีคุณค่าต่อผู้พัฒนาระบบ AI ในภาคธุรกิจ โดยเฉพาะการนำระบบหลายเอเจนต์ไปใช้ในงานจริง เช่น การวิเคราะห์ข้อมูล การตัดสินใจเชิงกลยุทธ์ หรือการพัฒนาซอฟต์แวร์ นักวิจัยแนะนำให้พิจารณาความซับซ้อนของงานก่อนกำหนดจำนวนเอเจนต์ เพื่อหลีกเลี่ยงการสิ้นเปลืองทรัพยากรโดยไม่จำเป็น
ตัวอย่างเช่น ในงานเขียนโค้ดหรือแก้ปริศนาซับซ้อน เอเจนต์เดี่ยวหรือคู่ทำงานได้ดีกว่า ในขณะที่งานรวบรวมข้อมูลง่ายๆ สามารถใช้เอเจนต์จำนวนมากเพื่อเร่งความเร็ว นอกจากนี้ ยังชี้ให้เห็นว่าการปรับปรุงการสื่อสาร เช่น การใช้โครงสร้างข้อความที่ชัดเจนหรือกลไกการลงคะแนน (Voting Mechanisms) สามารถช่วยเพิ่มประสิทธิภาพได้
สรุปและแนวทางต่อไป
การศึกษานี้ท้าทายความเชื่อเดิมที่ว่ายิ่งมีเอเจนต์มากยิ่งดี โดยพิสูจน์ว่าจำนวนเอเจนต์ที่เหมาะสมขึ้นอยู่กับลักษณะงาน นักวิจัยวางแผนทดสอบในงานที่ซับซ้อนยิ่งขึ้น เช่น WebArena หรือ GAIA และสำรวจกลไกการสื่อสารใหม่ๆ เพื่อพัฒนาระบบหลายเอเจนต์ให้มีประสิทธิภาพสูงสุด ผลงานนี้ตีพิมพ์แบบ Preprint บน arXiv และเปิดโค้ดทดสอบสาธารณะสำหรับนักวิจัยรายอื่น
องค์กรธุรกิจที่ลงทุนใน AI ควรนำผลการศึกษานี้ไปปรับใช้ เพื่อออกแบบระบบที่ประหยัดต้นทุนและมีประสิทธิผลสูง โดยมุ่งเน้นการวิเคราะห์งานก่อนนำไปสู่การใช้งานจริง
(จำนวนคำประมาณ 728 คำ)
This Article is sponsored by Gnoppix AI (https://www.gnoppix.org)