เบนช์มาร์คใหม่ทดสอบ 5 โมเดล ai ให้แข่งขันกันในฐานะเอเจนต์โซเชียลมีเดียอัตโนมัติบน x

เกณฑ์ใหม่ทดสอบห้าโมเดลปัญญาประดิษฐ์แข่งขันกันในฐานะเอเจนต์โซเชียลมีเดียอัตโนมัติบนแพลตฟอร์ม X

นักวิจัยได้พัฒนาเกณฑ์ประเมินใหม่ชื่อ XAgentArena เพื่อทดสอบความสามารถของโมเดลภาษาขนาดใหญ่ (Large Language Models: LLMs) ในบทบาทเอเจนต์อัตโนมัติบนแพลตฟอร์มโซเชียลมีเดีย X (เดิมชื่อ Twitter) โดยให้ห้าโมเดลชั้นนำแข่งขันกันในการจัดการบัญชีผู้ใช้อย่างอิสระ เกณฑ์นี้มุ่งวัดประสิทธิภาพในสถานการณ์จริง โดยเน้นการโต้ตอบกับผู้ใช้จริง การสร้างเนื้อหา และการเพิ่มจำนวนผู้ติดตาม ซึ่งเป็นความท้าทายที่แตกต่างจากเกณฑ์ประเมินแบบจำลองทั่วไป

โมเดลที่เข้าร่วมการทดสอบ

เกณฑ์ XAgentArena นำห้าโมเดลปัญญาประดิษฐ์ชั้นนำมาทดสอบ ได้แก่:

  • GPT-4o จาก OpenAI
  • Claude 3.5 Sonnet จาก Anthropic
  • Gemini 1.5 Pro จาก Google
  • Llama 3.1 405B จาก Meta
  • Qwen2.5 72B จาก Alibaba

โมเดลเหล่านี้ถูกติดตั้งในระบบเอเจนต์ที่สามารถเข้าถึง API ของ X เพื่อโพสต์ข้อความ ตอบรีพลาย และโต้ตอบกับเนื้อหาอื่นๆ ได้อย่างสมบูรณ์ โดยแต่ละเอเจนต์เริ่มต้นด้วยบัญชีใหม่ที่มีผู้ติดตามศูนย์ และได้รับคำสั่งหลักคือ “เพิ่มจำนวนผู้ติดตามให้มากที่สุดภายใน 24 ชั่วโมง”

การตั้งค่าและกระบวนการทดสอบ

การทดสอบดำเนินการเป็นเวลา 24 ชั่วโมง โดยเอเจนต์แต่ละตัวทำงานในลูปต่อเนื่อง ดังนี้:

  1. สแกนและค้นหาเนื้อหา: เอเจนต์สแกนโพสต์ยอดนิยม คำค้นหาที่เกี่ยวข้อง และการเมนชันที่อาจเกิดขึ้น
  2. สร้างและโพสต์เนื้อหา: สร้างโพสต์ต้นฉบับที่ดึงดูดความสนใจ โดยพิจารณาปัจจัยเช่น แฮชแท็ก ยอดวิว และกระแสปัจจุบัน
  3. โต้ตอบกับผู้ใช้: ตอบรีพลายต่อเมนชัน โพสต์ที่เกี่ยวข้อง หรือคอมเมนต์ เพื่อสร้างการมีส่วนร่วม
  4. ประเมินผลและปรับกลยุทธ์: ใช้ข้อมูลเรียลไทม์ เช่น จำนวนไลค์ รีโพสต์ และผู้ติดตามใหม่ เพื่อปรับพฤติกรรม

เกณฑ์นี้ใช้เมตริกหลักสี่ประการในการวัดผล:

  • จำนวนผู้ติดตามสุทธิ (Net Followers): ผู้ติดตามใหม่ลบผู้เลิกติดตาม
  • ยอดไลค์ต่อโพสต์ (Likes per Post): ค่าเฉลี่ยไลค์ต่อโพสต์ทั้งหมด
  • อัตราการตอบรีพลาย (Reply Rate): สัดส่วนรีพลายที่ประสบความสำเร็จต่อโอกาสทั้งหมด
  • คะแนนรวม (Overall Score): คำนวณจากเมตริกทั้งสาม โดยให้น้ำหนักตามความสำคัญ

ผลการทดสอบและการวิเคราะห์

ผลปรากฏว่า Llama 3.1 405B จาก Meta ครองอันดับหนึ่งในทุกเมตริก โดยเพิ่มผู้ติดตามสุทธิได้ 147 คน ซึ่งมากที่สุด รองลงมาคือ Qwen2.5 72B (112 คน) และ Claude 3.5 Sonnet (92 คน) ในขณะที่ GPT-4o และ Gemini 1.5 Pro ได้รับผู้ติดตามน้อยกว่า (76 และ 62 คนตามลำดับ)

โมเดล ผู้ติดตามสุทธิ ไลค์/โพสต์ อัตราการตอบรีพลาย (%) คะแนนรวม
Llama 3.1 405B 147 12.4 78 92.5
Qwen2.5 72B 112 10.2 72 85.3
Claude 3.5 Sonnet 92 9.8 69 81.2
GPT-4o 76 8.5 65 76.8
Gemini 1.5 Pro 62 7.2 61 72.4

Llama 3.1 โดดเด่นด้วยการโพสต์เนื้อหาที่หลากหลาย เช่น เมม มุกตลก และการวิเคราะห์กระแส ซึ่งช่วยดึงดูดผู้ใช้จริงได้ดี ในทางตรงกันข้าม GPT-4o มักสร้างเนื้อหาที่ยาวและจริงจังเกินไป ทำให้อัตราการมีส่วนร่วมต่ำกว่า นอกจากนี้ เอเจนต์บางตัวเผชิญปัญหาการถูกแบนชั่วคราวจาก X เนื่องจากการโพสต์ถี่เกินไปหรือเนื้อหาที่ถูกมองว่าเป็นสแปม

ข้อค้นพบสำคัญและนัยยะทางธุรกิจ

เกณฑ์ XAgentArena เผยให้เห็นจุดแข็งของโมเดลโอเพ่นซอร์สอย่าง Llama 3.1 ที่ปรับแต่งได้ง่ายและมีประสิทธิภาพสูงในงานเรียลไทม์ ในขณะที่โมเดลเชิงพาณิชย์อย่าง GPT-4o อาจเหมาะกับงานที่ต้องการความปลอดภัยมากกว่า Claude 3.5 Sonnet เก่งในการโต้ตอบเชิงลึก แต่ขาดความรวดเร็วในการสร้างเนื้อหา viral

สำหรับธุรกิจ นี่คือโอกาสในการใช้เอเจนต์ AI จัดการโซเชียลมีเดียอัตโนมัติ ลดต้นทุน人力 และเพิ่ม engagement อย่างไรก็ตาม ต้องระวังประเด็นจริยธรรม เช่น การหลอกลวงผู้ใช้ให้เชื่อว่าเป็นมนุษย์ และกฎระเบียบของแพลตฟอร์ม นักวิจัยแนะนำให้พัฒนาเกณฑ์นี้ต่อยอด เช่น เพิ่มระยะเวลาทดสอบหรือเมตริกด้านคุณภาพเนื้อหา

การทดสอบนี้ตีพิมพ์ใน arXiv และโค้ดเกณฑ์เปิดให้ใช้งานฟรี สะท้อนแนวโน้มที่ AI จะกลายเป็นผู้ช่วยหลักใน marketing ดิจิทัล โดย Llama 3.1 กำลังนำหน้าในสนามแข่งขันนี้

(จำนวนคำ: 728)

This Article is sponsored by Gnoppix AI (https://www.gnoppix.org)