แพลตฟอร์มจัดอันดับ llm ยอดนิยมมีความเปราะบางทางสถิติ การศึกษาล่าสุดเตือน

แพลตฟอร์มจัดอันดับโมเดลภาษาขนาดใหญ่ยอดนิยมมีความเปราะบางทางสถิติ งานวิจัยใหม่เตือนภัย

แพลตฟอร์มจัดอันดับโมเดลภาษาขนาดใหญ่ (Large Language Models: LLM) ที่ได้รับความนิยม เช่น LMSYS Chatbot Arena และ Hugging Face Open LLM Leaderboard มีความเปราะบางทางสถิติสูงกว่าที่ผู้ใช้ส่วนใหญ่ตระหนัก ตามงานวิจัยล่าสุดจากนักวิจัยของ Stanford CRFM (Center for Research on Foundation Models) ซึ่งเผยแพร่เมื่อเร็วๆ นี้ งานวิจัยดังกล่าวชี้ให้เห็นว่าการจัดอันดับเหล่านี้มัก overstating ความแน่นอน โดยการเปลี่ยนแปลงเล็กน้อยในข้อมูลการประเมินสามารถพลิกอันดับของโมเดลชั้นนำได้อย่างสิ้นเชิง

พื้นฐานของแพลตฟอร์มจัดอันดับ LLM

LMSYS Chatbot Arena เป็นแพลตฟอร์มที่ใช้ระบบ Elo rating ซึ่งคล้ายกับระบบคะแนนในเกมหมากรุก โดยผู้ใช้เปรียบเทียบการตอบสนองของโมเดลสองตัวแบบสุ่ม แล้วโหวตเลือกตัวที่ดีกว่า คะแนน Elo จะปรับปรุงตามผลโหวตเหล่านี้ ทำให้เกิด leaderboard ที่อัปเดตแบบเรียลไทม์ ในขณะที่ Hugging Face Open LLM Leaderboard ใช้ชุดข้อมูลประเมินมาตรฐาน เช่น MT-Bench ซึ่งวัดประสิทธิภาพในงานต่างๆ เช่น การตอบคำถามทั่วไป การใช้เหตุผล และการเขียนโค้ด

ทั้งสองแพลตฟอร์มมีอิทธิพลสูงในวงการ AI โดยนักพัฒนาและบริษัทต่างๆ มักใช้เป็นเกณฑ์ในการเลือกโมเดล อย่างไรก็ตาม งานวิจัยของ Stanford CRFM เตือนว่าความเชื่อมั่นในอันดับเหล่านี้มีปัญหาเชิงสถิติ โดยเฉพาะอย่างยิ่งเมื่อจำนวนการประเมินมีจำกัด

การวิเคราะห์ทางสถิติเผยจุดอ่อน

นักวิจัยนำโดย Percy Liang จาก Stanford ใช้เทคนิค bootstrapping เพื่อประเมินช่วงความเชื่อมั่น (confidence intervals: CIs) ของคะแนน Elo จาก Chatbot Arena ข้อมูลที่ใช้มาจากการโหวตกว่า 2 ล้านครั้งระหว่างโมเดลยอดนิยม เช่น GPT-4o, Claude 3.5 Sonnet, Llama 3.1 405B และ Gemini 1.5 Pro

ผลการวิเคราะห์พบว่า:

  • ช่วงความเชื่อมั่นกว้างมาก: สำหรับโมเดลชั้นนำ คะแนน Elo มี 95% CI กว้างถึง 100-200 คะแนน ซึ่งเท่ากับ 5-10% ของช่วงคะแนนทั้งหมด สิ่งนี้หมายความว่าอันดับที่ 1 อาจกลายเป็นอันดับ 3 ได้อย่างง่ายดาย หากสุ่มข้อมูลใหม่
  • การเปรียบเทียบแบบคู่ (pairwise): GPT-4o และ Claude 3.5 Sonnet มีคะแนน Elo ใกล้เคียงกันมาก (ต่างกันเพียง 12 คะแนน) แต่ CI แสดงว่าทั้งสองไม่มีความแตกต่างทางสถิติอย่างมีนัยสำคัญ (p-value > 0.05) เช่นเดียวกับ Llama 3.1 405B ที่แม้จะมีคะแนนต่ำกว่า แต่ CI ทับซ้อนกับโมเดลอื่นๆ
  • ความเปราะบางจากข้อมูลน้อย: ใน Chatbot Arena การเปลี่ยนแปลงอันดับเกิดจากโหวตเพียงไม่กี่พันครั้ง หากลบโหวตสุ่ม 10% อันดับของโมเดลชั้นนำจะสลับกันบ่อยครั้ง

สำหรับ MT-Bench บน Hugging Face Leaderboard นักวิจัยทดสอบโดยปรับ prompt เล็กน้อยหรือเปลี่ยนชุดข้อมูลประเมิน พบว่าอันดับพลิกผัน เช่น โมเดลที่เคยนำอาจตกลงไปหลายตำแหน่ง เนื่องจาก MT-Bench ใช้การประเมินเพียง 80 คำถามต่อโมเดล ซึ่งไม่เพียงพอสำหรับความแม่นยำทางสถิติ

ตัวอย่างความไม่แน่นอนใน leaderboard ปัจจุบัน

ณ วันที่วิเคราะห์ (สิงหาคม 2567) Chatbot Arena แสดงอันดับดังนี้:

  1. GPT-4o (คะแนน Elo ~1280)
  2. Claude 3.5 Sonnet (~1268)
  3. Llama 3.1 405B (~1250)

แต่เมื่อใช้ bootstrapping 95% CI ของ GPT-4o คือ 1270-1290, Claude 3.5 Sonnet คือ 1258-1278 ซึ่งทับซ้อนกัน ทำให้ไม่สามารถสรุปได้ว่าโมเดลใดเหนือกว่าอย่างแท้จริง นักวิจัยชี้ว่าผู้ใช้มักตีความ leaderboard เหล่านี้เป็น “อันดับแน่นอน” โดยไม่คำนึงถึงความไม่แน่นอนนี้ ซึ่งอาจนำไปสู่การตัดสินใจที่ผิดพลาดในธุรกิจ เช่น การเลือกโมเดลสำหรับ deployment

นอกจากนี้ งานวิจัยยังวิเคราะห์แนวโน้มระยะยาว พบว่าคะแนน Elo เพิ่มขึ้นอย่างต่อเนื่อง แต่ความแตกต่างระหว่างโมเดลชั้นนำแคบลง สะท้อนถึงการแข่งขันที่ดุเดือดและการปรับปรุงโมเดลอย่างรวดเร็ว

ข้อเสนอแนะเพื่อปรับปรุง

เพื่อแก้ไขปัญหานี้ Stanford CRFM เสนอแนวทางดังต่อไปนี้:

  • ใช้ bootstrapping เป็นมาตรฐาน: แพลตฟอร์มควรแสดง 95% CI สำหรับทุกคะแนน เพื่อให้ผู้ใช้เห็นภาพความไม่แน่นอน
  • เพิ่มจำนวนการประเมิน: สำหรับ benchmarks อย่าง MT-Bench ควรขยายเป็นหลายพัน prompt เพื่อลด variance
  • การทดสอบแบบ pairwise มากขึ้น: ใน Chatbot Arena ควรเน้นการโหวตคู่ระหว่างโมเดลชั้นนำเพื่อเพิ่มความแม่นยำ
  • หลีกเลี่ยงการตีความแบบ absolute: แนะนำให้ใช้ statistical tests เช่น t-test หรือ Bayesian methods เพื่อเปรียบเทียบโมเดลอย่างถูกต้อง

นักวิจัยย้ำว่า LLM สมัยใหม่มีความสามารถใกล้เคียงกันมาก การจัดอันดับแบบดั้งเดิมไม่เหมาะสมอีกต่อไป ผู้พัฒนาควรทดสอบโมเดลใน use case เฉพาะของตนเอง แทนการพึ่ง leaderboard เพียงอย่างเดียว

บทสรุปสำหรับผู้ประกอบการและนักพัฒนา

ในยุคที่ LLM เป็นหัวใจของธุรกิจดิจิทัล ความเข้าใจทางสถิติจึงสำคัญยิ่ง แพลตฟอร์มจัดอันดับเหล่านี้มีประโยชน์ในการคัดกรองโมเดลเบื้องต้น แต่ไม่ควรใช้เป็นเกณฑ์ตัดสินขั้นสุดท้าย งานวิจัยนี้เป็นเครื่องเตือนใจให้อุตสาหกรรม AI ยกระดับมาตรฐานทางสถิติ เพื่อความน่าเชื่อถือที่สูงขึ้น

(จำนวนคำประมาณ 720 คำ)

This Article is sponsored by Gnoppix AI (https://www.gnoppix.org)