GPT-5.2 ขึ้นครองบัลลังก์เหนือ Gemini 3 ของ Google ในสนามประเมินผล AI เพียง 4 สัปดาห์หลัง GPT-5.1
OpenAI ได้เปิดตัวโมเดล GPT-5.2 ผ่านทาง API ซึ่งสามารถขึ้นแท่นอันดับหนึ่งใน leaderboard LMSYS Chatbot Arena โดยเอาชนะ Gemini 3 ของ Google ได้อย่างหวุดหวิด เพียง 4 สัปดาห์หลังจากการเปิดตัว GPT-5.1 ซึ่งแสดงให้เห็นถึงความรวดเร็วในการพัฒนาและปรับปรุงโมเดลปัญญาประดิษฐ์ (AI) ของบริษัท
LMSYS Chatbot Arena เป็นแพลตฟอร์มประเมินผลโมเดลภาษาขนาดใหญ่ (LLM) ที่ได้รับความนิยม โดยอาศัยการทดสอบแบบ blind test ซึ่งผู้ใช้จะเปรียบเทียบการตอบสนองของโมเดลต่าง ๆ โดยไม่ทราบชื่อโมเดล เพื่อให้ได้คะแนน ELO ที่เป็นกลางและสะท้อนประสิทธิภาพจริงในการใช้งาน GPT-5.2 ทำคะแนน ELO สูงสุดที่ 1,377 ขณะที่ Gemini 3 อยู่ที่ 1,373 และ GPT-5.1 อยู่ที่ 1,366 คะแนนนี้มาจากการทดสอบกว่า 3 ล้านครั้ง ซึ่งยืนยันถึงความเหนือชั้นของ GPT-5.2 ในด้านการสนทนาและงานทั่วไป
การขึ้นสู่อันดับหนึ่งของ GPT-5.2 เกิดขึ้นอย่างรวดเร็ว หลังจาก Gemini 3 เพิ่งแซง GPT-5.1 ไปเมื่อสัปดาห์ที่แล้ว โดย Gemini 3 เปิดตัวเมื่อวันที่ 12 ธันวาคม 2024 และครองอันดับหนึ่งได้เพียงไม่กี่วันก่อนที่ GPT-5.2 จะแซงกลับ นับเป็นการแข่งขันที่ดุเดือดในวงการ AI benchmark ซึ่ง LMSYS ถือเป็นมาตรฐานสำคัญสำหรับการวัดประสิทธิภาพโมเดล
รายละเอียดคะแนนประเมินผลใน LMSYS Chatbot Arena
| อันดับ | โมเดล | คะแนน ELO | การเปลี่ยนแปลง |
|---|---|---|---|
| 1 | GPT-5.2 (gpt-5.2-turbo) | 1,377 | +11 |
| 2 | Gemini 3 (gemini-3-pro) | 1,373 | - |
| 3 | GPT-5.1 (gpt-5.1-turbo) | 1,366 | -7 |
| 4 | Claude 3.7 Sonnet | 1,362 | - |
| 5 | Llama 4 | 1,358 | - |
ตารางนี้แสดงให้เห็นถึงความได้เปรียบเพียงเล็กน้อยของ GPT-5.2 ซึ่งคะแนน ELO เพิ่มขึ้น 11 คะแนนจากเวอร์ชันก่อนหน้า ขณะที่ GPT-5.1 ร่วงลง 7 คะแนน การทดสอบใน Arena นี้ครอบคลุมหลากหลายสถานการณ์ เช่น การเขียนโค้ด การแก้ปัญหาคณิตศาสตร์ และการสนทนาทั่วไป โดยผู้ใช้จริงกว่า 100,000 รายมีส่วนร่วมในการโหวต
การพัฒนาอย่างรวดเร็วของ OpenAI
OpenAI แสดงให้เห็นถึงกลยุทธ์การอัปเดตโมเดลอย่างต่อเนื่อง GPT-5.1 เปิดตัวเมื่อปลายเดือนพฤศจิกายน 2024 และ GPT-5.2 ตามมาเพียง 4 สัปดาห์ ซึ่งเป็นไปตามแนวโน้มของบริษัทในการปล่อยเวอร์ชันใหม่เพื่อรักษาความเป็นผู้นำในตลาด โมเดลทั้งสองรุ่นนี้มีให้ใช้งานผ่าน API ของ OpenAI ในราคาเท่ากันคือ 3.75 ดอลลาร์ต่อล้านโทเค็น input และ 15 ดอลลาร์ต่อล้านโทเค็น output โดย GPT-5.2 ยังคงรักษาขีดจำกัด context window ที่ 128,000 โทเค็น
ผู้เชี่ยวชาญในวงการมองว่าการปรับปรุงนี้มาจากการฝึกโมเดลด้วยข้อมูลใหม่และเทคนิคการ fine-tuning ที่ดีขึ้น ซึ่งช่วยยกระดับประสิทธิภาพโดยไม่ต้องเพิ่มขนาดโมเดลอย่างมีนัยสำคัญ นอกจากนี้ OpenAI ยังคงพัฒนา o1-pro ซึ่งเป็นโมเดล reasoning ที่มีราคาสูงกว่า แต่ GPT-5.2 เน้นที่ความสมดุลระหว่างประสิทธิภาพและต้นทุน
การตอบโต้จาก Google และคู่แข่งอื่น ๆ
Google เพิ่งเปิดตัว Gemini 3 ซึ่งเป็นโมเดล multimodal ที่รองรับการประมวลผลภาพ วิดีโอ และเสียง โดยมี context window ขนาดใหญ่ถึง 2 ล้านโทเค็น Gemini 3 ทำผลงานได้ดีใน benchmarks อื่น ๆ เช่น GPQA และ AIME แต่ใน LMSYS Arena ซึ่งเน้นการสนทนา GPT-5.2 ยังคงเหนือกว่า คะแนนของ Gemini 3 อยู่ที่ 1,373 ELO จากการทดสอบกว่า 200,000 ครั้ง
คู่แข่งอื่น ๆ เช่น Anthropic กับ Claude 3.7 Sonnet และ Meta กับ Llama 4 ก็ติดตามอย่างใกล้ชิด โดย Claude 3.7 ทำคะแนน 1,362 ELO และ Llama 4 ที่ 1,358 การแข่งขันนี้กระตุ้นให้บริษัทต่าง ๆ เร่งพัฒนาโมเดลใหม่ ๆ เพื่อชิงส่วนแบ่งตลาด API และบริการ cloud AI
ความสำคัญของ LMSYS Chatbot Arena
LMSYS Chatbot Arena ไม่ใช่เพียง leaderboard ธรรมดา แต่เป็นระบบ Elo rating ที่พัฒนาจากการแข่งขันหมากรุก โดยปรับใช้กับ LLM ผ่านการ pairwise comparison ผู้ใช้เลือกคำตอบที่ดีกว่าจากคู่โมเดลที่สุ่มมา โดยไม่เห็นชื่อโมเดล ทำให้คะแนนสะท้อนความพึงพอใจของผู้ใช้จริง LMSYS ยังมีเวอร์ชัน Arena-Hard สำหรับงานยาก และเวอร์ชัน MT-Bench สำหรับการแปลภาษา ซึ่งช่วยให้การประเมินครอบคลุมมากขึ้น
อย่างไรก็ตาม ผู้เชี่ยวชาญเตือนว่าคะแนน ELO อาจเปลี่ยนแปลงได้รวดเร็ว เนื่องจากขึ้นอยู่กับปริมาณการทดสอบ หาก Gemini 3 ได้รับการใช้งานมากขึ้น คะแนนอาจพลิกผันได้ นอกจากนี้ benchmarks อื่น ๆ เช่น MMLU หรือ HumanEval อาจให้ผลต่างกัน
ผลกระทบต่ออุตสาหกรรม AI
การขึ้นลงของอันดับใน LMSYS สะท้อนถึงสงครามราคาและประสิทธิภาพในตลาด AI frontier models บริษัทอย่าง OpenAI, Google, Anthropic และ Meta ต่างลงทุนมหาศาลในการฝึกโมเดล โดยคาดว่าต้นทุนต่อโมเดลอาจสูงถึงพันล้านดอลลาร์ การปล่อยอัปเดตบ่อยครั้งช่วยรักษาลูกค้าในระบบนิเวศ เช่น ChatGPT Plus และ API integrations
สำหรับนักพัฒนาและธุรกิจ การเลือกโมเดลต้องพิจารณาทั้งคะแนน benchmark ต้นทุน และความสามารถเฉพาะด้าน GPT-5.2 เหมาะสำหรับงานที่ต้องการความเร็วและความแม่นยำสูง ในขณะที่ Gemini 3 โดดเด่นใน multimodal tasks การแข่งขันนี้จะผลักดันนวัตกรรมให้ก้าวหน้าต่อไป
นับเป็นก้าวสำคัญที่แสดงให้เห็นว่า OpenAI ยังคงครองความเป็นผู้นำ ท่ามกลางการไล่ล่าจากยักษ์ใหญ่เทคโนโลยีอื่น ๆ
(จำนวนคำประมาณ 750 คำ)
This Article is sponsored by Gnoppix AI (https://www.gnoppix.org)