Grok 4.20 ของ xAI ตามหลัง Gemini และ GPT-5.4 อย่างห่างเหิน แต่สร้างสถิติใหม่ในการหลีกเลี่ยงการประดิษฐ์ข้อมูลเท็จ
ในวงการปัญญาประดิษฐ์ที่กำลังพัฒนาอย่างรวดเร็ว โมเดล Grok 4.20 ล่าสุดจากบริษัท xAI ก่อให้เกิดความสนใจอย่างมาก หลังจากข้อมูลรั่วไหลจาก Artificial Analysis เผยผลการทดสอบประสิทธิภาพที่โดดเด่นในบางด้าน แต่ยังตามหลังคู่แข่งชั้นนำอย่าง Google Gemini 2.5 Pro และ OpenAI o3-pro อย่างชัดเจน โดยเฉพาะในเกณฑ์มาตรฐานหลักหลายประการ
ผลการทดสอบบนเกณฑ์ GPQA Diamond ซึ่งวัดความสามารถในการตอบคำถามทางวิทยาศาสตร์ขั้นสูงที่มนุษย์ผู้เชี่ยวชาญส่วนใหญ่ตอบผิด Grok 4.20 ทำได้เพียง 60.4% ซึ่งต่ำกว่า Gemini 2.5 Pro ที่ 84.0% และ o3-pro ที่ 83.3% อย่างมีนัยสำคัญ ในเกณฑ์ AIME 2025 ซึ่งเป็นการทดสอบคณิตศาสตร์ระดับแข่งขัน Grok 4.20 ได้คะแนน 88.8% ใกล้เคียงกับ Gemini 2.5 Pro (91.7%) และ o3-pro (91.6%) แต่ยังคงตามหลังเล็กน้อย
ส่วนเกณฑ์ Humanity’s Last Exam ที่ท้าทายความสามารถทั่วไปในระดับสูงสุด Grok 4.20 ทำได้เพียง 8.5% ซึ่งห่างไกลจาก Gemini 2.5 Pro (21.6%) และ o3-pro (20.3%) ขณะที่ MMLU-Pro ซึ่งครอบคลุมความรู้หลายสาขา Grok 4.20 ได้ 84.3% เทียบกับ 87.7% ของทั้งสองโมเดลคู่แข่ง นอกจากนี้ ในเกณฑ์อื่นๆ เช่น MATH-500 Grok 4.20 ทำได้ 99.2% ซึ่งดีเยี่ยม แต่ Gemini 2.5 Pro ยังนำที่ 99.5% และ o3-pro 99.4%
จากข้อมูลเหล่านี้ แสดงให้เห็นว่า Grok 4.20 ยังไม่สามารถแซงหน้าคู่แข่งในด้านความสามารถทางปัญญาทั่วไปและการแก้ปัญหาขั้นสูงได้ โดยคะแนนเฉลี่ยในเกณฑ์หลักทำให้ตามหลังอย่างห่างเหิน อย่างไรก็ตาม จุดเด่นที่แท้จริงของโมเดลนี้ปรากฏชัดในเกณฑ์ LiveBench ซึ่งออกแบบมาเพื่อตรวจจับการประดิษฐ์ข้อมูลเท็จหรือที่เรียกว่า “hallucination” โดยเฉพาะ
LiveBench เป็นชุดคำถามที่อัปเดตทุกเดือนเพื่อหลีกเลี่ยงปัญหาการปนเปื้อนข้อมูลจากการฝึกโมเดล ทำให้เป็นเครื่องมือวัดความน่าเชื่อถือที่แม่นยำ ในหมวด “No Math” ซึ่งเน้นคำถามทั่วไปที่ไม่เกี่ยวข้องกับคณิตศาสตร์ Grok 4.20 สร้างสถิติใหม่ด้วยคะแนน 74.29% ซึ่งสูงกว่าสถิติเดิมของ Gemini 2.5 Pro ที่ 70.40% และ o3-pro ที่ 68.44% คะแนนนี้บ่งชี้ถึงอัตราการหลีกเลี่ยงการประดิษฐ์ข้อมูลเท็จที่ต่ำที่สุดเท่าที่เคยมีมา สะท้อนถึงการปรับแต่งโมเดลให้เน้นความถูกต้องและความจริงใจเป็นหลัก
การที่ Grok 4.20 ทำผลงานได้ดีในด้านนี้ อาจเป็นผลจากการออกแบบโดย Elon Musk ผู้ก่อตั้ง xAI ที่มุ่งเน้นให้ AI เป็น “maximum truth-seeking AI” หรือปัญญาประดิษฐ์ที่แสวงหาความจริงสูงสุด แม้จะแลกมาด้วยประสิทธิภาพในเกณฑ์อื่นๆ ที่ลดลงก็ตาม ข้อมูลรั่วไหลนี้มาจากการเข้าถึงคอนโซลของ xAI ซึ่ง Artificial Analysis ได้รวบรวมและเผยแพร่ ทำให้เกิดการวิเคราะห์อย่างกว้างขวางในชุมชน AI
เมื่อเปรียบเทียบกับโมเดลอื่นๆ เช่น Claude 3.5 Sonnet หรือ Llama 3.1 405B ในเกณฑ์ LiveBench No Math Grok 4.20 ยังคงนำหน้าอย่างชัดเจน โดยคะแนนสูงสุดก่อนหน้านี้อยู่ที่ประมาณ 70% เท่านั้น การทดสอบนี้ใช้คำถามล่าสุดเพื่อให้แน่ใจว่าโมเดลไม่ได้ “จำ” คำตอบจากข้อมูลฝึก แต่ต้องใช้เหตุผลจริงๆ ซึ่งเป็นจุดอ่อนของโมเดลขนาดใหญ่หลายตัวที่มักประดิษฐ์ข้อมูลเพื่อให้คำตอบดูสมบูรณ์
ในบริบททางธุรกิจ นวัตกรรมเช่นนี้มีความสำคัญอย่างยิ่งสำหรับอุตสาหกรรมที่ต้องการ AI ที่น่าเชื่อถือ เช่น การแพทย์ กฎหมาย และการเงิน ซึ่งการประดิษฐ์ข้อมูลเท็จอาจนำไปสู่ความเสี่ยงร้ายแรง Grok 4.20 จึงอาจเหมาะสมกับการใช้งานที่ต้องการความแม่นยำสูง แม้จะไม่ใช่ผู้นำในด้านความสามารถทั่วไปก็ตาม
อย่างไรก็ตาม ผู้เชี่ยวชาญบางส่วนชี้ว่า การเน้นลด hallucination มากเกินไปอาจทำให้โมเดล “กลัว” ในการให้คำตอบที่ซับซ้อน ส่งผลให้คะแนนในเกณฑ์ยากๆ ลดลง แต่สถิติใหม่ใน LiveBench ยืนยันถึงความก้าวหน้าที่สำคัญของ xAI ในการสร้าง AI ที่ใกล้เคียงความจริงมากขึ้น
โดยรวมแล้ว Grok 4.20 แสดงให้เห็นถึงแนวทางการพัฒนา AI ที่แตกต่าง โดยแลกเปลี่ยน “ความฉลาด” เพื่อ “ความจริง” ซึ่งอาจกำหนดทิศทางใหม่ในอนาคตของอุตสาหกรรมปัญญาประดิษฐ์
(จำนวนคำประมาณ 720 คำ)
This Article is sponsored by Gnoppix AI (https://www.gnoppix.org)