การรั่วไหลจาก Anthropic เผยโมเดลใหม่ "Claude Mythos" ที่มี "คะแนนทดสอบสูงกว่าอย่างมาก" กว่าทุกโมเดลก่อนหน้า

การรั่วไหลข้อมูลจากแอนโทรปิกเผยโมเดลใหม่ Claude Mythos ที่ทำคะแนนทดสอบสูงกว่าทุกโมเดลก่อนหน้าอย่างก้าวกระโดด

ในวงการปัญญาประดิษฐ์ (AI) ที่มีการแข่งขันดุเดือด การรั่วไหลของเอกสารภายในจากบริษัทแอนโทรปิก (Anthropic) ได้กลายเป็นประเด็นร้อนที่สร้างความฮือฮาให้กับนักพัฒนาและนักวิจัยทั่วโลก เอกสารดังกล่าวเผยผลการทดสอบเบื้องต้นของโมเดลภาษาขนาดใหญ่รุ่นใหม่ชื่อ “Claude Mythos” ซึ่งแสดงให้เห็นถึงประสิทธิภาพที่เหนือชั้นกว่าทุกโมเดลที่เคยเปิดตัวมาก่อนหน้านี้ โดยเฉพาะในด้านคะแนนทดสอบมาตรฐานต่างๆ ที่สูงอย่างน่าทึ่ง

การรั่วไหลนี้เกิดขึ้นผ่านช่องทางโซเชียลมีเดีย โดยผู้ใช้รายหนึ่งได้โพสต์ภาพถ่ายหน้าจอจากเอกสารภายในของแอนโทรปิก ซึ่งประกอบด้วยตารางผลการประเมินประสิทธิภาพ (Evaluation Results) ของโมเดล Claude Mythos เมื่อเปรียบเทียบกับโมเดลอื่นๆ เช่น Claude 3.5 Sonnet, Claude 3 Opus, GPT-4o ของ OpenAI และ Gemini 1.5 Pro ของ Google ตารางดังกล่าวแสดงตัวเลขคะแนนที่ชัดเจน โดย Claude Mythos ครองอันดับหนึ่งในทุกหมวดหมู่ทดสอบหลัก สร้างความประหลาดใจให้กับชุมชน AI เนื่องจากคะแนนที่สูงกว่าค่าเฉลี่ยของโมเดลชั้นนำเดิมถึงระดับ 5-10% หรือมากกว่านั้นในบางกรณี

หนึ่งในทดสอบที่โดดเด่นคือ MMLU (Massive Multitask Language Understanding) ซึ่งเป็นชุดคำถามทดสอบความเข้าใจภาษาและความรู้ทั่วไปในหลากหลายสาขา Claude Mythos ทำคะแนนได้ถึง 96.4% ซึ่งสูงกว่า Claude 3.5 Sonnet ที่ 88.7%, Claude 3 Opus ที่ 86.8%, GPT-4o ที่ 88.7% และ Gemini 1.5 Pro ที่ 85.9% คะแนนนี้บ่งชี้ถึงความสามารถในการจัดการงานภาษาที่ซับซ้อนได้อย่างยอดเยี่ยม โดยเฉพาะในบริบทที่ต้องการความแม่นยำสูง

นอกจากนี้ ในทดสอบ GPQA (Graduate-Level Google-Proof Q&A Benchmark) ซึ่งมุ่งวัดความสามารถในการตอบคำถามระดับบัณฑิตศึกษาที่ไม่อาจค้นหาคำตอบได้ง่ายจากอินเทอร์เน็ต Claude Mythos ทำได้ 92.1% สูงกว่าโมเดลอื่นๆ อย่างชัดเจน เช่น Claude 3.5 Sonnet อยู่ที่ 59.4%, Claude 3 Opus 50.4%, GPT-4o 53.6% และ Gemini 1.5 Pro 46.2% ผลลัพธ์นี้แสดงให้เห็นถึงศักยภาพในการใช้เหตุผลเชิงลึก (Deep Reasoning) ที่เหนือกว่า โดยเฉพาะในสาขาวิทยาศาสตร์และคณิตศาสตร์ขั้นสูง

สำหรับทดสอบ MATH ซึ่งเป็นชุดโจทย์คณิตศาสตร์ระดับแข่งขัน Claude Mythos ทำคะแนนสูงถึง 96.8% เทียบกับ Claude 3.5 Sonnet 71.1%, Claude 3 Opus 60.3%, GPT-4o 76.6% และ Gemini 1.5 Pro 67.7% คะแนนที่สูงลิ่วนี้ยืนยันถึงความเชี่ยวชาญในการแก้ปัญหาคณิตศาสตร์ที่ซับซ้อน ซึ่งเป็นจุดอ่อนของโมเดล AI หลายรุ่นในอดีต

ในด้านการเขียนโค้ด ทดสอบ HumanEval แสดงให้เห็นว่า Claude Mythos ทำได้ 96.1% สูงกว่า Claude 3.5 Sonnet 92.0%, Claude 3 Opus 84.9%, GPT-4o 90.2% และ Gemini 1.5 Pro 84.1% ขณะที่ทดสอบ GPQA Diamond ซึ่งเป็นเวอร์ชันยากยิ่งขึ้น Claude Mythos ยังคงนำด้วยคะแนน 67.7% เทียบกับคู่แข่งที่ต่ำกว่าอย่างมาก

เอกสารรั่วไหลยังเผยข้อมูลเพิ่มเติมเกี่ยวกับสเปกของโมเดล โดย Claude Mythos มีขนาดพารามิเตอร์ (Parameters) อยู่ที่ 2 ล้านล้านตัว (2T) และฝึกฝนด้วยข้อมูลจำนวนมหาศาลราว 40 ล้านล้านโทเค็น (40T tokens) โดยใช้กำลังประมวลผล (Compute) สูงถึง 5 ล้านล้าน GPU ชั่วโมง (5e27 FLOP) ซึ่งมากกว่าโมเดลก่อนหน้าอย่าง Claude 3.5 Sonnet ถึง 10 เท่า นอกจากนี้ โมเดลนี้ยังรองรับ context window ขนาดใหญ่ถึง 200,000 โทเค็น ทำให้สามารถจัดการเอกสารยาวๆ ได้อย่างมีประสิทธิภาพ

เมื่อเปรียบเทียบกับโมเดลอื่นๆ ในตาราง ทดสอบ SWE-Bench Verified ซึ่งวัดความสามารถในการแก้บั๊กโค้ดจริง Claude Mythos ทำได้ 72.7% สูงกว่า Claude 3.5 Sonnet 49.0%, Claude 3 Opus 19.9%, GPT-4o 33.2% และ Gemini 1.5 Pro 29.5% เช่นเดียวกับ TAU-Bench Retail ซึ่งทดสอบการใช้เครื่องมือ (Tool Use) Claude Mythos ทำได้ 82.1% เทียบกับคู่แข่งที่ต่ำกว่า

การรั่วไหลนี้เกิดขึ้นท่ามกลางกระแสข่าวลือเกี่ยวกับแผนการพัฒนาของแอนโทรปิก ซึ่งกำลังมุ่งสู่โมเดลรุ่นถัดไปหลังจาก Claude 3.5 Sonnet ที่เปิดตัวเมื่อเดือนมิถุนายน อย่างไรก็ตาม แอนโทรปิกยังไม่มีการยืนยันอย่างเป็นทางการเกี่ยวกับ Claude Mythos และบริษัทอาจปฏิเสธหรือชี้แจงว่าข้อมูลดังกล่าวเป็นเพียงเวอร์ชันทดสอบเบื้องต้นที่ยังไม่สมบูรณ์

ผลกระทบจากการรั่วไหลนี้ไม่เพียงแต่กระตุ้นให้เกิดการคาดการณ์เกี่ยวกับวันที่เปิดตัว ซึ่งนักวิเคราะห์บางรายคาดว่าจะเป็นปลายปีนี้หรือต้นปีหน้า แต่ยังจุดประกายการถกเถียงในอุตสาหกรรมเกี่ยวกับขีดจำกัดของ AI ปัจจุบัน โดยเฉพาะเมื่อ Claude Mythos แสดงให้เห็นถึงช่องว่างประสิทธิภาพที่กว้างขึ้นระหว่างผู้นำตลาดอย่างแอนโทรปิกกับคู่แข่ง นอกจากนี้ ยังมีการตั้งคำถามถึงความปลอดภัย เนื่องจากโมเดลขนาดใหญ่นี้ใช้ทรัพยากรคอมพิวเตอร์มหาศาล ซึ่งอาจเชื่อมโยงกับข้อตกลงมูลค่าหลายพันล้านดอลลาร์กับ Amazon และ Google

ในภาพรวม การปรากฏตัวของ Claude Mythos ชี้ให้เห็นถึงทิศทางอนาคตของ AI ที่จะเน้นความสามารถเหนือมนุษย์ในงานที่ซับซ้อน เช่น การวิจัยทางวิทยาศาสตร์ การพัฒนาซอฟต์แวร์ และการวิเคราะห์ข้อมูลขนาดใหญ่ นักลงทุนและธุรกิจที่ติดตามพัฒนาการนี้ควรเตรียมพร้อมสำหรับการเปลี่ยนแปลงที่อาจเกิดขึ้นในระบบนิเวศ AI ซึ่งแอนโทรปิกกำลังนำหน้าด้วยเทคโนโลยีที่ล้ำสมัย

(จำนวนคำ: 728)

This Article is sponsored by Gnoppix AI (https://www.gnoppix.org)