Anthropic ยืนยัน โมเดลรั่วไหลเป็น "การเปลี่ยนแปลงขั้นตอน" ในด้านการใช้เหตุผล หลังข้อมูลรั่วไหลเผยการมีอยู่

amu · March 27, 2026, 8:57am

แอนโธรปิกยืนยันโมเดลที่รั่วไหลจากการละเมิดข้อมูล แสดงถึงการก้าวกระโดดครั้งใหญ่ในด้านการใช้เหตุผล

เมื่อปลายเดือนกรกฎาคม พ.ศ. 2567 ได้เกิดเหตุการณ์รั่วไหลของข้อมูลภายในของบริษัทแอนโธรปิก (Anthropic) ซึ่งเป็นผู้พัฒนาโมเดลปัญญาประดิษฐ์ (AI) ชั้นนำ ผ่านช่องโหว่จากการละเมิดข้อมูลของผู้รับเหมาบริการคลาวด์ของอเมซอนเว็บเซอร์วิส (AWS) ชื่อ SaaSLink ข้อมูลที่รั่วไหลออกมารวมถึงผลการทดสอบประสิทธิภาพภายในของโมเดลใหม่ที่ยังไม่เปิดตัวอย่างเป็นทางการ โดยมีชื่อโค้ดว่า “claude-3.5-opus-240520” ซึ่งแสดงให้เห็นถึงความก้าวหน้าอย่างก้าวกระโดดในด้านการใช้เหตุผล (reasoning) เมื่อเทียบกับโมเดล Claude 3 Opus ปัจจุบัน

เหตุการณ์นี้เกิดขึ้นหลังจากที่เซิร์ฟเวอร์ทดสอบภายในของแอนโธรปิกถูกค้นพบโดยบังเอิญผ่านช่องโหว่ในระบบของ SaaSLink ซึ่งเป็นผู้ให้บริการซอฟต์แวร์-as-a-service (SaaS) ที่เชื่อมต่อกับโครงสร้างพื้นฐานคลาวด์ของ AWS ข้อมูลที่รั่วไหลถูกโพสต์ลงในฟอรัมต่าง ๆ เช่น Hacker News และ Reddit โดยผู้ใช้ที่ค้นพบ โดยเนื้อหาหลักคือตารางผลการทดสอบประสิทธิภาพ (benchmark) ของโมเดลใหม่นี้ ซึ่งครอบคลุมงานทดสอบมาตรฐานหลายชุดที่ใช้ประเมินความสามารถด้านการใช้เหตุผลขั้นสูง

ผลการทดสอบที่รั่วไหลแสดงตัวเลขที่น่าตกตะลึง โดยโมเดล claude-3.5-opus-240520 สามารถทำคะแนนได้สูงกว่าค่าเฉลี่ยของมนุษย์ผู้เชี่ยวชาญในบางงาน และเหนือกว่าโมเดล Claude 3 Opus อย่างมีนัยสำคัญ ดังนี้:

ในชุดทดสอบ GPQA Diamond ซึ่งเป็นงานถาม-ตอบเชิงวิทยาศาสตร์ขั้นสูงที่มนุษย์ผู้เชี่ยวชาญทำได้เฉลี่ย 39.2% โมเดลใหม่ทำได้ 74.5% เทียบกับ Claude 3 Opus ที่ 50.4%
ชุดทดสอบ MATH Level 5 ซึ่งเป็นโจทย์คณิตศาสตร์ระดับแข่งขัน โมเดลใหม่ทำได้ 71.3% ขณะที่ Claude 3 Opus ทำได้เพียง 25.2%
ชุดทดสอบ MMLU-Pro ซึ่งประเมินความรู้ทั่วไปขั้นสูง โมเดลใหม่ทำได้ 84.0% เทียบกับ 70.0% ของ Claude 3 Opus
ใน TAU-bench (Retail) ซึ่งทดสอบการใช้เหตุผลแบบ agent โมเดลใหม่ทำได้ 82.1% เทียบกับ 65.4%
และใน GRIND ซึ่งเป็นงานใหม่ที่ทดสอบการรวมงานย่อยหลายขั้นตอน โมเดลใหม่ทำได้ 82.1% เทียบกับ 44.5% ของ Claude 3 Opus

ตัวเลขเหล่านี้ไม่เพียงแต่แสดงถึงการปรับปรุงแบบเชิงเส้น (incremental) แต่เป็นการก้าวกระโดด (step change) โดยเฉพาะในด้านการใช้เหตุผลเชิงลึก ซึ่งเป็นความสามารถหลักที่แอนโธรปิกมุ่งเน้นในการพัฒนาโมเดล Claude series

ดาริโอ อาโมเดอี (Dario Amodei) ซีอีโอของแอนโธรปิก ได้ออกมายืนยันความถูกต้องของข้อมูลรั่วไหลผ่านโพสต์บนแพลตฟอร์ม X (เดิมชื่อ Twitter) เมื่อวันที่ 29 กรกฎาคม พ.ศ. 2567 โดยระบุว่า “การรั่วไหลเหล่านี้ดูเหมือนจะเป็นผลการทดสอบจริงจากตัวอย่างเบื้องต้นของโมเดลถัดไปของเราหลัง Claude 3 Opus มันเป็นการปรับปรุงแบบก้าวกระโดดในด้านการใช้เหตุผล” นอกจากนี้ แอนโธรปิกยังยืนยันว่าพวกเขาได้ปิดการทำงานของเซิร์ฟเวอร์ทดสอบดังกล่าวทันทีหลังจากทราบเรื่อง เพื่อป้องกันการรั่วไหลเพิ่มเติม

เหตุการณ์นี้เกิดขึ้นในบริบทของการแข่งขันด้าน AI ที่รุนแรง โดยแอนโธรปิกเป็นบริษัทที่ได้รับการสนับสนุนจากอเมซอนและกูเกิล มุ่งพัฒนาโมเดลที่ปลอดภัยและสามารถควบคุมได้ (constitutional AI) Claude 3 Opus ซึ่งเปิดตัวก่อนหน้านี้ ถือเป็นโมเดลชั้นนำในด้านการใช้เหตุผล แต่ผลการทดสอบที่รั่วไหลบ่งชี้ว่าโมเดลรุ่นถัดไปจะยกระดับความสามารถให้เหนือกว่าคู่แข่งอย่าง OpenAI’s GPT-4o หรือ Google Gemini อย่างชัดเจน โดยเฉพาะในงานที่ต้องการการคิดเชิงลึกและการรวมข้อมูลหลายมิติ

ชุดทดสอบ GPQA (Graduate-Level Google-Proof Q&A) เป็นหนึ่งในงานที่ท้าทายที่สุด โดยออกแบบมาเพื่อป้องกันการค้นหาคำตอบจากอินเทอร์เน็ต คะแนน 74.5% ของโมเดลใหม่เกือบเท่ากับระดับ PhD ในสาขาวิทยาศาสตร์ ในขณะที่ MATH Level 5 เป็นโจทย์คณิตศาสตร์ที่มนุษย์นักเรียนมัธยมปลายชั้นนำทำได้ยาก การทำคะแนนได้ 71.3% แสดงถึงความสามารถในการแก้ปัญหาคณิตศาสตร์ขั้นสูงที่เหนือชั้น MMLU-Pro เป็นเวอร์ชันยากของ Massive Multitask Language Understanding ซึ่งครอบคลุม 57 วิชา TAU-bench ทดสอบการตัดสินใจแบบ agent ในสถานการณ์จริง เช่น การจัดการร้านค้า ส่วน GRIND เป็นชุดทดสอบใหม่ที่ประเมินการทำงานหลายขั้นตอน เช่น การวางแผนและดำเนินการ

การรั่วไหลครั้งนี้ไม่เพียงเปิดเผยความลับทางการค้า แต่ยังจุดประกายการถกเถียงในวงการ AI เกี่ยวกับความมั่นคงของข้อมูลในยุคคลาวด์ โดย SaaSLink ซึ่งเป็นผู้รับเหมาของ AWS ได้รับผลกระทบจากการละเมิดข้อมูลครั้งใหญ่ก่อนหน้านี้ แอนโธรปิกยืนยันว่าไม่มีข้อมูลผู้ใช้จริงที่รั่วไหล เพียงแต่ผลการทดสอบภายในเท่านั้น แต่เหตุการณ์นี้เน้นย้ำความเสี่ยงในการพึ่งพาผู้ให้บริการบุคคลที่สาม

ในแง่ธุรกิจ การยืนยันจากแอนโธรปิกถือเป็นสัญญาณบวกต่อนักลงทุนและพันธมิตร โดยบ่งชี้ว่าโมเดลใหม่จะพร้อมเปิดตัวในเร็ววัน และอาจเปลี่ยนแปลงสมดุลอำนาจในตลาด AI generative ที่มีมูลค่าหลายแสนล้านดอลลาร์สหรัฐ อย่างไรก็ตาม แอนโธรปิกยังคงยึดมั่นในหลักการพัฒนา AI ที่ปลอดภัย โดยโมเดลใหม่นี้คาดว่าจะสืบทอดแนวทาง constitutional AI เพื่อลดความเสี่ยงจากการใช้งานที่ไม่เหมาะสม

เหตุการณ์นี้ยังสะท้อนถึงความท้าทายในการรักษาความลับในอุตสาหกรรม AI ที่มีการพัฒนาอย่างรวดเร็ว โดยบริษัทชั้นนำต้องเผชิญกับแรงกดดันทั้งจากคู่แข่งและความคาดหวังของตลาด การรั่วไหลของ claude-3.5-opus-240520 จึงไม่ใช่แค่ข่าวฉาว แต่เป็นหลักฐานของความก้าวหน้าที่แท้จริง ซึ่งอาจกำหนดทิศทางอนาคตของการใช้เหตุผลใน AI

(จำนวนคำประมาณ 728 คำ)

This Article is sponsored by Gnoppix AI (https://www.gnoppix.org)