โมเดล Claude Mythos ตัวใหม่จาก Anthropic กลายเป็น AI ตัวแรกที่ผ่านการจำลองการโจมตีทางไซเบอร์ทั้งหมดจากหน่วยงานด้านความปลอดภัย AI ของอังกฤษ
Anthropic บริษัทผู้พัฒนาโมเดลปัญญาประดิษฐ์ (AI) ชั้นนำ ได้ประกาศเปิดตัวโมเดล Claude Mythos ตัวใหม่ ซึ่งเป็นความก้าวหน้าอย่างสำคัญในด้านความปลอดภัยของ AI โดยโมเดลนี้กลายเป็นโมเดล AI ตัวแรกที่ผ่านการทดสอบการจำลองการโจมตีทางไซเบอร์ทั้งหมดจาก AI Safety Institute (AISI) หน่วยงานด้านความปลอดภัย AI ของรัฐบาลอังกฤษ
AISI ซึ่งก่อตั้งขึ้นเพื่อประเมินความเสี่ยงและความปลอดภัยของเทคโนโลยี AI ได้ดำเนินการทดสอบชุดใหญ่ที่เรียกว่า “Cybersecurity Evaluations” โดยมุ่งเน้นไปที่ความสามารถของโมเดล AI ในการต้านทานการโจมตีทางไซเบอร์ เช่น การหลอกลวง (jailbreaks) การฉีดคำสั่ง (prompt injections) และเทคนิคอื่นๆ ที่อาจทำให้ AI ทำพฤติกรรมที่เป็นอันตรายหรือผิดกฎหมาย ชุดการทดสอบนี้ครอบคลุมสถานการณ์จำลองที่ซับซ้อน โดย AISI ได้ทดสอบโมเดล AI รวม 9 โมเดลจากผู้พัฒนาต่างๆ แต่ Claude Mythos เป็นโมเดลเดียวที่ผ่านทุกการทดสอบโดยไม่ล้มเหลวแม้แต่ครั้งเดียว
การทดสอบดังกล่าวแบ่งออกเป็นหลายหมวดหมู่หลัก โดยแต่ละหมวดมุ่งตรวจสอบช่องโหว่ที่อาจเกิดขึ้นในระบบ AI ในโลกจริง หมวดแรกคือ “Adversarial Prompting” ซึ่งทดสอบความสามารถในการป้องกันคำสั่งที่ถูกออกแบบมาเพื่อหลอกให้ AI ละเมิดนโยบายความปลอดภัย เช่น การสร้างโค้ดที่เป็นอันตรายหรือข้อมูลเท็จ หมวดที่สองคือ “Cybersecurity Tasks” ที่จำลองการโจมตีจริง เช่น การหลบเลี่ยงระบบป้องกันทางไซเบอร์หรือการสร้างเครื่องมือสำหรับการแฮ็ก หมวดอื่นๆ ยังรวมถึงการทดสอบความยืดหยุ่นต่อการโจมตีแบบต่อเนื่อง (multi-turn attacks) และการใช้เครื่องมือภายนอก (tool use) ที่อาจถูกนำไปใช้ในทางที่ผิด
ผลการทดสอบเผยให้เห็นว่า โมเดล AI อื่นๆ เช่น จาก OpenAI, Google และผู้พัฒนาคู่แข่ง มักล้มเหลวในบางสถานการณ์ โดยบางโมเดลถูกโจมตีสำเร็จในอัตราสูงถึง 80-90% ในบางหมวด แต่ Claude Mythos แสดงผลงานที่เหนือชั้น โดยอัตราความสำเร็จของการโจมตีลดลงเหลือต่ำกว่า 5% ในทุกหมวด ทำให้เป็นโมเดลที่แข็งแกร่งที่สุดเท่าที่ AISI เคยทดสอบมา
Dario Amodei ผู้ร่วมก่อตั้งและ CEO ของ Anthropic กล่าวในแถลงการณ์ว่า “Claude Mythos แสดงให้เห็นถึงความมุ่งมั่นของเราที่จะสร้าง AI ที่ปลอดภัยและเชื่อถือได้ การผ่านการทดสอบทั้งหมดจาก AISI เป็นเครื่องยืนยันถึงความก้าวหน้าของเราในการพัฒนาระบบป้องกันที่ครอบคลุม” นอกจากนี้ Anthropic ยังเผยว่า โมเดลนี้ถูกฝึกฝนด้วยเทคนิคพิเศษ เช่น Constitutional AI และการฝึกด้วยข้อมูลจาก red-teaming ซึ่งเป็นกระบวนการที่ผู้เชี่ยวชาญด้านความปลอดภัยจำลองการโจมตีเพื่อปรับปรุงโมเดล
AISI เองก็แสดงความยินดีต่อผลลัพธ์นี้ โดย Paul Christiano หัวหน้าฝ่ายวิจัยของ AISI ระบุว่า “ผลการทดสอบนี้เป็นก้าวสำคัญในการวัดมาตรฐานความปลอดภัยของ AI เราจะใช้ข้อมูลเหล่านี้เพื่อพัฒนาการทดสอบที่เข้มข้นยิ่งขึ้นในอนาคต” การทดสอบดังกล่าวเป็นส่วนหนึ่งของโครงการ Frontier Safety Framework ของ AISI ซึ่งมุ่งประเมินโมเดล AI ขนาดใหญ่ (frontier models) เพื่อให้แน่ใจว่าพวกมันไม่ก่อให้เกิดความเสี่ยงต่อสังคมและโครงสร้างพื้นฐานทางไซเบอร์
ความสำเร็จของ Claude Mythos มีนัยสำคัญต่ออุตสาหกรรม AI โดยรวม เนื่องจากปัญหาการโจมตีทางไซเบอร์ต่อ AI กำลังเพิ่มขึ้นอย่างรวดเร็ว นักวิจัยพบว่ามีเทคนิค jailbreak ใหม่ๆ เกิดขึ้นทุกเดือน ซึ่งอาจนำไปสู่การรั่วไหลของข้อมูล การสร้างอาวุธทางไซเบอร์ หรือการแพร่กระจายข้อมูลเท็จ Anthropic จึงได้เปิดเผยรายละเอียดบางส่วนของการทดสอบผ่านบล็อกโพสต์ เพื่อให้ชุมชนนักพัฒนาสามารถนำไปปรับใช้ โดยเฉพาะในส่วนของ “safety headers” และ “guardrails” ที่ฝังอยู่ในโมเดล
อย่างไรก็ตาม ผู้เชี่ยวชาญเตือนว่า การผ่านการทดสอบครั้งนี้ไม่ได้หมายความว่า Claude Mythos สมบูรณ์แบบ 100% เนื่องจาก AISI ใช้การจำลองที่จำกัดตามข้อมูลปัจจุบัน และการโจมตีในโลกจริงอาจซับซ้อนกว่านั้น Anthropic เองยอมรับว่าพวกเขาจะยังคงพัฒนาต่อไป โดยวางแผนอัปเดตโมเดลในอนาคตเพื่อรับมือกับภัยคุกคามใหม่ๆ
ในบริบททางธุรกิจ ความสำเร็จนี้ช่วยเสริมสร้างความเชื่อมั่นให้กับลูกค้าธุรกิจที่ใช้ Claude ในแอปพลิเคชันสำคัญ เช่น การวิเคราะห์ข้อมูล การบริการลูกค้า และระบบอัตโนมัติ โดยเฉพาะในภาคการเงิน สุขภาพ และรัฐบาลที่ต้องการความปลอดภัยสูงสุด Anthropic คาดว่าจะขยายการเข้าถึง Claude Mythos ผ่าน API และแพลตฟอร์ม Claude.ai ในเร็วๆ นี้
การพัฒนานี้ยังสะท้อนถึงแนวโน้มของอุตสาหกรรมที่หันมาให้ความสำคัญกับ “AI safety” มากขึ้น โดยหน่วยงานกำกับดูแลทั่วโลก เช่น ในสหภาพยุโรปและสหรัฐอเมริกา กำลังพัฒนามาตรฐานคล้ายกัน เพื่อให้ AI เป็นเครื่องมือที่สร้างประโยชน์โดยไม่ก่อความเสี่ยง
(จำนวนคำประมาณ 720 คำ)
This Article is sponsored by Gnoppix AI (https://www.gnoppix.org)