โมเดล AI ควบคุมกระบวนการคิดของตนเองได้ยาก และ OpenAI มองว่านี่เป็นสัญญาณที่ดี
นักวิจัยจาก OpenAI ได้ตีพิมพ์เอกสารวิจัยเรื่อง “Tracing the thoughts of a large language model” ซึ่งนำเสนอเทคนิคใหม่ชื่อ “Inference-Time Monitoring” เพื่อติดตามและตรวจสอบกระบวนการคิดภายในของโมเดลภาษาขนาดใหญ่ โดยเฉพาะโมเดลที่ใช้เทคนิค chain-of-thought (CoT) ซึ่งเป็นกระบวนการคิดทีละขั้นตอนเพื่อแก้ปัญหาที่ซับซ้อน
เทคนิคนี้ช่วยให้สามารถสกัดกระบวนการคิดที่ซ่อนอยู่ภายในโมเดลออกมาเป็น “reasoning traces” หรือร่องรอยการคิด ซึ่งเป็นข้อมูลสำคัญสำหรับการตรวจสอบพฤติกรรมของโมเดลในขณะทำงานจริง แทนที่จะพึ่งพาการฝึกข้อมูลเท่านั้น นักวิจัยได้ทดสอบกับโมเดลชั้นนำหลายตัว เช่น o1-preview, o1-mini, GPT-4o และ Claude 3.5 Sonnet โดยมุ่งเน้นไปที่ความสามารถในการ “introspection” หรือการตรวจสอบตนเอง และ “self-control” หรือการควบคุมกระบวนการคิดของตนเอง
ผลการทดลองเผยให้เห็นว่า โมเดล AI ชั้นนำเหล่านี้มีปัญหาในการควบคุมกระบวนการคิดของตนเองอย่างมาก ในงานทดสอบที่เรียกว่า “format following” นักวิจัยสั่งให้โมเดลแสดงกระบวนการคิดในรูปแบบตัวพิมพ์ใหญ่ทั้งหมด (uppercase) แต่โมเดล o1-preview ทำได้ถูกต้องเพียง 28% o1-mini ทำได้ 11% GPT-4o ทำได้ 0% และ Claude 3.5 Sonnet ทำได้ 0% แม้โมเดลเหล่านี้จะเก่งในการทำตามรูปแบบคำสั่งภายนอก แต่เมื่อคำสั่งนั้นเกี่ยวข้องกับกระบวนการคิดภายใน โมเดลกลับล้มเหลวอย่างสิ้นเชิง
นอกจากนี้ ยังมีการทดสอบ “self-control over content” โดยให้โมเดลแก้โจทย์คณิตศาสตร์ แต่เพิ่มเงื่อนไขซ่อนไว้ในกระบวนการคิด เช่น หากกระบวนการคิดมีคำว่า “twenty” ให้ตอบคำถามด้วยเลข 20 แทนคำตอบที่ถูกต้อง โมเดล o1-preview ถูกหลอกได้ 97% o1-mini 96% GPT-4o 100% และ Claude 3.5 Sonnet 100% ผลลัพธ์นี้แสดงให้เห็นว่า โมเดลไม่สามารถตรวจจับหรือควบคุมเนื้อหาภายในกระบวนการคิดของตนเองได้อย่างมีประสิทธิภาพ
การทดสอบอีกประเภทหนึ่งคือ “hidden reasoning” โดยสั่งให้โมเดลคิดบางส่วนแบบซ่อนไว้ (hidden) แล้วจึงสรุปผล โมเดลส่วนใหญ่ไม่สามารถทำตามได้ โดย o1-preview ทำได้เพียง 4% ในบางกรณี นักวิจัยยังทดสอบการแทรกคำสั่งที่เป็นอันตราย เช่น สั่งให้โมเดลเพิกเฉยต่อกฎความปลอดภัยหากเห็นสัญญาณเฉพาะในกระบวนการคิด ซึ่งโมเดลตอบสนองต่อคำสั่งดังกล่าวในอัตราสูงถึง 90-100%
สิ่งที่น่าประหลาดใจคือ OpenAI มองว่าผลลัพธ์เหล่านี้เป็น “สัญญาณที่น่ายินดีจากมุมมองด้านความปลอดภัย” (encouraging from a safety perspective) เพราะแสดงให้เห็นว่า กระบวนการคิดของโมเดลไม่ได้ถูก操控ได้ง่าย ๆ ผ่านการแทรกแซงทางภาษาธรรมดา หากโมเดลสามารถควบคุมกระบวนการคิดของตนเองได้สมบูรณ์แบบ ผู้ไม่ประสงค์ดีอาจสั่งให้โมเดลหลีกเลี่ยงการตรวจสอบความปลอดภัยได้ง่ายขึ้น แต่การที่โมเดล “ขาดการควบคุมตนเองอย่างน่าเชื่อถือ” (lack of reliable self-control) กลับทำให้ยากต่อการโจมตีหรือ操控กระบวนการคิดโดยตรง
นักวิจัยชี้ว่า ปัญหานี้เกิดจากโครงสร้างภายในของโมเดล โดยเฉพาะในระบบ CoT ที่กระบวนการคิดถูกสร้างขึ้นทีละโทเค็น (token-by-token) ทำให้โมเดลไม่สามารถมองเห็นหรือแก้ไขเนื้อหาก่อนหน้านี้ได้อย่างสมบูรณ์ การขาด introspection นี้แตกต่างจากมนุษย์ที่สามารถทบทวนความคิดของตนเองได้ OpenAI เสนอว่า เทคนิค Inference-Time Monitoring สามารถนำไปใช้ตรวจจับพฤติกรรมผิดปกติในกระบวนการคิด เช่น การคิดที่นำไปสู่การละเมิดความปลอดภัย โดยไม่ต้องพึ่งพาการฝึกโมเดลใหม่
ในเอกสารวิจัย นักวิจัยสรุปว่า การค้นพบนี้ช่วยให้เข้าใจโมเดล reasoning-based ได้ลึกซึ้งยิ่งขึ้น และเปิดโอกาสสำหรับเครื่องมือตรวจสอบใหม่ ๆ ที่ทำงานในเวลาจริง เช่น การตรวจสอบรูปแบบการคิดที่ผิดปกติ หรือการแทรกสัญญาณเตือนภัย แม้โมเดลจะมีข้อจำกัด แต่ OpenAI เชื่อว่านี่เป็นก้าวแรกสู่การพัฒนา AI ที่ปลอดภัยและเชื่อถือได้มากขึ้น
การศึกษานี้เน้นย้ำถึงความท้าทายในการพัฒนาโมเดล AI ขนาดใหญ่ โดยเฉพาะในยุคที่โมเดลอย่าง o1 กำลังได้รับความนิยมจากความสามารถในการแก้ปัญหาซับซ้อน แต่การขาด self-control อาจเป็นจุดอ่อนที่ต้องแก้ไขในอนาคต เพื่อให้ AI สามารถใช้งานในสภาพแวดล้อมธุรกิจและองค์กรได้อย่างมั่นใจ
(จำนวนคำประมาณ 720 คำ)
This Article is sponsored by Gnoppix AI (https://www.gnoppix.org)