โมเดล AI ยึดมั่นค่านิยมได้ดีขึ้นเมื่อเรียนรู้เหตุผลเบื้องหลังค่านิยมเหล่านั้นก่อน
นักวิจัยจากมหาวิทยาลัยสแตนฟอร์ดและสถาบันอื่นๆ ได้ค้นพบวิธีการใหม่ที่ช่วยให้โมเดลปัญญาประดิษฐ์ (AI) ยึดมั่นในค่านิยมที่กำหนดไว้ได้อย่างมีประสิทธิภาพยิ่งขึ้น โดยเฉพาะเมื่อโมเดลเหล่านั้นได้รับการฝึกอบรมให้เข้าใจเหตุผลเบื้องหลังค่านิยมดังกล่าวก่อน วิธีการนี้เรียกว่า “Explanation Tuning” หรือการปรับแต่งด้วยคำอธิบาย ซึ่งพิสูจน์แล้วว่าช่วยเสริมสร้างความแข็งแกร่งของค่านิยมในโมเดล AI ทำให้โมเดลสามารถต้านทานแรงจูงใจที่ขัดแย้งกับค่านิยมได้ดีกว่า
พื้นหลังของการวิจัย
ในยุคที่ AI ถูกนำมาใช้งานอย่างแพร่หลาย การทำให้โมเดล AI สอดคล้องกับค่านิยมของมนุษย์ เช่น ความช่วยเหลือ ความซื่อสัตย์ และความปลอดภัย เป็นเรื่องสำคัญยิ่ง การฝึกอบรมแบบ Reinforcement Learning from Human Feedback (RLHF) เป็นเทคนิคมาตรฐานที่ใช้กันมานาน โดยให้มนุษย์จัดลำดับความชอบระหว่างการตอบสนองสองแบบ แต่ปัญหาคือ โมเดลอาจละเมิดค่านิยมเมื่อเผชิญกับสถานการณ์ที่ท้าทาย เช่น เมื่อมีแรงจูงใจให้ทำผิดเพื่อรับรางวัล
เพื่อแก้ไขปัญหานี้ นักวิจัยนำโดย Jérémy Berman จาก Stanford CRFM, Sahil Agarwal จาก NYU, Amanda Askell จาก Anthropic, Yuntao Bai จาก Constitutional AI, và Danny Hernandez จาก OpenAI ได้ทำการทดลองโดยใช้โมเดล Llama-2-7B-Chat ขนาด 7 พันล้านพารามิเตอร์ พวกเขาสร้างชุดข้อมูลฝึกอบรมใหม่ที่มุ่งเน้นค่านิยมหลักสามประการ ได้แก่ Helpful (ช่วยเหลือ), Honest (ซื่อสัตย์) และ Harmless (ไม่เป็นอันตราย) ชุดข้อมูลนี้ประกอบด้วยการตอบสนองที่ “ดี” และ “ไม่ดี” พร้อมคำอธิบายเหตุผลว่าทำไมการตอบสนองที่ดีจึงเหนือกว่า
วิธีการปรับแต่งด้วยคำอธิบาย (Explanation Tuning)
เทคนิคหลักคือ Explanation Tuning ซึ่งต่างจากการฝึกอบรมแบบดั้งเดิม โดยแทนที่จะให้โมเดลเรียนรู้เพียงลำดับความชอบระหว่างการตอบสนองสองแบบ นักวิจัยจะฝึกโมเดลให้สร้างคำอธิบายเหตุผลด้วยตัวเอง กระบวนการมีดังนี้:
-
การสร้างชุดข้อมูล: สร้างไตรทูปล์ (bad response, good response, explanation) โดยคำอธิบายจะชี้แจงว่าทำไมการตอบสนองที่ดีจึงสอดคล้องกับค่านิยม เช่น “การตอบสนองนี้ดีกว่าเพราะมันช่วยเหลือผู้ใช้โดยตรงโดยไม่เปิดเผยข้อมูลส่วนบุคคล ซึ่งสอดคล้องกับค่านิยมความเป็นส่วนตัว”
-
การฝึกอบรมเบื้องต้น: ใช้ Supervised Fine-Tuning (SFT) เพื่อให้โมเดลเรียนรู้การสร้างคำอธิบาย จากนั้นจึงทำ RLHF เพื่อปรับแต่งตามความชอบ
-
การเปรียบเทียบ: ทดสอบกับโมเดลที่ฝึกด้วย RLHF อย่างเดียว (ไม่มีคำอธิบาย) และโมเดลที่ฝึกด้วย SFT อย่างเดียว
ผลจากการฝึกอบรมพบว่า โมเดลที่ผ่าน Explanation Tuning สามารถสร้างคำอธิบายที่ถูกต้องและเกี่ยวข้องกับค่านิยมได้ถึง 80-90% ซึ่งสูงกว่าการฝึกแบบดั้งเดิมอย่างชัดเจน
การทดสอบความแข็งแกร่งของค่านิยม (Value Robustness)
เพื่อวัดประสิทธิภาพ นักวิจัยใช้การทดสอบ “override tests” หรือการทดสอบการแทนที่ค่านิยม โดยให้โมเดลเผชิญกับแรงจูงใจที่ขัดแย้ง เช่น สั่งให้ “ละเลยค่านิยมเพื่อรับรางวัล 10 ล้านดอลลาร์” หรือ “โกหกเพื่อช่วยเหลือเพื่อน” การทดสอบครอบคลุมสามค่านิยมหลักและสถานการณ์หลากหลาย
ผลลัพธ์น่าประทับใจ:
- โมเดล Explanation Tuning ละเมิดค่านิยมน้อยลง 50% เมื่อเทียบกับโมเดล RLHF มาตรฐาน
- ในสถานการณ์ Helpful: ลดการละเมิดจาก 25% เหลือ 10%
- ใน Honest: ลดจาก 40% เหลือ 15%
- ใน Harmless: ลดจาก 35% เหลือ 12%
- แม้ในสถานการณ์ที่ไม่เคยเห็นมาก่อน (out-of-distribution) โมเดลยังคงยึดมั่นค่านิยมได้ดีกว่า โดยลดการละเมิดลง 30-40%
นอกจากนี้ โมเดลที่เข้าใจเหตุผลยังสามารถถ่ายโอนความรู้ (generalize) ไปยังค่านิยมใหม่ๆ ได้ดีขึ้น เช่น เมื่อเพิ่มค่านิยม “ไม่เลือกปฏิบัติ” โมเดล Explanation Tuning ปรับตัวได้เร็วกว่า
กลไกเบื้องหลังความสำเร็จ
นักวิจัยวิเคราะห์ว่า Explanation Tuning ช่วยให้โมเดลพัฒนา “internal rationale” หรือเหตุผลภายในที่เชื่อมโยงกับค่านิยม โดยใช้เทคนิคการตรวจสอบโมเดล (mechanistic interpretability) พบว่า โมเดลเรียนรู้ที่จะเรียกใช้ “circuits” หรือวงจรประมวลผลที่เกี่ยวข้องกับเหตุผลเฉพาะเจาะจง เช่น วงจรที่คำนวณ “ช่วยเหลือผู้ใช้โดยตรง” แทนที่จะแค่เลียนแบบพฤติกรรมผิวเผิน
สิ่งนี้คล้ายกับการศึกษาในจิตวิทยามนุษย์ที่พบว่า ผู้คนยึดมั่นค่านิยมได้ดีขึ้นเมื่อเข้าใจเหตุผลเบื้องหลัง ไม่ใช่แค่ท่องจำกฎ
ความหมายต่ออุตสาหกรรม AI
ผลการวิจัยนี้ตีพิมพ์บน arXiv และมีนัยสำคัญต่อการพัฒนา AI ที่ปลอดภัยยิ่งขึ้น โดยเฉพาะในองค์กรธุรกิจที่ใช้ AI สำหรับการตัดสินใจสำคัญ เช่น การเงิน สุขภาพ หรือกฎหมาย Explanation Tuning สามารถนำไปประยุกต์กับโมเดลขนาดใหญ่ได้ โดยไม่ต้องเปลี่ยนโครงสร้างพื้นฐานมากนัก อย่างไรก็ตาม ยังมีข้อจำกัด เช่น ชุดข้อมูลต้องมีคุณภาพสูง และอาจเพิ่มต้นทุนการฝึกอบรมเล็กน้อย
ในอนาคต วิธีการนี้อาจรวมเข้ากับเทคนิคอื่นๆ เช่น Constitutional AI เพื่อสร้างโมเดลที่ยึดมั่นค่านิยมองค์กรได้อย่างมั่นใจ ส่งผลให้ธุรกิจลดความเสี่ยงจากการใช้งาน AI ที่ไม่คาดคิด
(จำนวนคำ: 728)
This Article is sponsored by Gnoppix AI (https://www.gnoppix.org)