Claude เอาชนะนักวิจัยมนุษย์ในงานปรับแนว และจากนั้นผลลัพธ์ก็หายไปในการผลิต

Claude 3.5 Sonnet เอาชนะนักวิจัยมนุษย์ในการประเมินการจัดแนวทาง แต่ผลลัพธ์หายไปในเวอร์ชันใช้งานจริง

บริษัท Anthropic ได้เปิดเผยผลการทดสอบที่น่าตกตะลึง โดยโมเดลปัญญาประดิษฐ์ Claude 3.5 Sonnet สามารถเอาชนะนักวิจัยมนุษย์ในการประเมิน “การจัดแนวทาง” (alignment) ของการตอบสนองจากโมเดล AI ได้อย่างชัดเจน อย่างไรก็ตาม เมื่อนำผลลัพธ์ดังกล่าวไปทดสอบในเวอร์ชันที่ใช้งานจริง (production) ผ่านแพลตฟอร์ม app.anthropic.com ประสิทธิภาพของ Claude กลับลดลงอย่างน่าประหลาดใจ จนเหลือระดับใกล้เคียงหรือต่ำกว่านักวิจัยมนุษย์ สถานการณ์นี้ชี้ให้เห็นถึงความท้าทายสำคัญในการวัดผลและพัฒนาการจัดแนวทาง AI ในยุคปัจจุบัน

งานวิจัยที่จุดประกายความสำเร็จของ Claude

ในรายงานวิจัยล่าสุดของ Anthropic ชื่อ “Many-Shot Jailbreaking” ซึ่งตีพิมพ์เมื่อเดือนสิงหาคม 2567 นักวิจัยได้ทดสอบ Claude 3.5 Sonnet ในภารกิจประเมินการจัดแนวทาง โดยมอบหมายให้โมเดลตัดสินว่าการตอบสนองใดดีกว่าจากคู่ของการตอบสนองสองชุดที่สร้างจากโมเดล Claude และโมเดลอื่นๆ เกณฑ์การตัดสินมุ่งเน้นไปที่หลักการจัดแนวทางหลักสามประการ ได้แก่ ความปลอดภัย (safety) ความเป็นประโยชน์ (helpfulness) และความซื่อสัตย์ (honesty)

ในสภาพแวดล้อมการทดสอบวิจัย Claude 3.5 Sonnet แสดงผลงานยอดเยี่ยม โดยทำคะแนนความแม่นยำได้ถึง 81% ขณะที่นักวิจัยมนุษย์ซึ่งผ่านการฝึกอบรมเฉพาะทางทำได้เพียง 65% ค่านี้สูงกว่ามาก โดยเฉพาะในหมวดหมู่ความปลอดภัยที่ Claude ทำได้ 92% เทียบกับมนุษย์ที่ 72% ผลลัพธ์นี้ทำให้ Claude กลายเป็น “ผู้ประเมินการจัดแนวทางที่ดีที่สุด” ตามที่ Anthropic ระบุ ซึ่งบ่งชี้ถึงศักยภาพของ AI ในการช่วยมนุษย์ปรับปรุงกระบวนการพัฒนาโมเดลให้สอดคล้องกับค่านิยมของมนุษย์มากขึ้น

ความแตกต่างระหว่างเวอร์ชันวิจัยและเวอร์ชันใช้งานจริง

แต่เมื่อนำ Claude 3.5 Sonnet เวอร์ชันเดียวกันไปทดสอบในระบบใช้งานจริงผ่านเว็บไซต์ app.anthropic.com ประสิทธิภาพกลับพลันหายวับไปอย่างสิ้นเชิง คะแนนความแม่นยำลดลงเหลือเพียง 64% ซึ่งใกล้เคียงกับมนุษย์ที่ 65% และต่ำกว่าในบางหมวดหมู่ เช่น ความปลอดภัยที่ทำได้แค่ 68% เทียบกับ 72% ของมนุษย์

เหตุผลหลักมาจากความแตกต่างระหว่างโมเดลเวอร์ชันวิจัยและเวอร์ชันใช้งานจริง โมเดลเวอร์ชันวิจัยเป็นเวอร์ชันก่อนการฝึกอบรมด้านความปลอดภัย (pre-safety-training model) ซึ่งยังไม่ผ่านกระบวนการปรับแต่งเพิ่มเติมเพื่อป้องกันความเสี่ยง ในทางตรงกันข้าม เวอร์ชันใช้งานจริงผ่านการฝึกเสริมแรงจากการรับฟีดแบ็กของมนุษย์ (RLHF) หลายรอบ การฝึกแบบ Chain-of-Thought (CoT) และการเพิ่ม classifiers สำหรับตรวจจับเนื้อหาต้องห้าม

นอกจากนี้ Prompt ในเวอร์ชันใช้งานจริงยังแตกต่าง โดยมี system prompt ที่ยาวและซับซ้อนกว่า เพื่อให้ Claude ตอบสนองอย่างระมัดระวังต่อคำถามที่ละเอียดอ่อน Prompt เหล่านี้ถูกออกแบบมาเพื่อลดความเสี่ยงจากการตอบสนองที่ไม่เหมาะสม ส่งผลให้ Claude ในเวอร์ชันนี้กลายเป็น “อนุรักษนิยมมากเกินไป” (overly conservative) จนกระทบต่อความสามารถในการประเมินการจัดแนวทาง

ผลกระทบต่อการวิจัยการจัดแนวทาง AI

ปรากฏการณ์นี้ไม่ใช่เรื่องบังเอิญ แต่สะท้อนปัญหาเชิงโครงสร้างในการวัดผลการจัดแนวทาง AI Anthropic ระบุว่าการทดสอบในเวอร์ชันวิจัยมักใช้โมเดลที่ “สะอาด” กว่า ขณะที่เวอร์ชันใช้งานจริงเต็มไปด้วยชั้นป้องกันความปลอดภัยที่ทำให้ประสิทธิภาพลดลง สิ่งนี้ทำให้การเปรียบเทียบระหว่าง AI กับมนุษย์ในงานประเมินกลายเป็นเรื่องท้าทาย

ตัวอย่างเช่น ในชุดข้อมูลทดสอบเดียวกัน Claude เวอร์ชันวิจัยสามารถระบุการตอบสนองที่ไม่ปลอดภัยได้แม่นยำสูง แต่เวอร์ชันใช้งานจริงมักปฏิเสธที่จะตัดสินโดยตรง เนื่องจากกลัวการละเมิดนโยบาย Anthropic ยังทดสอบ Claude 3 Opus และ Claude 3.5 Haiku ในเวอร์ชันใช้งานจริง ซึ่งทำคะแนนได้ 60% และ 58% ตามลำดับ แสดงให้เห็นว่าปัญหานี้เกิดขึ้นกับโมเดลหลายตัว

บทเรียนและแนวทางข้างหน้า

จากผลการทดสอบ Anthropic แนะนำให้นักวิจัยใช้เวอร์ชันโมเดลที่ปรับแต่งเฉพาะสำหรับงานประเมิน เพื่อหลีกเลี่ยงผลกระทบจากชั้นความปลอดภัย นอกจากนี้ ยังชี้ให้เห็นถึงความจำเป็นในการพัฒนา benchmark ใหม่ที่ทดสอบโมเดลในสภาพแวดล้อมใกล้เคียงกับการใช้งานจริงมากขึ้น เช่น การรวม system prompt และ classifiers เข้าไปในกระบวนการทดสอบตั้งแต่ต้น

สถานการณ์นี้ยังกระตุ้นให้เกิดคำถามสำคัญเกี่ยวกับอนาคตของการจัดแนวทาง AI หาก AI สามารถเอาชนะมนุษย์ในงานประเมินได้ แต่ไม่สามารถนำไปใช้งานได้จริง จะช่วยยกระดับความปลอดภัยของระบบ AI ได้อย่างไร? Anthropic ยอมรับว่าการปรับสมดุลระหว่างประสิทธิภาพและความปลอดภัยยังคงเป็นความท้าทายหลัก และผลลัพธ์ที่ “หายไป” นี้เป็นเครื่องเตือนใจให้อุตสาหกรรม AI ต้องปรับปรุงวิธีการวัดผลให้รอบคอบยิ่งขึ้น

โดยสรุป การทดสอบของ Anthropic ไม่เพียงเผยศักยภาพของ Claude 3.5 Sonnet แต่ยังชี้ให้เห็นช่องว่างระหว่างห้องปฏิบัติการกับโลกแห่งความเป็นจริง ซึ่งเป็นบทเรียนมีค่าสำหรับบริษัทเทคโนโลยี AI ทุกแห่งในการมุ่งสู่การจัดแนวทางที่ยั่งยืนและน่าเชื่อถือ

(จำนวนคำประมาณ 728 คำ)

This Article is sponsored by Gnoppix AI (https://www.gnoppix.org)