การทำให้ ai ฟังดูเหมือนมนุษย์ต้องแลกด้วยความหมาย นักวิจัยเผย

การทำให้ AI สนทนาเหมือนมนุษย์ส่งผลกระทบต่อความหมายของเนื้อหา นักวิจัยเผย

นักวิจัยจากสถาบันเทคโนโลยีแมสซาชูเซตส์ (MIT) และสถาบันอื่นๆ ได้ทำการศึกษาที่เผยให้เห็นว่าการปรับแต่งโมเดลภาษาขนาดใหญ่ (Large Language Models: LLMs) ให้ตอบสนองในลักษณะที่ฟังดูเป็นธรรมชาติและเหมือนมนุษย์มากขึ้น มักส่งผลให้ความแม่นยำเชิงความหมายของคำตอบลดลง โดยใช้ตัวชี้วัดใหม่ที่เรียกว่า “เอนโทรปีเชิงความหมาย” (Semantic Entropy) เพื่อวัดระดับความไม่แน่นอนในความหมายของคำตอบที่สร้างขึ้น

การวิจัยนี้ตีพิมพ์ในวารสาร Nature และนำเสนอโดยทีมนักวิจัยนำโดย Sebastian Farquhar จาก MIT Computer Science and Artificial Intelligence Laboratory (CSAIL) ร่วมกับพันธมิตรจาก Anthropic, Google DeepMind และมหาวิทยาลัยออกซ์ฟอร์ด พวกเขาพบว่าคำสั่งที่ทำให้ AI ตอบแบบ “มนุษย์” เช่น “อธิบายเหมือนฉันอายุ 5 ขวบ” หรือ “ตอบในฐานะผู้ช่วยที่เป็นมิตร” จะเพิ่มระดับเอนโทรปีเชิงความหมาย ซึ่งบ่งชี้ถึงความแปรปรวนสูงในความหมายของคำตอบ ส่งผลให้ข้อมูลที่ได้มีความเสี่ยงต่อความคลาดเคลื่อนหรือภาพหลอน (hallucinations) มากขึ้น

เอนโทรปีเชิงความหมายคืออะไร? ตัวชี้วัดนี้แตกต่างจากเอนโทรปีแบบดั้งเดิมที่วัดความน่าจะเป็นของคำศัพท์เดี่ยวๆ โดย semantic entropy จะประเมินความไม่แน่นอนของความหมายโดยรวมของประโยคหรือย่อหน้านั้นๆ วิธีการคำนวณคือ สร้างตัวอย่างคำตอบหลายเวอร์ชันจากโมเดลเดียวกันภายใต้คำสั่งเดียวกัน จากนั้นใช้โมเดลภาษาของบุคคลที่สาม (third-party LLM) เพื่อแปลงคำตอบเหล่านั้นให้เป็นเวกเตอร์ความหมาย (semantic embeddings) และคำนวณเอนโทรปีจากความกระจายของเวกเตอร์เหล่านั้น หากเวกเตอร์กระจุกตัวใกล้กัน แสดงว่าความหมายสอดคล้องกัน (เอนโทรปีต่ำ) แต่หากกระจายตัวกว้าง (เอนโทรปีสูง) หมายถึงความหมายไม่แน่นอนและอาจผิดพลาดได้ง่าย

ในการทดลอง นักวิจัยใช้ชุดข้อมูล TriviaQA ซึ่งประกอบด้วยคำถามที่ต้องการคำตอบข้อเท็จจริงที่ถูกต้องเพียงข้อเดียว พวกเขาทดสอบกับโมเดลต่างๆ เช่น Llama-2-70B, GPT-3.5-turbo, GPT-4 และ Claude-2 โดยเปรียบเทียบคำตอบปกติกับคำตอบที่ปรับให้ “มนุษย์” มากขึ้น ผลลัพธ์ชัดเจน: คำสั่งที่ทำให้ฟังดูเป็นธรรมชาติ เช่น “ตอบแบบสนทนา” หรือ “ใช้บุคลิกภาพที่อบอุ่น” เพิ่มเอนโทรปีเชิงความหมายเฉลี่ยจาก 0.5 เป็น 1.5-2.0 เท่า และอัตราความถูกต้องลดลงอย่างมีนัยสำคัญ เช่น ใน GPT-4 อัตราความถูกต้องลดจาก 80% เหลือต่ำกว่า 60% เมื่อใช้คำสั่ง “อธิบายให้เด็กฟัง”

นอกจากนี้ การวิจัยยังตรวจสอบปรากฏการณ์ “jailbreak” หรือการหลบเลี่ยงข้อจำกัดของโมเดล เช่น DAN (Do Anything Now) prompt ที่สั่งให้ AI ละเลยกฎเกณฑ์ พบว่า jailbreak เหล่านี้เพิ่มเอนโทรปีสูงสุดถึง 3 เท่า สอดคล้องกับการเพิ่มขึ้นของคำตอบที่ผิด事实 เช่น การให้ข้อมูลเท็จเกี่ยวกับบุคคลสำคัญหรือเหตุการณ์ประวัติศาสตร์ นักวิจัยชี้ว่า ปรากฏการณ์นี้เกิดจากการฝึกโมเดลให้เน้น “ความคล่องแคล่ว” (fluency) และ “ความเป็นธรรมชาติ” (naturalness) มากกว่าความถูกต้องเชิงความหมาย ซึ่งเป็นผลจากการปรับแต่ง (alignment) ตามความชอบของมนุษย์ในขั้นตอน RLHF (Reinforcement Learning from Human Feedback)

กราฟและตารางในงานวิจัยแสดงความสัมพันธ์เชิงลบที่แข็งแกร่งระหว่างเอนโทรปีเชิงความหมายกับความถูกต้อง โดยค่าสหประสิทธิ์สหสัมพันธ์ (correlation) อยู่ที่ -0.85 ถึง -0.95 ทั่วโมเดลทั้งหมด นี่หมายความว่า หากเอนโทรปีสูง คำตอบนั้นน่าเชื่อถือต่ำ โดยไม่ต้องตรวจสอบข้อเท็จจริงเพิ่มเติม นักวิจัยเสนอว่า semantic entropy สามารถนำมาใช้เป็นเครื่องมือตรวจจับคำตอบที่ไม่น่าเชื่อถือในระบบ AI ได้ โดยเฉพาะในแอปพลิเคชันธุรกิจที่ต้องการความแม่นยำสูง เช่น ที่ปรึกษาทางการเงิน การวินิจฉัยทางการแพทย์ หรือการวิเคราะห์ข้อมูลทางกฎหมาย

ผลกระทบต่ออุตสาหกรรม AI การค้นพบนี้ท้าทายแนวทางการพัฒนา AI ในปัจจุบันที่มุ่งเน้นการทำให้การสนทนาดู “มนุษย์” เพื่อเพิ่มการยอมรับจากผู้ใช้ แต่กลับแลกมาด้วยความเสี่ยงด้านความน่าเชื่อถือ Sebastian Farquhar กล่าวว่า “การทำให้ AI ฟังดูดีไม่ได้แปลว่ามันพูดความจริง” และแนะนำให้ผู้พัฒนาใช้ semantic entropy เป็นเกณฑ์ในการปรับแต่งโมเดล เพื่อรักษาสมดุลระหว่างความเป็นธรรมชาติและความแม่นยำ

นอกจาก TriviaQA แล้ว การทดลองยังขยายไปยังชุดข้อมูลอื่นๆ เช่น GPQA (คำถามวิทยาศาสตร์ระดับบัณฑิตศึกษา) และพบแนวโน้มคล้ายกัน แม้ในโมเดลขั้นสูงอย่าง GPT-4o ก็ยังแสดงเอนโทรปีสูงเมื่อถูก prompt ให้ใช้ “chain-of-thought” หรือการคิดทีละขั้นตอนในลักษณะมนุษย์ นักวิจัยสรุปว่า การ scaling ขึ้นของโมเดล (เช่น เพิ่มพารามิเตอร์) ช่วยลดเอนโทรปีโดยรวม แต่ไม่สามารถชดเชยผลกระทบจาก prompt ที่เน้นความเป็นมนุษย์ได้อย่างสมบูรณ์

การวิจัยนี้เปิดประตูสู่แนวทางใหม่ในการประเมินและปรับปรุง AI โดยเฉพาะในบริบทธุรกิจที่ความถูกต้องเป็นหัวใจสำคัญ ผู้ประกอบการและนักพัฒนาควรพิจารณาใช้ตัวชี้วัด semantic entropy เพื่อตรวจสอบคุณภาพคำตอบ ก่อนนำไปใช้งานจริง เพื่อลดความเสี่ยงจากข้อมูลที่คลาดเคลื่อนซึ่งอาจนำไปสู่การตัดสินใจที่ผิดพลาด

(จำนวนคำประมาณ 728 คำ)

This Article is sponsored by Gnoppix AI (https://www.gnoppix.org)