สิ่งที่เราเข้าใจผิดเกี่ยวกับวิกฤตความจริงของ ai

สิ่งที่เราเข้าใจผิดเกี่ยวกับวิกฤตความจริงของปัญญาประดิษฐ์

ในช่วงไม่กี่ปีที่ผ่านมา ปัญญาประดิษฐ์ (AI) โดยเฉพาะโมเดลภาษาขนาดใหญ่ (Large Language Models: LLMs) ได้ถูกกล่าวหาว่าประสบปัญหา “วิกฤตความจริง” อย่างรุนแรง โมเดลเหล่านี้มักสร้างข้อมูลเท็จ ข้อเท็จจริงที่ผิดพลาด หรือเรื่องราวที่ไม่มีมูลความจริงขึ้นมา ซึ่งนักวิจัยเรียกว่า “ภาพหลอน” (hallucinations) ตัวอย่างที่โด่งดัง เช่น ทนายความที่ใช้ ChatGPT เพื่อช่วยร่างเอกสารยื่นศาล แต่กลับอ้างอิงคดีความปลอมที่ AI สร้างขึ้น ส่งผลให้ศาลสั่งห้ามใช้ AI ในคดีนั้น หรือกรณีที่ AI สร้างประวัติศาสตร์เท็จ ประดิษฐ์ชื่อนักวิทยาศาสตร์ หรือบิดเบือนเหตุการณ์สำคัญ

ปัญหานี้ไม่ใช่เรื่องเล็กน้อย มันส่งผลกระทบต่อความเชื่อมั่นในเทคโนโลยี AI โดยรวม นักพัฒนาและบริษัทเทคโนโลยีต่างๆ พยายามแก้ไขด้วยวิธีการหลากหลาย เช่น การฝึกโมเดลให้ตอบ “ฉันไม่รู้” เมื่อไม่แน่ใจ การใช้ข้อมูลจริงจากฐานข้อมูลภายนอก (retrieval-augmented generation: RAG) หรือการปรับแต่งโมเดลให้ “ซื่อสัตย์” มากขึ้น แต่ตามบทความนี้ ผู้เชี่ยวชาญชั้นนำหลายคนมองว่าวิธีการเหล่านี้กำลังเข้าใจปัญหาผิดพลาดโดยสิ้นเชิง

ดร.เอมิลี่ เบนเดอร์ (Emily Bender) ผู้ร่วมก่อตั้งโครงการ Stochastic Parrots ชี้ว่า “ภาพหลอนไม่ใช่บั๊ก แต่เป็นฟีเจอร์หลักของระบบ” เธอเปรียบ LLMs ว่าเป็นนกแก้วที่ทำนายคำถัดไปทางสถิติ (stochastic parrots) ไม่ใช่ระบบที่แสวงหาความจริง LLMs ถูกฝึกจากข้อมูลมหาศาลบนอินเทอร์เน็ต ซึ่งเต็มไปด้วยข้อผิดพลาด ข้อมูลเท็จ ข่าวลือ และการโกหกของมนุษย์ ดังนั้น เมื่อโมเดลทำนายคำถัดไปตามรูปแบบที่พบในข้อมูลฝึก มันจึงมีโอกาสสูงที่จะทำซ้ำความผิดพลาดเหล่านั้น แม้แต่ข้อมูลที่ถูกต้องในข้อมูลฝึกก็อาจถูกบิดเบือนเพราะโมเดลไม่ได้ “เข้าใจ” แต่เพียงเลียนแบบรูปแบบทางภาษา

ทิมนิต เกบรู (Timnit Gebru) นักวิจัยด้านจริยธรรม AI เห็นด้วยว่า การมอง LLMs ว่าเป็นระบบที่สามารถ “พูดความจริง” เป็นความเข้าใจผิดพื้นฐาน “LLMs ไม่ได้ถูกออกแบบมาเพื่อบอกความจริง แต่เพื่อทำนายข้อความที่มนุษย์น่าจะพูดต่อ” เธอกล่าว ข้อมูลฝึกของโมเดลอย่าง GPT-4 หรือ Llama รวมถึงข้อความจากเว็บไซต์ที่ไม่น่าเชื่อถือ โซเชียลมีเดียที่มีการโกหก และเอกสารที่เต็มไปด้วยอคติ เมื่อโมเดลเจอคำถามที่คลุมเครือหรือนอกเหนือข้อมูลฝึก มันจะ “เติมช่องว่าง” ด้วยรูปแบบทางสถิติที่ใกล้เคียงที่สุด ซึ่งอาจเป็นเรื่องแต่งขึ้นมา

ตัวชี้วัดประสิทธิภาพยอดนิยมอย่าง TruthfulQA ซึ่งทดสอบความสามารถในการหลีกเลี่ยงคำตอบที่ผิดแต่ฟังดูน่าเชื่อถือ ก็ถูกวิจารณ์ว่าไม่สมบูรณ์ TruthfulQA ถามคำถามที่มนุษย์มักตอบผิดตามอคติ เช่น “ทำไมการกินหญ้าทำให้คุณตาย?” (มนุษย์บางคนอาจตอบว่ามันเป็นพิษ แต่จริงๆ แล้วเพราะลำไส้ย่อยไม่ได้) โมเดลที่ทำคะแนนดีใน TruthfulQA อาจแค่เลียนแบบคำตอบที่ถูกต้องจากข้อมูลฝึก ไม่ใช่เพราะเข้าใจความจริง นอกจากนี้ ตัวชี้วัดอื่นๆ อย่าง MMLU (Massive Multitask Language Understanding) วัดความถูกต้องในข้อเท็จจริง แต่ไม่วัดความน่าเชื่อถือเมื่อข้อมูลไม่เพียงพอ

นักวิจัยอย่างอารี อันเดอร์สัน (Ariel Andres) จาก Google DeepMind ชี้ว่า ปัญหาคือเราคาดหวังให้ LLMs เป็น “ตัวแทนที่แสวงหาความจริง” (truth-seeking agents) แต่จริงๆ แล้วมันเป็นเครื่องมือทำนายทางสถิติ การแก้ปัญหาด้วย RAG ช่วยได้บ้าง โดยดึงข้อมูลจริงมาเสริม แต่ถ้าฐานข้อมูลภายนอกมีข้อมูลผิด หรือคำถามซับซ้อนเกินไป ปัญหายังคงอยู่ นอกจากนี้ RAG ยังเพิ่มความซับซ้อนและต้นทุน ทำให้ไม่เหมาะสำหรับการใช้งานทั่วไป

ผู้เชี่ยวชาญเสนอแนะให้เปลี่ยนมุมมอง: แทนที่จะพยายามทำให้ LLMs “พูดความจริงเสมอ” ควรออกแบบระบบที่แจ้งผู้ใช้ถึงความไม่แน่นอน เช่น แสดงระดับความมั่นใจในคำตอบ หรือใช้ AI หลายตัวเปรียบเทียบคำตอบ (ensemble methods) แต่ที่สำคัญกว่านั้น คือการศึกษาและสื่อสารว่าทำไม LLMs ถึงทำงานแบบนี้ เพื่อหลีกเลี่ยงการใช้งานในบริบทที่ต้องการความแม่นยำสูง เช่น การแพทย์ กฎหมาย หรือนโยบายสาธารณะ

ในอนาคต การพัฒนา AI ที่ “เข้าใจ” ความจริงจริงๆ อาจต้องใช้แนวทางใหม่ เช่น การรวมการรับรู้ทางกายภาพ (embodied AI) หรือการฝึกด้วยการโต้ตอบกับโลกจริง แต่นั่นยังห่างไกล ปัจจุบัน เราควรยอมรับข้อจำกัดของ LLMs และใช้มันเป็นเครื่องมือช่วยเหลือ ไม่ใช่แหล่งความจริงสูงสุด

บทความนี้เน้นย้ำว่า วิกฤตความจริงของ AI ไม่ใช่เรื่องของการโกหกหรือภาพหลอนที่แก้ไขได้ง่าย แต่เป็นผลจากธรรมชาติพื้นฐานของเทคโนโลยี หากเราเข้าใจถูกต้อง เราจะสามารถนำ AI มาใช้ได้อย่างมีประสิทธิภาพและปลอดภัยมากขึ้น โดยไม่หลงกลในภาพลวงตาของ “ปัญญาประดิษฐ์ที่ฉลาดเกินมนุษย์”

(จำนวนคำประมาณ 720 คำ)

This Article is sponsored by Gnoppix AI (https://www.gnoppix.org)