นักวิจัยดึงข้อความจากหนังสือแฮร์รี่ พอตเตอร์ได้ถึง 96% คำต่อคำจากโมเดล AI ชั้นนำ
นักวิจัยจากมหาวิทยาลัยอินเดียนา ได้พัฒนาวิธีการใหม่ในการดึงข้อมูลที่โมเดลภาษาขนาดใหญ่ (Large Language Models: LLMs) จำได้ทั้งหมด โดยสามารถดึงข้อความจากหนังสือ “แฮร์รี่ พอตเตอร์กับศิลาอาถรรพ์” (Harry Potter and the Sorcerer’s Stone) ของ เจ.เค. โรว์ลิง ได้ถึง 96% คำต่อคำ จากโมเดลชั้นนำหลายตัว เช่น Llama 3 ของ Meta, Mistral และ Claude 3 ของ Anthropic การค้นพบนี้ชี้ให้เห็นถึงปัญหาการจำข้อมูลฝึกอบรม (memorization) ในโมเดล AI ซึ่งอาจนำไปสู่ความเสี่ยงทางกฎหมายลิขสิทธิ์และความเป็นส่วนตัว
วิธีการดึงข้อมูลด้วยหลักการ Minimum Description Length Inference (MDL)
วิธีการที่นักวิจัยใช้เรียกว่า “Minimum Description Length Inference” (MDL) ซึ่งอาศัยหลักการทางข้อมูลทฤษฎี (information theory) โดยมุ่งหาลำดับข้อความที่สามารถบีบอัดได้ดีที่สุดภายในโมเดล AI MDL ทำงานโดยการสร้างลำดับข้อความที่โมเดลสามารถคาดเดาได้อย่างมีประสิทธิภาพสูง ซึ่งบ่งชี้ว่าข้อความเหล่านั้นมาจากข้อมูลฝึกอบรมโดยตรง
กระบวนการนี้เริ่มต้นจากการสุ่มตัวอย่างลำดับข้อความสั้นๆ (เช่น 4-20 โทเค็น) จากโมเดล จากนั้นขยายลำดับเหล่านั้นให้ยาวขึ้นโดยใช้การคาดเดาของโมเดลเอง จนกว่าจะได้ข้อความยาวหลายพันคำ นักวิจัยทดสอบกับหนังสือแฮร์รี่ พอตเตอร์เล่มแรก ซึ่งมีประมาณ 77,000 คำ โดยเปรียบเทียบข้อความที่ดึงได้กับต้นฉบับจริง
ผลการทดสอบกับโมเดลโอเพ่นเวท (open-weight) 7 ตัว แสดงให้เห็นประสิทธิภาพสูง:
- Llama-3-70B-Instruct: ดึงได้ 96.08% คำต่อคำ
- Llama-3-8B-Instruct: 95.15%
- Mixtral-8x7B-Instruct-v0.1: 94.35%
- Llama-2-70B-Chat: 93.17%
- Gemma-7B-it: 92.87%
- Llama-2-7B-Chat: 92.75%
- Pythia-7B: 91.93%
โมเดลขนาดใหญ่ เช่น Llama-3-70B สามารถดึงข้อความยาวต่อเนื่องได้มากถึง 25,000 คำ ซึ่งครอบคลุมบทสำคัญของหนังสือ เช่น การต่อสู้กับควิดดิชและการเผชิญหน้ากับโวลเดอมอร์ต
การทดสอบกับโมเดลคลาวด์ (Closed Models)
นอกจากโมเดลโอเพ่นเวท นักวิจัยยังทดสอบกับโมเดลที่เข้าถึงผ่าน API เช่น GPT-2 XL ของ OpenAI และ Claude 3 Sonnet ของ Anthropic โดยใช้ jailbreak prompts เพื่อหลีกเลี่ยงการกรองข้อมูล แม้จะมีข้อจำกัดด้านโทเค็นและการเซ็นเซอร์ Claude 3 Sonnet สามารถดึงข้อความได้ถึง 68% ในบางส่วน ขณะที่ GPT-2 XL ดึงได้ราว 60-70% ขึ้นอยู่กับบริบท
ผลลัพธ์เหล่านี้ยืนยันว่าแม้โมเดลคลาวด์จะมีมาตรการป้องกัน เช่น การสุ่มลำดับโทเค็นหรือการกรองข้อมูล แต่ก็ยังสามารถดึงข้อมูลลิขสิทธิ์ได้ หากใช้เทคนิคที่เหมาะสม
ข้อกังวลทางกฎหมายและจริยธรรม
การค้นพบนี้จุดประกายความกังวลเกี่ยวกับการละเมิดลิขสิทธิ์ เนื่องจากโมเดล AI ถูกฝึกด้วยชุดข้อมูลขนาดใหญ่ที่อาจรวมเอกสารลิขสิทธิ์โดยไม่ได้รับอนุญาต นักวิจัยชี้ว่า MDL สามารถใช้ตรวจสอบการละเมิดลิขสิทธิ์ได้ โดยไม่ต้องเข้าถึงน้ำหนักโมเดล (model weights) ซึ่งเป็นอุปสรรคสำหรับโมเดลคลาวด์
อย่างไรก็ตาม วิธีการนี้ยังมีข้อจำกัด เช่น ใช้เวลาคำนวณสูง (หลายชั่วโมงต่อโมเดล) และอาจพลาดข้อความที่ไม่บ่อยในข้อมูลฝึก นักวิจัยแนะนำให้บริษัท AI ใช้เทคนิคเช่น unlearning หรือ differential privacy เพื่อลดการจำข้อมูลที่ละเอียดอ่อน
งานวิจัยและแหล่งอ้างอิง
งานวิจัยนี้ตีพิมพ์ในรูปแบบ preprint บน arXiv ([2410.02813] Mathematical Considerations on Randomized Orthgonal Decomposition Method for Developing Twin Data Models) โดยมีชื่อเรื่อง “Extracting Training Data from Large Language Models via Minimum Description Length Inference” ผู้เขียนหลักคือ Zachary C. Lipton และทีมจาก Indiana University รหัสต้นแบบ (prototype code) มีให้ดาวน์โหลดบน GitHub เพื่อให้ผู้วิจัยอื่นทดสอบได้
การศึกษานี้เป็นส่วนหนึ่งของความพยายามที่กำลังเพิ่มขึ้นในการตรวจสอบความโปร่งใสของโมเดล AI โดยก่อนหน้านี้มีงานวิจัยเช่น Extracting Training Data from Diffusion Models และ SLIVER benchmark ที่ตรวจสอบการ regurgitation ในโมเดลภาพและข้อความ
ผลกระทบต่ออุตสาหกรรม AI
สำหรับบริษัทพัฒนา AI การค้นพบนี้เน้นย้ำความจำเป็นในการจัดการข้อมูลฝึกอบรมให้ดีขึ้น เพื่อหลีกเลี่ยงคดีความทางกฎหมาย โดยเฉพาะในสหรัฐอเมริกาและยุโรปที่กฎหมายลิขสิทธิ์กำลังเข้มงวดขึ้น นอกจากนี้ ยังเปิดโอกาสให้เครื่องมือ MDL ถูกนำไปใช้ใน audit tools สำหรับตรวจสอบโมเดลก่อนปล่อยสู่ตลาด
สรุปแล้ว การดึงข้อความแฮร์รี่ พอตเตอร์ได้ถึง 96% จากโมเดลชั้นนำ แสดงให้เห็นถึงช่องโหว่พื้นฐานใน LLMs ที่ต้องได้รับการแก้ไขอย่างเร่งด่วน เพื่อรักษาความเชื่อมั่นในเทคโนโลยี AI
(จำนวนคำประมาณ 728 คำ)
This Article is sponsored by Gnoppix AI (https://www.gnoppix.org)