วิกิพีเดียถอดปลั๊กเอไอ

ปัญญาประดิษฐ์: วิกิพีเดียถอนปลั๊กการเข้าถึงข้อมูลให้กับบอท AI

มูลนิธิวิกิมีเดีย (Wikimedia Foundation) ซึ่งเป็นองค์กรที่ดูแลวิกิพีเดีย ได้ประกาศมาตรการใหม่ที่เข้มงวด โดยการบล็อกบอทปัญญาประดิษฐ์ (AI bots) จากบริษัทชั้นนำหลายแห่ง ไม่ให้สามารถดึงข้อมูล (crawl) จากเว็บไซต์วิกิพีเดียได้อีกต่อไป มาตรการนี้มีผลบังคับใช้ตั้งแต่วันที่ 31 พฤษภาคม 2567 เป็นต้นมา โดยมุ่งเป้าหมายไปที่บอทที่ใช้ในการฝึกโมเดล AI เช่น GPTBot ของ OpenAI, ClaudeBot ของ Anthropic, Google-Extended ของ Google รวมถึง Bytespider จาก ByteDance (บริษัทแม่ของ TikTok) และบอทอื่นๆ อีกหลายตัว เช่น Omgilibot, Omgicrawler และ CCBot จาก Common Crawl

การตัดสินใจครั้งนี้เกิดขึ้นท่ามกลางความกังวลที่เพิ่มสูงขึ้นเกี่ยวกับการใช้งานข้อมูลจากวิกิพีเดียในการฝึกโมเดลภาษาขนาดใหญ่ (Large Language Models: LLMs) โดยไม่ได้รับอนุญาต วิกิพีเดียซึ่งเป็นแหล่งข้อมูลอิสระและเปิดกว้าง ได้กลายเป็นเป้าหมายหลักของบอทเหล่านี้ที่คอยสแกนและรวบรวมเนื้อหาจำนวนมหาศาลเพื่อนำไปฝึก AI อย่างไรก็ตาม การฝึกโมเดลดังกล่าวมักนำไปสู่ปัญหาคุณภาพ เช่น การสร้างข้อมูลเท็จ (hallucinations) การคัดลอกโดยตรง (plagiarism) และการผลิตเนื้อหาที่มีคุณภาพต่ำ ซึ่งส่งผลกระทบต่อความน่าเชื่อถือของ AI ที่เกิดขึ้น

แมร์ก้า ชู (Magda Szcześniak) วิศวกรซอฟต์แวร์อาวุโสของมูลนิธิวิกิมีเดีย อธิบายในบล็อกโพสต์อย่างเป็นทางการว่า “เราต้องการปกป้องผู้อ่านและบรรณาธิการของเรา รวมถึงเนื้อหาที่พวกเขาสร้างขึ้นจากการถูกนำไปใช้ในทางที่ไม่เหมาะสม โดยเฉพาะอย่างยิ่งเมื่อ AI เหล่านี้ผลิตผลลัพธ์ที่คลาดเคลื่อนหรือละเมิดลิขสิทธิ์” นอกจากนี้ ยังมีการกำหนด User-Agent strings เฉพาะเจาะจงสำหรับบล็อกเหล่านี้ โดยสามารถตรวจสอบรายละเอียดได้ที่ robots.txt ของวิกิพีเดียทุกภาษา

ประเด็นสำคัญอีกด้านหนึ่งคือเรื่องใบอนุญาตเนื้อหา เนื้อหาบนวิกิพีเดียอยู่ภายใต้ใบอนุญาต Creative Commons Attribution-ShareAlike (CC BY-SA) ซึ่งอนุญาตให้ใช้งาน แก้ไข และแจกจ่ายใหม่ได้ โดยต้องระบุแหล่งที่มาและแบ่งปันในเงื่อนไขเดียวกัน อย่างไรก็ตาม การนำข้อมูลไปฝึกโมเดล AI เชิงพาณิชย์อาจไม่สอดคล้องกับเงื่อนไขนี้ เนื่องจากโมเดลที่ฝึกเสร็จแล้วไม่สามารถตรวจสอบหรือแบ่งปันซอร์สโค้ดได้ง่ายดาย ดังนั้น มูลนิธิวิกิมีเดียจึงมองว่าการสแกนโดยไม่ได้รับอนุญาตเป็นการละเมิดหลักการของโครงการ

จิมมีเวลส์ (Jimmy Wales) ผู้ก่อตั้งวิกิพีเดีย ได้แสดงจุดยืนชัดเจนในอดีต โดยเคยระบุว่า “ไม่มีใครมีสิทธิ์นำเนื้อหาของวิกิพีเดียไปใช้ในการฝึก AI เชิงพาณิชย์โดยอัตโนมัติ เว้นแต่จะได้รับอนุญาตอย่างชัดแจ้ง” การเคลื่อนไหวครั้งนี้สอดคล้องกับแนวโน้มขององค์กรอื่นๆ เช่น The New York Times, The Guardian และ Reddit ที่ได้ฟ้องร้องหรือบล็อก AI companies อย่าง OpenAI และ Microsoft เนื่องจากปัญหาการละเมิดลิขสิทธิ์ในการฝึกโมเดล

สำหรับทางเลือกที่ยอมรับได้ มูลนิธิวิกิมีเดียยังคงอนุญาตให้บอทบางตัวเข้าถึงได้ หากเป็นการ opt-in หรือได้รับอนุมัติ เช่น Common Crawl ซึ่งเป็นโครงการไม่แสวงผลกำไรที่รวบรวมข้อมูลเว็บเพื่อการวิจัยสาธารณะ โดย CCBot จะยังคงสามารถดึงข้อมูลได้ตามปกติ นอกจากนี้ ยังมีเครื่องมืออย่าง databases.wikimedia.org ที่ให้บริการข้อมูลแบบโปรแกรม (programmatic access) สำหรับผู้ที่ต้องการใช้งานอย่างถูกต้อง

ผลกระทบจากการบล็อกนี้คาดว่าจะส่งผลต่อโมเดล AI รุ่นใหม่ๆ ที่พึ่งพาข้อมูลล่าสุดจากวิกิพีเดีย โดยโมเดลเหล่านี้อาจต้องอาศัยข้อมูลเก่า ส่งผลให้ความถูกต้องและความสดใหม่ลดลง นอกจากนี้ ยังเป็นสัญญาณว่าอุตสาหกรรม AI ต้องปรับตัว โดยหันไปสู่การเจรจาอนุญาตข้อมูล (licensing deals) หรือพัฒนาโมเดลจากข้อมูลที่ถูกต้องตามกฎหมายมากขึ้น ตัวอย่างเช่น OpenAI ได้ทำข้อตกลงกับสำนักพิมพ์หลายแห่งเพื่อเข้าถึงเนื้อหาที่มีคุณภาพ

การตัดสินใจของวิกิพีเดียไม่เพียงแต่ปกป้องทรัพย์สินทางปัญญาของชุมชนผู้ร่วมสร้างเนื้อหากว่า 5 ล้านบทความใน 300 ภาษาเท่านั้น แต่ยังกระตุ้นให้เกิดการถกเถียงเกี่ยวกับจริยธรรมในการฝึก AI ในยุคที่เทคโนโลยีนี้เติบโตอย่างรวดเร็ว ผู้เชี่ยวชาญคาดการณ์ว่า มาตรการดังกล่าวอาจกลายเป็นต้นแบบให้เว็บไซต์อื่นๆ ตามรอย เพื่อรักษาความยั่งยืนของเนื้อหาดิจิทัลในระยะยาว

(จำนวนคำประมาณ 720 คำ)

This Article is sponsored by Gnoppix AI (https://www.gnoppix.org)