นักเขียนฟ้องร้องบริษัทปัญญาประดิษฐ์ยักษ์ใหญ่ 6 แห่ง ฐานละเมิดลิขสิทธิ์หนังสือ
นักเขียนชื่อดังสามราย ได้แก่ อันเดรีย บาร์ตซ์ (Andrea Bartz), ชาร์ลส์ เกรเบอร์ (Charles Graeber) และเคิร์ก วอลเลซ จอห์นสัน (Kirk Wallace Johnson) ได้ยื่นฟ้องคดีต่อบริษัทปัญญาประดิษฐ์ (AI) ชั้นนำ 6 แห่ง ในข้อหาละเมิดลิขสิทธิ์หนังสือของตน โดยอ้างว่าบริษัทเหล่านี้ได้ใช้สำเนาหนังสือที่ถูกขโมยมาอย่างผิดกฎหมายในการฝึกอบรมโมเดล AI คดีนี้ถูกยื่นต่อศาลแขวงเขตใต้แห่งนครนิวยอร์ก (U.S. District Court for the Southern District of New York) เมื่อวันที่ 25 มิถุนายน 2567
หนังสือของนักเขียนทั้งสามถูกคัดลอกมาจากเว็บไซต์ shadowlibrary.is ซึ่งเป็นแหล่งรวบรวมหนังสือละเมิดลิขสิทธิ์ขนาดใหญ่ โดยเป็นส่วนหนึ่งของชุดข้อมูล Books3 ที่มีหนังสือกว่า 170,000 เล่ม ซึ่งถูกนำไปใช้อย่างกว้างขวางในการพัฒนาโมเดลภาษาขนาดใหญ่ (Large Language Models: LLMs) ของบริษัท AI ต่างๆ นักเขียนทั้งสามพบหลักฐานการละเมิดนี้ผ่านเครื่องมือตรวจสอบ haveibeentrained.com ซึ่งแสดงให้เห็นว่าหนังสือของพวกเขาถูกดึงข้อมูลโดยบริษัทผู้ถูกฟ้องโดยตรง
บริษัทที่ถูกฟ้องในคดีนี้ประกอบด้วย OpenAI, Anthropic, xAI, Meta Platforms, Nu Holdings Ltd. และ The Boring Company โดยคำร้องฟ้องระบุว่าบริษัทเหล่านี้ได้ทำการดาวน์โหลดและใช้งานชุดข้อมูล Books3 อย่างรู้เท่าทัน โดย OpenAI ใช้ในการฝึกโมเดล GPT, Anthropic ใช้ฝึกโมเดล Claude, xAI ใช้ฝึกโมเดล Grok ในขณะที่ Meta Platforms ใช้ฝึกโมเดล Llama นอกจากนี้ Nu Holdings Ltd. (บริษัทฟินเทค Nubank) และ The Boring Company (บริษัทขุดอุโมงค์ของอีลอน มัสก์) ก็ถูกกล่าวหาว่าดาวน์โหลดชุดข้อมูลดังกล่าวเช่นกัน แม้จะไม่ใช่บริษัท AI โดยตรง แต่หลักฐานจาก haveibeentrained.com ยืนยันการเข้าถึงข้อมูลดังกล่าว
คำร้องฟ้องระบุข้อหาหลักสามประการ ได้แก่ (1) การละเมิดลิขสิทธิ์โดยตรงจากการทำซ้ำหนังสือต้นฉบับโดยไม่ได้รับอนุญาต (2) การละเมิดลิขสิทธิ์ทางอนุพันธ์จากการสร้างผลงานใหม่ที่ได้มาจากหนังสือเหล่านั้น เช่น ผลลัพธ์ที่สร้างโดย AI และ (3) การละเมิดโดยเจตนา เนื่องจากบริษัทผู้ถูกฟ้องทราบดีว่าชุดข้อมูล Books3 มาจากแหล่งละเมิดลิขสิทธิ์ แต่ยังคงใช้งานต่อไป คำร้องยังชี้ให้เห็นว่าบริษัทเหล่านี้ได้รับประโยชน์ทางการค้าอย่างมหาศาลจากการฝึกโมเดล AI โดยไม่ชำระค่าลิขสิทธิ์ให้เจ้าของผลงาน สร้างความเสียหายต่อนักเขียนและผู้สร้างสรรค์เนื้อหา
หลักฐานสำคัญในคดีนี้มาจากการตรวจสอบของ haveibeentrained.com ซึ่งพัฒนาโดย Leo Immerglück และร่วมมือกับนักวิจัยจาก University of Chicago และ Rice University เครื่องมือนี้ช่วยให้เจ้าของลิขสิทธิ์สามารถตรวจสอบได้ว่าโมเดล AI ใดบ้างที่ถูกฝึกด้วยงานเขียนของตน โดยแสดงสถิติการดาวน์โหลดชุดข้อมูล Books3 จาก IP address ของบริษัทผู้ถูกฟ้อง เช่น OpenAI ดาวน์โหลด 147GB, Anthropic 45GB, xAI 9GB, Meta 9.5GB, Nu Holdings 9GB และ The Boring Company 9GB นอกจากนี้ ยังมีหลักฐานการสนทนาภายในของ OpenAI ที่รับทราบถึงปัญหาลิขสิทธิ์ในชุดข้อมูล แต่ยังคงใช้งานต่อไป
คดีนี้ถือเป็นคดีฟ้องร้องครั้งที่ 10 ที่เกี่ยวข้องกับการใช้หนังสือในการฝึก AI โดยก่อนหน้านี้มีคดีจากนักเขียนชื่อดังอย่าง Sarah Silverman, Richard Kadrey และ Christopher Golden ที่ฟ้อง OpenAI และ Meta ไปแล้ว คำร้องในคดีปัจจุบันเรียกร้องให้ศาลสั่ง (1) ห้ามบริษัทผู้ถูกฟ้องใช้ชุดข้อมูล Books3 และหนังสือละเมิดลิขสิทธิ์อื่นๆ (2) ชำระค่าชดเชยความเสียหาย รวมถึงกำไรที่ได้จากการละเมิด และ (3) คำสั่งห้ามเผยแพร่โมเดล AI ที่ฝึกด้วยข้อมูลดังกล่าว
การฟ้องร้องครั้งนี้สะท้อนถึงความขัดแย้งที่รุนแรงขึ้นระหว่างอุตสาหกรรม AI กับผู้สร้างสรรค์เนื้อหา บริษัท AI มักอ้างสิทธิ์ “การใช้งานที่เป็นธรรม” (fair use) ภายใต้กฎหมายลิขสิทธิ์สหรัฐฯ โดยระบุว่าการฝึกโมเดลเป็นกระบวนการเปลี่ยนแปลง (transformative) ที่ไม่ละเมิดลิขสิทธิ์ อย่างไรก็ตาม นักเขียนและสมาคมผู้จัดพิมพ์ยืนยันว่าการคัดลอกหนังสือทั้งเล่มโดยไม่ได้รับอนุญาตเป็นการละเมิดโดยตรง และ AI สามารถ “จดจำ” เนื้อหาเหล่านั้นเพื่อสร้างผลลัพธ์ที่คล้ายคลึงได้ ซึ่งอาจนำไปสู่การแข่งขันที่ไม่เป็นธรรมกับงานต้นฉบับ
นอกจากนี้ คำร้องยังวิพากษ์วิจารณ์การขาดความโปร่งใสของบริษัท AI ในการเปิดเผยชุดข้อมูลฝึกอบรม ซึ่งเป็นอุปสรรคต่อการตรวจสอบและบังคับใช้กฎหมายลิขสิทธิ์ นักเขียนทั้งสามยืนยันว่าการกระทำดังกล่าวไม่เพียงทำลายรายได้ของพวกเขา แต่ยังคุกคามระบบนิเวศของการสร้างสรรค์เนื้อหาทั่วโลก โดยเฉพาะในยุคที่ AI กำลังกลายเป็นเครื่องมือหลักในการผลิตเนื้อหา
คดีนี้คาดว่าจะเป็นตัวชี้วัดสำคัญสำหรับอนาคตของการฝึก AI โดยศาลอาจต้องตีความกฎหมายลิขสิทธิ์ในบริบทใหม่ของเทคโนโลยี generative AI ผู้เชี่ยวชาญทางกฎหมายคาดการณ์ว่าผลคดีจะส่งผลกระทบต่อบริษัท AI ทั่วโลก รวมถึงการเจรจาสัญญาอนุญาตข้อมูลกับผู้ถือลิขสิทธิ์ในอนาคต
(จำนวนคำประมาณ 728 คำ)
This Article is sponsored by Gnoppix AI (https://www.gnoppix.org)