ศาลกลางสหรัฐสั่ง OpenAI มอบข้อมูลการสนทนา ChatGPT กว่า 20 ล้านครั้งให้纽约时报
ในคดีความที่《纽约时报》(The New York Times) ยื่นฟ้อง OpenAI และ Microsoft เรื่องการละเมิดลิขสิทธิ์ ศาลกลางแห่งสหรัฐอเมริกาเขตตอนเหนือของรัฐแคลิฟอร์เนีย ได้มีคำสั่งให้นายอาร์โนลด์ เอส. ชไวคาร์ท (Arnold S. Schwarcz) ผู้พิพากษา รองผู้พิพากษา (Magistrate Judge) สั่งให้ OpenAI มอบข้อมูลการสนทนาของผู้ใช้ ChatGPT กว่า 20 ล้านครั้งให้กับ《纽约时报》 เพื่อใช้เป็นหลักฐานในการพิจารณาคดี
คดีดังกล่าวเกิดขึ้นตั้งแต่เดือนธันวาคม พ.ศ. 2566 โดย《纽约时报》กล่าวหาว่า OpenAI และ Microsoft ได้ฝึกโมเดลปัญญาประดิษฐ์ (AI) ของ ChatGPT โดยใช้บทความนับล้านชิ้นจากเว็บไซต์ของสำนักข่าวฉบับนี้โดยไม่ได้รับอนุญาต ซึ่งถือเป็นการละเมิดลิขสิทธิ์ 《纽约时报》อ้างว่าการกระทำดังกล่าวทำให้ ChatGPT สามารถคัดลอกหรือสรุปเนื้อหาบทความของตนได้อย่างละเอียด โดยไม่ต้องให้ผู้ใช้จ่ายค่าบริการสมัครสมาชิก
ผู้พิพากษาชไวคาร์ทได้ปฏิเสธคำร้องของ OpenAI ที่ขอให้ศาลยกฟ้องคดีทั้งหมด โดยระบุว่าข้อกล่าวหาของ《纽约时报》มีน้ำหนักพอที่จะดำเนินการต่อไป คำสั่งล่าสุดที่ออกเมื่อวันพฤหัสบดีที่ผ่านมา (ตามเวลาสหรัฐ) กำหนดให้ OpenAI มอบข้อมูลดังต่อไปนี้
ข้อมูลที่ต้องมอบให้《纽约时报》
-
ข้อมูลการสนทนา 20 ล้านครั้ง: ข้อมูลจากเซสชันการสนทนาของผู้ใช้ ChatGPT กว่า 20 ล้านครั้ง ซึ่งผู้ใช้เอ่ยถึง《纽约时报》หรือพยายามเข้าถึงเนื้อหาที่อยู่หลังเพย์วอลล์ (paywall) ของ《纽约时报》 ข้อมูลนี้รวมถึงพรอมต์ (prompt) ที่ผู้ใช้ป้อนและการตอบสนองของ ChatGPT เพื่อพิสูจน์ว่าทำไม ChatGPT ถึงสามารถตอบคำถามเกี่ยวกับบทความของ《纽约时报》ได้โดยไม่ต้องสมัครสมาชิก
-
ข้อมูลการฝึกโมเดล: รายละเอียดเกี่ยวกับทรัพยากรการคำนวณ (compute) ที่ใช้ในการฝึกโมเดลแต่ละเวอร์ชัน รายชื่อโมเดลทั้งหมดที่ฝึกด้วยข้อมูล《纽约时报》 และข้อมูลเมตาดาต้าของบทความ《纽约时报》ที่ใช้ในการฝึก
-
ข้อมูลการจัดอันดับ: ข้อมูลเกี่ยวกับวิธีที่ OpenAI จัดอันดับบทความ《纽约时报》ในชุดข้อมูลการฝึก (training dataset) และตัวอย่างบทความ《纽约时报》ที่ใช้ในการฝึกโมเดลเวอร์ชันล่าสุด
ผู้พิพากษายังสั่งให้ OpenAI มอบข้อมูลการสนทนาอีก 5 ล้านครั้งที่ผู้ใช้เอ่ยถึงสำนักข่าวอื่นๆ เช่น Wall Street Journal, Washington Post และ Los Angeles Times เพื่อเปรียบเทียบ โดย OpenAI จะต้องมอบข้อมูลเหล่านี้ภายในกำหนดเวลาที่ศาลกำหนด
การโต้แย้งของ OpenAI
OpenAI แย้งว่าการมอบข้อมูล 20 ล้านเซสชันนั้นเป็นภาระหนักเกินไป (unduly burdensome) เนื่องจากต้องใช้ทรัพยากรจำนวนมากในการดึงข้อมูลจากระบบ และอาจละเมิดความเป็นส่วนตัวของผู้ใช้ นอกจากนี้ OpenAI ยังอ้างว่าข้อมูลดังกล่าวไม่เกี่ยวข้องกับข้อกล่าวหาการละเมิดลิขสิทธิ์ในการฝึกโมเดล แต่ผู้พิพากษาชไวคาร์ทเห็นว่า ข้อมูลเหล่านี้มีความสำคัญต่อการพิสูจน์ว่าการฝึกโมเดลด้วยบทความ《纽约时报》นำไปสู่การ “คัดลอก” (regurgitation) เนื้อหาใน ChatGPT ซึ่งเป็นประเด็นหลักของคดี
OpenAI ยังโต้แย้งว่าการตอบสนองของ ChatGPT ต่อพรอมต์ที่เกี่ยวกับ《纽约时报》เกิดจากการฝึกข้อมูลจากแหล่งอื่นๆ ที่ถูกกฎหมาย ไม่ใช่จากบทความของ《纽约时报》โดยตรง แต่ศาลเห็นว่าข้อมูลดังกล่าวจำเป็นเพื่อให้《纽约时报》ตรวจสอบข้ออ้างนี้
พัฒนาการของคดี
ก่อนหน้านี้ ในเดือนมีนาคม พ.ศ. 2567 OpenAI ได้ยื่นคำร้องขอให้ศาลยกเลิกหมายเรียกข้อมูลบางส่วนจาก《纽约时报》 โดยอ้างว่าข้อมูลการสนทนาของผู้ใช้ไม่เกี่ยวข้อง แต่ศาลปฏิเสธคำร้องดังกล่าว คดีนี้เป็นส่วนหนึ่งของคลื่นคดีความลิขสิทธิ์ที่สื่อสิ่งพิมพ์หลายแห่งยื่นฟ้อง OpenAI รวมถึง Associated Press, Chicago Tribune และสำนักข่าวอื่นๆ
《纽约时报》ระบุว่ายินดีกับคำสั่งของศาล และเชื่อว่าข้อมูลเหล่านี้จะช่วยพิสูจน์ข้อกล่าวหา ในขณะที่ OpenAI ยังคงยืนยันว่าจะต่อสู้คดีต่อไป และหวังว่าจะชนะคดีในที่สุด
ความสำคัญต่ออุตสาหกรรม AI
คำสั่งนี้ถือเป็นพัฒนาการสำคัญในคดีลิขสิทธิ์ที่เกี่ยวข้องกับ AI generative โดยเฉพาะประเด็นการ “regurgitation” ซึ่งหมายถึงการที่ AI คัดลอกเนื้อหาต้นฉบับโดยตรง หาก《纽约时报》ชนะคดี อาจนำไปสู่การเปลี่ยนแปลงนโยบายการฝึกโมเดล AI ของบริษัทเทคโนโลยีขนาดใหญ่ และอาจบังคับให้มีการชดเชยค่าเสียหายให้เจ้าของลิขสิทธิ์ นอกจากนี้ ยังอาจส่งผลกระทบต่อความเชื่อมั่นของผู้ใช้ในเรื่องความเป็นส่วนตัวของข้อมูลการสนทนากับ ChatGPT
OpenAI ต้องปฏิบัติตามคำสั่งภายใน 10 วันทำการ และคดีจะดำเนินต่อไปในขั้นตอนการค้นพบหลักฐาน (discovery phase) ซึ่งอาจเผยข้อมูลภายในของบริษัทเพิ่มเติม
(จำนวนคำประมาณ 720 คำ)
This Article is sponsored by Gnoppix AI (https://www.gnoppix.org)