ニューヨークタイムズは、OpenAIにChatGPTの会話2000万件を提出するように命じ、もし翻訳しない場合はタイ語に翻訳することを求めている。

องค์กร เดอะ นิวยอร์ก ไทมส์ (The New York Times – NYT) ได้ยื่นคำร้องต่อศาลเพื่อขอให้ OpenAI เปิดเผยข้อมูลการสนทนาของ ChatGPT มากกว่า 20 ล้านรายการ โดยเป็นส่วนหนึ่งของคดีความสำคัญเกี่ยวกับการละเมิดลิขสิทธิ์

ในเอกสารที่ยื่นต่อศาลแขวงสหรัฐฯ ในแมนฮัตตัน เมื่อวันที่ 24 พฤษภาคม 2567 NYT ได้เรียกร้องให้ OpenAI ซึ่งเป็นผู้พัฒนาโมเดลภาษาขนาดใหญ่ (LLMs) และเจ้าของ ChatGPT ต้องส่งมอบสำเนาการสนทนาของผู้ใช้งานจำนวนมหาศาล เพื่อตรวจสอบและพิสูจน์มูลฐานของคดีที่ NYT ฟ้องร้องในเดือนธันวาคม 2566

NYT กล่าวหาว่า OpenAI ได้ใช้ผลงานที่มีลิขสิทธิ์ของตน—ซึ่งรวมถึงบทความ ข่าวสาร และเนื้อหาอื่นๆ—เพื่อฝึกฝนโมเดล AI ของตนอย่างไม่เป็นธรรม ส่งผลให้เกิดความเสียหายทางเศรษฐกิจอย่างใหญ่หลวงต่อองค์กรข่าว และยังกล่าวอ้างว่า ChatGPT สามารถสร้างเนื้อหาที่คล้ายหรือซ้ำซ้อนกับงานของ NYT ได้โดยตรง ซึ่งถือเป็นการละเมิดลิขสิทธิ์อย่างชัดเจน

คำร้องขอข้อมูลครั้งนี้มุ่งเน้นไปที่ข้อมูลการสนทนาที่ OpenAI ได้รับจากการยื่นคำร้อง (prompts) ของผู้ใช้งานตั้งแต่ปี 2565 เป็นต้นมา โดยเฉพาะอย่างยิ่งการสนทนาที่พบว่ามีการทำซ้ำหรือแสดงเนื้อหาที่มาจากงานของ NYT โดยไม่ได้รับอนุญาต เอกสารของ NYT ระบุว่าการเข้าถึงข้อมูลการสนทนาเหล่านี้มีความสำคัญอย่างยิ่งต่อการพิสูจน์ว่าโมเดล AI ของ OpenAI โดยเฉพาะอย่างยิ่ง GPT-4 สามารถสร้างผลลัพธ์ที่เป็นการละเมิดลิขสิทธิ์อย่างเป็นระบบได้อย่างไร

ในมุมมองของ NYT ข้อมูลการสนทนาที่ถูกเรียกร้องนี้จะเป็นหลักฐานที่พิสูจน์ได้ว่าการ “คัดลอก” และ “การทำซ้ำ” เนื้อหาลิขสิทธิ์ของตนนั้นไม่ได้เป็นเพียงเหตุการณ์ที่เกิดขึ้นโดยบังเอิญ แต่เป็นผลโดยตรงจากการฝึกฝนโมเดลด้วยชุดข้อมูลขนาดใหญ่ที่รวมถึงเนื้อหาของ NYT อย่างผิดกฎหมาย

ในทางกลับกัน OpenAI ได้ปฏิเสธข้อกล่าวหาหลักของ NYT อย่างหนักแน่น โดยยืนยันว่าการฝึกฝนโมเดล AI ด้วยชุดข้อมูลสาธารณะนั้นเป็นไปตามหลักการ “การใช้ที่เป็นธรรม” (Fair Use) ซึ่งเป็นหลักการทางกฎหมายที่อนุญาตให้มีการใช้เนื้อหาลิขสิทธิ์เพื่อวัตถุประสงค์ในการวิจัย การศึกษา หรือการเปลี่ยนแปลงรูปแบบ (transformative use) ได้โดยไม่ต้องขออนุญาต

นอกจากนี้ OpenAI ยังโต้แย้งว่าการที่ ChatGPT สร้างเนื้อหาที่ซ้ำกับ NYT ในบางกรณีนั้น เป็นผลมาจากความผิดปกติที่เกิดขึ้นได้จากชุดข้อมูลขนาดใหญ่ (data contamination) และไม่ได้เป็นเจตนาหรือการออกแบบของระบบเพื่อทำซ้ำงานลิขสิทธิ์ และได้อ้างถึงมาตรการที่บริษัทได้นำมาใช้เพื่อลดโอกาสที่โมเดลจะทำซ้ำเนื้อหาที่ถูกป้องกันลิขสิทธิ์

การเรียกร้องให้เปิดเผยข้อมูลการสนทนาจำนวน 20 ล้านครั้งนี้ก่อให้เกิดความกังวลเกี่ยวกับความเป็นส่วนตัวของผู้ใช้งาน (User Privacy) และความลับทางการค้า (Trade Secrets) ของ OpenAI อย่างมาก บริษัท OpenAI มีแนวโน้มที่จะคัดค้านคำร้องนี้ โดยอ้างว่าการเปิดเผยข้อมูลการสนทนาในปริมาณมากจะส่งผลกระทบต่อความลับของขั้นตอนการทำงานภายในของโมเดล AI รวมถึงข้อมูลส่วนบุคคลของผู้ใช้งานจำนวนหลายล้านคน ซึ่งอาจขัดต่อข้อกำหนดด้านความเป็นส่วนตัวที่บริษัทได้ให้ไว้

ประเด็นทางกฎหมายนี้มีความสำคัญอย่างยิ่งต่ออุตสาหกรรมเทคโนโลยีและสื่อ เนื่องจากผลคำตัดสินของคดีนี้จะกำหนดขอบเขตทางกฎหมายของการใช้เนื้อหาที่มีลิขสิทธิ์เพื่อการฝึกฝนโมเดล AI และจะส่งผลกระทบโดยตรงต่อรูปแบบธุรกิจของทั้งองค์กรสื่อที่พึ่งพารายได้จากทรัพย์สินทางปัญญา และบริษัท AI ที่ใช้ข้อมูลจำนวนมหาศาลเป็นทรัพยากรหลักในการพัฒนาผลิตภัณฑ์

การดำเนินการทางกฎหมายของ NYT ในครั้งนี้เป็นท่าทีที่แข็งกร้าวซึ่งสะท้อนให้เห็นถึงความมุ่งมั่นขององค์กรสื่อเก่าแก่ในการปกป้องมูลค่าของเนื้อหาในยุคของปัญญาประดิษฐ์เชิงสร้างสรรค์ (Generative AI) ซึ่งหากศาลอนุมัติคำร้องขอข้อมูลนี้ นั่นจะส่งผลให้เกิดการเปิดเผยข้อมูลภายในของบริษัท AI ครั้งใหญ่ที่สุดครั้งหนึ่งในประวัติศาสตร์ของคดีลิขสิทธิ์เทคโนโลยี

This Article is sponsored by Gnoppix AI (https://www.gnoppix.org)