Reddit ล่อลวงเพื่อจับ Perplexity กำลังดักจับการสแกนข้อมูลจาก Google Search

การวิเคราะห์เชิงลึก: กลยุทธ์ของ Reddit ในการปกป้องข้อมูลจากการดึงข้อมูลโดย Perplexity

Reddit แพลตฟอร์มโซเชียลมีเดียขนาดใหญ่ได้ริเริ่มมาตรการเชิงรุกเพื่อต่อต้านการดึงข้อมูลโดยไม่ได้รับอนุญาต โดยเฉพาะอย่างยิ่งจาก Perplexity ซึ่งเป็นเครื่องมือค้นหาที่ขับเคลื่อนด้วย AI ความเคลื่อนไหวนี้เกิดขึ้นหลังจากที่ Reddit สังเกตเห็นรูปแบบการใช้ข้อมูลที่น่าสงสัย โดยเชื่อว่า Perplexity กำลังใช้วิธีการที่ซับซ้อนในการเข้าถึงเนื้อหาของตนที่ถูกจัดทำดัชนีโดย Google Search

เดิมที ข้อสงสัยของ Reddit มุ่งเน้นไปที่การใช้ Bot ของ Microsoft Start (ก่อนหน้านี้คือ Bing) เป็นตัวกลางในการส่งคำขอค้นหาไปยัง Google และดึงข้อมูลผลลัพธ์ที่เกี่ยวข้องกับเนื้อหาของ Reddit วิธีการนี้เป็นการหลีกเลี่ยงข้อตกลงการใช้งานโดยตรงกับ Reddit และใช้ประโยชน์จากการเข้าถึงข้อมูลของ Google ที่ได้รับอนุญาต

เพื่อยืนยันข้อสงสัยและระบุแหล่งที่มาของการดึงข้อมูลที่แท้จริง Reddit ได้ใช้ “กับดัก” หรือที่เรียกว่าเทคนิค Honeypot โดยการสร้างหน้าเว็บล่อที่เข้าถึงได้ผ่าน Google Search เท่านั้น หน้าเหล่านี้ถูกตั้งค่าเพื่อให้มีเพียง Perplexity เท่านั้นที่สามารถค้นพบและเข้าถึงเนื้อหาได้ตามพฤติกรรมการใช้งานที่ตรวจพบ

ภายหลังการดำเนินการตามแผนกับดักนี้ Reddit สังเกตเห็นการเข้าถึงหน้าเว็บล่อเหล่านี้อย่างรวดเร็ว โดยคำขอเหล่านั้นมาพร้อมกับ User-Agent ที่ระบุว่าเป็นเครื่องมือค้นหา AI ของ Perplexity อย่างชัดเจน การค้นพบนี้ชี้ให้เห็นว่า Perplexity กำลังใช้ User-Agent ของตัวเอง (ซึ่งเป็นการกระทำที่ชัดเจนและไม่ได้ซ่อนตัว) ในการเข้าถึงข้อมูลของ Reddit ที่ถูกจัดทำดัชนีโดย Google

อย่างไรก็ตาม Perplexity ได้ชี้แจงเกี่ยวกับกระบวนการดึงข้อมูล โดยยอมรับว่าบางส่วนของผลิตภัณฑ์ของตนเข้าถึงข้อมูลบนอินเทอร์เน็ตสาธารณะผ่าน API ของบุคคลที่สามที่ได้รับการรับรอง ซึ่งรวมถึง API ของพันธมิตรค้นหาขนาดใหญ่ วิธีการนี้ถูกอ้างว่าเป็นการปฏิบัติตามข้อกำหนดและเงื่อนไขของ API ที่ใช้

ในทางกลับกัน ความกังวลหลักของ Reddit คือการพยายามเข้าถึงฐานข้อมูลของตนเพื่อฝึกฝนโมเดลภาษาขนาดใหญ่ (LLMs) โดยปราศจากข้อตกลงเชิงพาณิชย์ Reddit ตระหนักถึงมูลค่ามหาศาลของข้อมูลที่ผู้ใช้งานสร้างขึ้น และได้ดำเนินการตามยุทธศาสตร์เพื่อสร้างรายได้จากข้อมูลนี้ผ่านข้อตกลงการอนุญาตให้ใช้สิทธิ์ (Licensing Agreements) กับบริษัท AI ขนาดใหญ่ก่อนหน้านี้ รวมถึงข้อตกลงมูลค่า 60 ล้านดอลลาร์สหรัฐฯ กับ Google เพื่อให้ Google สามารถใช้เนื้อหาของ Reddit สำหรับการฝึกฝนโมเดล AI

กรณีพิพาทนี้เน้นย้ำถึงความตึงเครียดที่เพิ่มขึ้นระหว่างแพลตฟอร์มผู้สร้างเนื้อหาอินเทอร์เน็ตกับบริษัท AI ที่ต้องการเข้าถึงข้อมูลเพื่อสร้างและปรับปรุงผลิตภัณฑ์ของตน การที่ Reddit ใช้เทคนิค Honeypot แสดงให้เห็นถึงความมุ่งมั่นที่จะปกป้องทรัพย์สินทางปัญญาและควบคุมว่าใครจะสามารถใช้ข้อมูลของตนได้อย่างไร และในเงื่อนไขใด

การใช้เทคนิค Honeypot เพื่อระบุ Perplexity โดยตรงถือเป็นความสำเร็จทางเทคนิคในการพิสูจน์การเข้าถึงข้อมูลของ Reddit โดยไม่ได้ตั้งใจ (หรือจงใจ) และเสริมความแข็งแกร่งให้กับจุดยืนของ Reddit ในการเจรจาหรือดำเนินการทางกฎหมายที่อาจเกิดขึ้นในอนาคต การดำเนินการนี้ยังส่งสัญญาณเตือนไปถึงบริษัท AI อื่นๆ ที่พิจารณาการดึงข้อมูลโดยหลีกเลี่ยงการทำข้อตกลงโดยตรง

การควบคุมการเข้าถึงข้อมูลและการสร้างรายได้จากฐานข้อมูลที่มีคุณภาพสูงกลายเป็นกลยุทธ์สำคัญสำหรับแพลตฟอร์มโซเชียลมีเดียในยุค AI ซึ่งเป็นยุคที่ข้อมูลกลายทรัพยากรที่มีค่าที่สุดในการขับเคลื่อนนวัตกรรมเทคโนโลยี

This Article is sponsored by Gnoppix AI (https://www.gnoppix.org)