เอไอเชื่อมโยงชื่อปลอมออนไลน์สู่ตัวตนจริงได้ในไม่กี่นาที เพียงไม่กี่ดอลลาร์

ปัญญาประดิษฐ์สามารถเชื่อมโยงชื่อผู้ใช้ปลอมบนโลกออนไลน์กับตัวตนจริงได้ภายในไม่กี่นาที ด้วยต้นทุนเพียงไม่กี่ดอลลาร์

นักวิจัยจาก King’s College London ได้แสดงให้เห็นถึงความสามารถของปัญญาประดิษฐ์ (AI) ในการเปิดเผยตัวตนที่ซ่อนเร้นของผู้ใช้บนแพลตฟอร์มออนไลน์ โดยสามารถเชื่อมโยงชื่อผู้ใช้ปลอม (pseudonyms) กับข้อมูลส่วนบุคคลจริงได้อย่างรวดเร็วและประหยัดต้นทุน การทดลองนี้เผยให้เห็นถึงช่องโหว่ร้ายแรงในระบบความเป็นส่วนตัวออนไลน์ ซึ่งอาจส่งผลกระทบต่อผู้ใช้งานจำนวนมาก โดยเฉพาะบุคคลที่พึ่งพาการปกปิดตัวตน เช่น ผู้แจ้งเบาะแส นักเคลื่อนไหวทางการเมือง หรือผู้ที่ต้องการความเป็นส่วนตัวสูง

วิธีการทดลองและชุดข้อมูล

ทีมวิจัยได้รวบรวมชุดข้อมูลขนาดใหญ่จาก Reddit ซึ่งประกอบด้วยผู้ใช้ 500,000 ราย ที่โพสต์ข้อความรวมกว่า 2.8 ล้านโพสต์ โดยผู้ใช้เหล่านี้โพสต์ภายใต้ชื่อปลอมบน subreddit หนึ่ง และเปิดเผยชื่อจริงบน subreddit อื่น ทำให้ชุดข้อมูลนี้เหมาะสมสำหรับการฝึกโมเดล AI เพื่อจับคู่รูปแบบการเขียน (writing style) ระหว่างชื่อผู้ใช้ปลอมกับตัวตนจริง

ในขั้นตอนแรก ทีมวิจัยฝึกโมเดลภาษาขนาดใหญ่ (Large Language Model: LLM) ชื่อ Llama3 ขนาด 8 พารามิเตอร์ โดยใช้เทคนิค fine-tuning เพื่อให้โมเดลสามารถจดจำและเปรียบเทียบลักษณะเฉพาะของการเขียน เช่น การใช้คำศัพท์ โครงสร้างประโยค ความยาวประโยค และรูปแบบการใช้เครื่องหมายวรรคตอน ผลลัพธ์ที่ได้มีความแม่นยำสูงถึง 99.8% เมื่อทดสอบกับข้อมูลจาก subreddit เดียวกัน และ 92.4% เมื่อทดสอบข้าม subreddit ที่แตกต่างกัน

การทดสอบด้วยโมเดล LLM เชิงพาณิชย์

เพื่อตรวจสอบความสามารถในสถานการณ์จริง ทีมวิจัยได้ทดลองใช้โมเดล LLM เชิงพาณิชย์ เช่น GPT-4o mini จาก OpenAI โดยป้อนข้อความจากชื่อผู้ใช้ปลอม 5,000 ราย และให้โมเดลคาดเดาว่าตัวตนจริงคือใครจากรายชื่อผู้สมัคร 1,000 ราย แบบสุ่ม ผลการทดสอบแสดงให้เห็นอัตราความสำเร็จที่น่าตกใจ โดย GPT-4o mini สามารถจับคู่ได้ถูกต้อง 69 รายจาก 5,000 ราย หรือประมาณ 1.4% ของกรณีทั้งหมด แต่สิ่งที่โดดเด่นคือต้นทุนและเวลาในการดำเนินการ

การวิเคราะห์แต่ละตัวตนใช้เวลาเพียงไม่กี่นาที โดยต้นทุนเฉลี่ยอยู่ที่ 0.55 ดอลลาร์สหรัฐ (ราว 18 บาท) ต่อหนึ่งตัวตน หากขยายไปยังผู้ใช้จำนวนมาก ต้นทุนจะยิ่งถูกลงเนื่องจากประสิทธิภาพของ API ที่ให้บริการโมเดลเหล่านี้ นอกจากนี้ ทีมวิจัยยังทดสอบกับโมเดลอื่น ๆ เช่น Claude 3.5 Sonnet และ Gemini 1.5 Pro ซึ่งให้ผลลัพธ์ใกล้เคียงกัน โดย Claude มีความแม่นยำสูงสุดที่ 1.58%

ความเสี่ยงต่อความเป็นส่วนตัวและการใช้งานจริง

การค้นพบนี้ชี้ให้เห็นว่าเทคโนโลยี AI สามารถใช้เป็นเครื่องมือในการสอดแนม (doxxing) ได้อย่างมีประสิทธิภาพ โดยไม่จำเป็นต้องอาศัยข้อมูลเมตาข้อมูล (metadata) เช่น IP address หรือข้อมูลบัญชีธนาคาร แต่เพียงแค่รูปแบบการเขียนที่เป็นเอกลักษณ์ของแต่ละบุคคลเท่านั้น ผู้เชี่ยวชาญด้านความเป็นส่วนตัวเตือนว่าการโจมตีประเภทนี้สามารถนำไปใช้กับแพลตฟอร์มอื่น ๆ เช่น Twitter (ปัจจุบันคือ X) Mastodon หรือฟอรัมต่าง ๆ ได้ง่าย โดยเฉพาะเมื่อผู้ใช้โพสต์ข้อความจำนวนมาก

ในบริบททางธุรกิจและรัฐบาล เทคโนโลยีนี้ก่อให้เกิดความกังวลอย่างมาก หน่วยงานรัฐหรือบริษัทเอกชนอาจนำไปใช้ในการตรวจสอบพนักงาน ลูกค้า หรือคู่แข่ง โดยไม่ต้องขอความยินยอม ตัวอย่างเช่น รัฐบาลที่กดขี่การเมืองอาจใช้เครื่องมือนี้ติดตามนักกิจกรรมที่ใช้ชื่อปลอม นอกจากนี้ ยังมีบริการเชิงพาณิชย์เกิดขึ้นแล้ว เช่น บนแพลตฟอร์ม Fiverr ที่นักพัฒนาเสนอการวิเคราะห์ตัวตนด้วย AI ในราคาเริ่มต้น 50 ดอลลาร์สหรัฐ

ข้อจำกัดและแนวทางป้องกัน

แม้ผลลัพธ์จะน่าประทับใจ แต่ทีมวิจัยระบุข้อจำกัดบางประการ เช่น โมเดลมีความแม่นยำสูงเฉพาะเมื่อมีข้อความจำนวนมาก (อย่างน้อย 20 โพสต์) และผู้ใช้ต้องโพสต์ใน subreddit ที่คล้ายคลึงกัน หากข้อความน้อยหรือหัวข้อแตกต่าง ความแม่นยำจะลดลง นอกจากนี้ การใช้ prompt engineering ที่ซับซ้อน เช่น การให้โมเดลวิเคราะห์ทีละคุณลักษณะการเขียน ช่วยเพิ่มประสิทธิภาพได้มาก

สำหรับแนวทางป้องกัน ผู้เชี่ยวชาญแนะนำให้ผู้ใช้หลีกเลี่ยงการโพสต์ข้อความยาว ๆ ภายใต้ชื่อเดียวกัน ใช้เครื่องมือ obfuscation เช่น การเปลี่ยนรูปแบบการเขียน หรือใช้ VPN ร่วมกับบัญชีแยกต่างหาก อย่างไรก็ตาม ในยุคที่ LLM พัฒนาอย่างรวดเร็ว ช่องโหว่นี้ยากที่จะปิดกั้นได้อย่างสมบูรณ์

สรุปความสำคัญทางธุรกิจ

การวิจัยนี้เป็นเครื่องเตือนใจสำหรับองค์กรธุรกิจที่จัดการข้อมูลผู้ใช้จำนวนมาก บริษัทแพลตฟอร์มโซเชียลมีเดียจำเป็นต้องปรับปรุงระบบความเป็นส่วนตัว โดยบูรณาการเครื่องมือตรวจจับการโจมตีด้วย AI และให้ความรู้แก่ผู้ใช้ นอกจากนี้ ยังเปิดโอกาสทางธุรกิจใหม่ เช่น การพัฒนาเครื่องมือป้องกัน deanonymization หรือบริการตรวจสอบตัวตนที่ปลอดภัยยิ่งขึ้น สุดท้าย การศึกษานี้ย้ำถึงความจำเป็นในการกำกับดูแล AI อย่างเร่งด่วน เพื่อป้องกันการนำไปใช้ในทางที่ผิด

(จำนวนคำประมาณ 728 คำ)

This Article is sponsored by Gnoppix AI (https://www.gnoppix.org)