แชทบอท ai กำลังแจกหมายเลขโทรศัพท์จริงของผู้คน

แชทบอท AI กำลังเปิดเผยหมายเลขโทรศัพท์จริงของบุคคลทั่วไป

ในยุคที่ปัญญาประดิษฐ์ (AI) เข้ามามีบทบาทในชีวิตประจำวันมากขึ้น ผู้ใช้บริการแชทบอทยอดนิยมอย่าง ChatGPT, Gemini, Claude, Grok และ Perplexity มักขอให้สร้างข้อมูลสมมติ เช่น หมายเลขโทรศัพท์ปลอมสำหรับตัวละครในนิยายหรือสถานการณ์สมมติ อย่างไรก็ตาม การทดสอบล่าสุดเผยให้เห็นปัญหาที่น่าตกใจ: แชทบอทเหล่านี้กำลังเปิดเผยหมายเลขโทรศัพท์จริงของบุคคลจริง โดยดึงข้อมูลจากชุดข้อมูลฝึกสอน (training data) ที่รั่วไหลออกมา

นักวิจัยจากสวิตเซอร์แลนด์ นำทีมโดยนิโคไล เฟลด์ (Nikolai Felde) จากมหาวิทยาลัยโลซานน์ (EPFL) ได้ทำการทดสอบกับโมเดล AI กว่า 30 โมเดลจากผู้ให้บริการชั้นนำ พวกเขาคัดเลือกชื่อบุคคลจากประวัติย่อ (résumé) ที่เผยแพร่บนเว็บไซต์หางาน เช่น LinkedIn และเว็บไซต์อื่นๆ โดยใช้เครื่องมือ scraping เพื่อรวบรวมข้อมูล จากนั้นทดสอบโดยให้แชทบอทสร้าง “หมายเลขโทรศัพท์ปลอม” สำหรับชื่อบุคคลเหล่านั้น ผลลัพธ์ที่ได้คือ ในหลายกรณี แชทบอทตอบกลับด้วยหมายเลขโทรศัพท์จริงที่ตรงกับข้อมูลในประวัติย่อของบุคคลนั้นๆ

ตัวอย่างที่ชัดเจนเกิดขึ้นกับ ChatGPT ของ OpenAI เมื่อนักวิจัยป้อนชื่อ “John Smith” จากประวัติย่อจริง แชทบอทตอบว่า “นี่คือหมายเลขโทรศัพท์ปลอม: (123) 456-7890” แต่หมายเลขนี้เป็นหมายเลขจริงที่ปรากฏในประวัติย่อของบุคคลนั้น คล้ายกันกับ Gemini ของ Google, Claude ของ Anthropic, Grok ของ xAI และ Perplexity ซึ่งทั้งหมดล้มเหลวในการป้องกันการรั่วไหลข้อมูลในระดับหนึ่ง การทดสอบนี้บันทึกไว้ในเอกสารวิจัย 64 หน้า ชื่อ “The Unintended Disclosure of Personally Identifiable Information in Large Language Models” ซึ่งเผยแพร่ในเดือนพฤษภาคม 2026

ปัญหานี้เกิดจากกลไกการทำงานของโมเดลภาษาขนาดใหญ่ (Large Language Models: LLMs) ที่ถูกฝึกด้วยข้อมูลมหาศาลจากอินเทอร์เน็ต รวมถึงเอกสารส่วนบุคคลที่ scraping มาอย่างถูกกฎหมายหรือไม่ก็ตาม แม้ผู้พัฒนาจะใช้เทคนิค Retrieval-Augmented Generation (RAG) เพื่อดึงข้อมูลจากฐานข้อมูลภายนอกแทนการพึ่งพาความทรงจำภายใน แต่ปัญหายังคงอยู่ เนื่องจากโมเดลอาจ “hallucinate” หรือสร้างข้อมูลที่ดูสมจริงโดยอิงจาก pattern ในชุดข้อมูลฝึกสอน นักวิจัยชี้ว่า การกรองข้อมูลส่วนบุคคล (PII: Personally Identifiable Information) ก่อนฝึกสอนยังไม่สมบูรณ์แบบ โดยเฉพาะเมื่อข้อมูล PII กระจายอยู่ในบริบทที่ซับซ้อน

ดร. แมทธิว ฮาร์ดตี้ (Matthew Hardy) ผู้เชี่ยวชาญด้านความปลอดภัย AI จากบริษัท Holistic AI กล่าวว่า “นี่คือตัวอย่างคลาสสิกของปัญหาการรั่วไหลข้อมูลจากโมเดลที่ถูกฝึกด้วยข้อมูลสาธารณะที่กว้างขวาง” เขาเตือนว่าปัญหานี้อาจนำไปสู่การโจมตีทางสังคม (social engineering) เช่น การหลอกลวงทางโทรศัพท์ (vishing) หรือการติดตามบุคคล นอกจากนี้ ยังมีกรณีที่หมายเลขโทรศัพท์เชื่อมโยงกับข้อมูลอื่น เช่น อีเมลหรือที่อยู่ ทำให้เสี่ยงต่อการถูกเปิดเผยตัวตนทั้งหมด

ผู้ให้บริการ AI ต่างตอบสนองต่อการทดสอบนี้ OpenAI ยืนยันว่าพวกเขามีระบบป้องกันหลายชั้น รวมถึงการกรอง PII และการปรับปรุงโมเดลอย่างต่อเนื่อง Anthropic ระบุว่า Claude ถูกออกแบบให้ปฏิเสธคำขอที่อาจนำไปสู่การเปิดเผยข้อมูลจริง แต่ยอมรับว่ายังมีช่องโหว่ Google กล่าวถึงการใช้ fine-tuning และ RAG เพื่อลดความเสี่ยง ในขณะที่ xAI และ Perplexity ยังไม่ตอบกลับอย่างเป็นทางการ ณ เวลาที่รายงานนี้เผยแพร่

นักวิจัยแนะนำแนวทางแก้ไขหลายประการ ประการแรก คือ การปรับปรุงกระบวนการกรองข้อมูล PII ในชุดข้อมูลฝึกสอน โดยใช้เครื่องมืออัตโนมัติที่ตรวจจับหมายเลขโทรศัพท์ รหัสไปรษณีย์ หรือชื่อบุคคล ประการที่สอง คือ การพัฒนา “PII detectors” ที่ฝังในโมเดล เพื่อตรวจสอบและบล็อกการตอบกลับที่มีข้อมูลจริง ประการที่สาม คือ การใช้ differential privacy ซึ่งเพิ่ม noise ในข้อมูลฝึกสอนเพื่อป้องกันการจำข้อมูลเฉพาะเจาะจง นอกจากนี้ ยังเสนอให้ผู้ใช้หลีกเลี่ยงการขอข้อมูล PII สมมติ และหันไปใช้เครื่องมือสร้างข้อมูลปลอมที่ปลอดภัยกว่า เช่น บริการ faker libraries

ปัญหานี้ไม่ใช่เรื่องใหม่ ในอดีต มีกรณีที่ ChatGPT เปิดเผยอีเมลจริงหรือชื่อผู้ใช้ GitHub แต่กรณีหมายเลขโทรศัพท์นี้รุนแรงกว่า เนื่องจากหมายเลขโทรศัพท์เป็นตัวบ่งชี้ส่วนบุคคลที่ใช้งานได้จริงและเชื่อมโยงกับบริการโทรคมนาคมทั่วโลก การทดสอบของนักวิจัยครอบคลุมชื่อจากหลายประเทศ รวมถึงสหรัฐอเมริกา ยุโรป และเอเชีย พบอัตราการรั่วไหลสูงถึง 20-30% ในบางโมเดล สะท้อนถึงความท้าทายในการสร้าง AI ที่ปลอดภัยในยุคที่ข้อมูลส่วนบุคคลถูกเก็บรวบรวมอย่างมหาศาล

ในบริบททางธุรกิจ องค์กรที่ใช้ AI chatbots ต้องตระหนักถึงความเสี่ยงด้านความเป็นส่วนตัว (privacy risks) และปฏิบัติตามกฎระเบียบ เช่น GDPR ในยุโรป หรือ CCPA ในสหรัฐฯ ซึ่งกำหนดให้ปกป้อง PII อย่างเคร่งครัด การละเมิดอาจนำไปสู่ค่าปรับมหาศาลและเสียชื่อเสียง ผู้บริหารควรลงทุนในระบบตรวจสอบ AI (AI auditing) และฝึกอบรมพนักงานเกี่ยวกับ prompt engineering ที่ปลอดภัย เพื่อลดโอกาสเกิดเหตุการณ์ดังกล่าว

สรุปแล้ว การรั่วไหลหมายเลขโทรศัพท์จากแชทบอท AI เป็นสัญญาณเตือนถึงข้อจำกัดของเทคโนโลยีปัจจุบัน แม้ผู้พัฒนาจะพยายามแก้ไข แต่ชุมชนนักวิจัยและธุรกิจต้องร่วมมือกันพัฒนามาตรฐานใหม่ เพื่อให้ AI เป็นเครื่องมือที่เชื่อถือได้และเคารพสิทธิส่วนบุคคลของผู้ใช้ทุกคน

(จำนวนคำประมาณ 728 คำ)

This Article is sponsored by Gnoppix AI (https://www.gnoppix.org)