อ้างอิงที่ถูกประดิษฐ์ขึ้นกำลังผ่านการตรวจสอบแบบ peer review ในงานประชุม AI ชั้นนำ และเครื่องมือโอเพ่นซอร์สใหม่จะช่วยแก้ปัญหานี้
ในวงการวิจัยปัญญาประดิษฐ์ (AI) ซึ่งกำลังเติบโตอย่างรวดเร็ว ปัญหาการอ้างอิงที่ถูกประดิษฐ์ขึ้นหรือที่เรียกว่า “hallucinated references” โดยโมเดลภาษาขนาดใหญ่ (Large Language Models: LLMs) กำลังกลายเป็นภัยคุกคามต่อความน่าเชื่อถือของงานวิจัย โดยเฉพาะในงานประชุมชั้นนำระดับโลก เช่น NeurIPS, ICML และ ICLR ล่าสุด นักวิจัยจากมหาวิทยาลัยซูริค (University of Zurich) และสถาบันอื่นๆ ได้เผยแพร่งานวิจัยที่ชี้ให้เห็นว่าอ้างอิงปลอมเหล่านี้กำลังหลุดรอดการตรวจสอบแบบ peer review และปรากฏในเอกสารที่ได้รับการยอมรับแล้ว
งานวิจัยดังกล่าวซึ่งมีชื่อว่า “Hallucinated References in Peer-Reviewed Publications Pass Peer Review” ได้ตรวจสอบเอกสารที่ได้รับการยอมรับในงานประชุม AI ชั้นนำ 3 แห่งระหว่างปี 2022 ถึง 2024 พบอ้างอิงที่ถูกประดิษฐ์ขึ้นทั้งหมด 22 แห่งในเอกสาร 15 ฉบับ คิดเป็นอัตราส่วนที่ไม่น้อย โดยอ้างอิงเหล่านี้ถูกสร้างขึ้นโดย LLMs เช่น ChatGPT หรือโมเดลคล้ายกัน ซึ่งมักผลิตชื่อผู้เขียน ชื่อบทความ และข้อมูลการตีพิมพ์ที่ดูสมจริงแต่ไม่มีตัวตนจริง
ตัวอย่างที่ชัดเจนคือ ในเอกสารที่ยอมรับใน NeurIPS 2023 มีการอ้างอิงไปยังบทความชื่อ “Dynamic Attention Alignment for Neural Machine Translation” โดยผู้เขียนสมมติชื่อ Yiming Yang และคณะ ซึ่งค้นหาแล้วไม่พบในฐานข้อมูลวิชาการใดๆ หรืออีกกรณีหนึ่งใน ICLR 2024 ที่อ้างอิง “Contrastive Learning with Hard Negative Samples” โดย Kaiming He ซึ่งแม้ชื่อผู้เขียนจะมีจริง แต่รายละเอียดบทความไม่ตรงกับผลงานจริงของเขา นักวิจัยชี้ว่าปัญหานี้เกิดจากการที่ LLMs ถูกใช้ช่วยเขียนเอกสารวิจัย โดยเฉพาะส่วน literature review ซึ่งผู้วิจัยมัก copy-paste ผลลัพธ์โดยไม่ตรวจสอบ ทำให้อ้างอิงปลอมแพร่กระจาย
การตรวจสอบเพิ่มเติมพบว่านักวิจัยส่วนใหญ่ยอมรับว่าเคยใช้ LLMs ช่วยในการอ้างอิง โดย 17% ยอมรับว่าอ้างอิงที่สร้างโดย AI หลุดเข้าไปในงานของตนโดยไม่ตั้งใจ สาเหตุหลักมาจากความเร่งรีบในการส่งงานและปริมาณเอกสารที่ท่วมท้นในงานประชุมใหญ่ ซึ่ง reviewer ต้องตรวจนับหมื่นฉบับ การทดลองกับ reviewer จริงแสดงให้เห็นว่าพวกเขาตรวจจับอ้างอิงปลอมได้เพียง 41% เท่านั้น สูงสุดที่ตรวจได้ถูกต้อง 60% ในบางกรณี แต่ส่วนใหญ่พลาดเพราะอ้างอิงปลอมดูน่าเชื่อถือเกินไป
เพื่อแก้ไขปัญหานี้ Patrick Hartnett นักวิจัยจาก Indiana University Bloomington ได้พัฒนาเครื่องมือโอเพ่นซอร์สชื่อ PaperQA ซึ่งเป็นเครื่องมือตรวจสอบอ้างอิงอัตโนมัติที่ออกแบบมาเพื่อใช้งานในกระบวนการ peer review โดยเฉพาะ PaperQA ทำงานโดยดึงไฟล์ PDF ของเอกสารวิจัย วิเคราะห์ส่วน references จากนั้นค้นหาในฐานข้อมูล Semantic Scholar เพื่อยืนยันการมีอยู่และความถูกต้องของอ้างอิงแต่ละรายการ
กระบวนการทำงานของ PaperQA แบ่งเป็นขั้นตอนหลักดังนี้ ประการแรก คือการดึงข้อมูล bibliographies จาก PDF โดยใช้ไลบรารีอย่าง GROBID หรือ CERMINE เพื่อแยกชื่อบทความ ผู้เขียน ปีที่ตีพิมพ์ และ DOI จากนั้นค้นหาใน Semantic Scholar ซึ่งมีฐานข้อมูลกว่า 200 ล้านเอกสาร หากพบผลลัพธ์ที่ตรงกัน PaperQA จะให้คะแนนความมั่นใจ (confidence score) สูง หากไม่พบหรือข้อมูลไม่ตรง จะแจ้งเตือนว่าเป็นไปได้ว่าจะเป็น hallucinated reference นอกจากนี้ยังรองรับการตรวจสอบเนื้อหาโดยสรุป abstract เพื่อยืนยันความเกี่ยวข้อง
ประสิทธิภาพของ PaperQA โดดเด่นในการทดสอบกับชุดข้อมูล benchmark ที่นักวิจัยสร้างขึ้น โดยมีอ้างอิงปลอม 1,000 รายการจาก LLMs ต่างๆ PaperQA ตรวจจับได้ถูกต้อง 91.5% ลด false positive ลงเหลือต่ำมากเมื่อเทียบกับเครื่องมืออื่นๆ เช่น ROUGE-based detectors ที่ผิดพลาดสูงถึง 30% PaperQA ยังประมวลผลเอกสารได้รวดเร็ว ใช้เวลาไม่เกิน 1 นาทีต่อเอกสาร และสามารถรวมเข้ากับระบบ OpenReview หรือแพลตฟอร์ม peer review อื่นๆ ได้ง่ายผ่าน API
นักวิจัยเรียกร้องให้คณะกรรมการงานประชุม AI ชั้นนำนำ PaperQA มาใช้ในกระบวนการตรวจสอบ โดยเฉพาะอย่างยิ่งก่อนการยอมรับเอกสาร เช่นเดียวกับที่ NeurIPS ได้เริ่มทดลองเครื่องมือตรวจ plagiarism ไปแล้ว การนำเครื่องมือนี้มาใช้จะช่วยยกระดับคุณภาพงานวิจัย ลดความเสี่ยงจาก AI hallucinations และรักษาความน่าเชื่อถือของวงการ นอกจากนี้ PaperQA ยังเป็นโอเพ่นซอร์สภายใต้ใบอนุญาต MIT สามารถดาวน์โหลดได้จาก GitHub และปรับแต่งได้ตามความต้องการ
ปัญหานี้ไม่เพียงกระทบงานประชุมเท่านั้น แต่ยังลุกลามสู่วารสารวิชาการและรายงานอุตสาหกรรม หากไม่แก้ไข อาจนำไปสู่การอ้างอิงผิดพลาดในงานต่อเนื่อง สร้างผลกระทบ domino ต่อการพัฒนา AI ในอนาคต PaperQA จึงเป็นก้าวสำคัญในการสร้างระบบตรวจสอบที่แข็งแกร่ง โดยอาศัยเทคโนโลยี AI เองมาช่วยตรวจสอบข้อบกพร่องของมัน
(จำนวนคำประมาณ 720 คำ)
This Article is sponsored by Gnoppix AI (https://www.gnoppix.org)