นักวิจัยผู้เขียนงานวิจัยแสดงความไม่พอใจ ถอนเอกสารวิชาการหลังพบว่ารีวิวเวอร์คือโมเดลภาษาขั้นสูงที่ทำงานอย่างขี้เกียจ
ในวงการวิชาการ โดยเฉพาะสาขาคอมพิวเตอร์ไซน์และปัญญาประดิษฐ์ (AI) กระบวนการรีวิวเอกสารวิชาการถือเป็นหัวใจสำคัญในการรับประกันคุณภาพและความน่าเชื่อถือของงานวิจัย อย่างไรก็ตาม เหตุการณ์ล่าสุดที่เกิดขึ้นได้สร้างความฮือฮาและความกังวล เมื่อนักวิจัยหลายรายตัดสินใจถอนเอกสารวิจัยของตนออกจากการพิจารณา หลังจากค้นพบว่ารีวิวเวอร์บางรายใช้โมเดลภาษาขั้นสูง (Large Language Models: LLMs) เช่น ChatGPT หรือเครื่องมือ AI คล้ายกันในการประเมินงาน โดยให้反馈ที่ผิวเผิน ขาดความลึกซึ้ง และมีลักษณะของการสร้างเนื้อหาแบบอัตโนมัติที่ไม่ใส่ใจ
เหตุการณ์นี้เริ่มปรากฏชัดเจนในงานประชุมวิชาการชั้นนำ เช่น NeurIPS (Conference on Neural Information Processing Systems) และ ICLR (International Conference on Learning Representations) ซึ่งเป็นเวทีสำคัญสำหรับนักวิจัย AI ทั่วโลก นักวิจัยรายหนึ่งที่ยื่นเอกสารไปยัง NeurIPS ปี 2024 ได้รับรีวิวที่ดูเหมือนถูกคัดลอกมาจากบทคัดย่อ (abstract) ของเอกสารตนเองโดยตรง โดยรีวิวเวอร์ระบุว่า “งานนี้มีแนวคิดที่น่าสนใจ แต่ขาดการทดลองเชิงประจักษ์” ซึ่งเป็นประโยคทั่วไปที่โมเดล AI มักผลิตออกมาโดยไม่วิเคราะห์เนื้อหาลึก นอกจากนี้ รีวิวดังกล่าวยังมีลักษณะการใช้ภาษาที่ซ้ำซาก สไตล์การเขียนที่เป็นทางการเกินจริง และขาดการอ้างอิงเฉพาะเจาะจง ซึ่งเป็นสัญญาณบ่งชี้ชัดเจนของการใช้ AI
ตัวอย่างที่ชัดเจนอีกกรณีหนึ่งเกิดขึ้นกับนักวิจัยที่ยื่นงานไปยัง ICLR โดยรีวิวเวอร์คนหนึ่งให้คะแนนต่ำพร้อมเหตุผลที่คลุมเครือ เช่น “วิธีการนี้คล้ายกับงานที่มีอยู่แล้วในวรรณกรรม” แต่เมื่อตรวจสอบ พบว่ารีวิวไม่ได้อ้างอิงเอกสารเฉพาะใดๆ และมีโครงสร้างประโยคที่เหมือนกับ output จากโมเดล GPT-4 นักวิจัยผู้นี้ซึ่งมีประสบการณ์ในการพัฒนาโมเดลภาษาเอง สามารถตรวจจับลายเซ็นต์ (hallmarks) ของ AI ได้อย่างรวดเร็ว เช่น การใช้คำเชื่อมที่ซ้ำๆ การหลีกเลี่ยงการวิจารณ์เชิงลึก และการสรุปที่กว้างเกินไป ส่งผลให้เจ้าของเอกสารตัดสินใจถอนงานทันที โดยประกาศผ่านโซเชียลมีเดียว่า “รีวิวนี้ไม่ใช่การประเมินจากมนุษย์ แต่เป็นการ copy-paste จาก LLM ที่ขี้เกียจ”
ไม่ใช่แค่กรณีเดี่ยวๆ แต่มีรายงานคล้ายกันเพิ่มขึ้นอย่างต่อเนื่อง นักวิจัยจากมหาวิทยาลัยชั้นนำในยุโรปและสหรัฐอเมริกาได้แชร์ประสบการณ์ผ่านแพลตฟอร์ม X (เดิมคือ Twitter) และ Reddit โดยบางรายพบว่ารีวิวเวอร์ถึงขั้น paste ข้อความจากเอกสารต้นฉบับลงใน prompt ของ ChatGPT แล้วนำผลลัพธ์มาใช้โดยตรง สิ่งนี้ไม่เพียงทำให้กระบวนการ peer review เสียหาย แต่ยังกระทบต่อความเชื่อมั่นในระบบโดยรวม เนื่องจากรีวิว AI มักให้反馈เชิงบวกผิวเผินเพื่อหลีกเลี่ยงการวิจารณ์ที่เข้มข้น ซึ่งขัดกับหลักการ peer review ที่ต้องเข้มงวดและสร้างสรรค์
ผู้เชี่ยวชาญในวงการวิชาการมองว่า ปัญหานี้เกิดจากความกดดันในระบบรีวิวที่เพิ่มขึ้น โดยงานประชุมใหญ่ๆ อย่าง NeurIPS รับเอกสารนับหมื่นรายการต่อปี ทำให้รีวิวเวอร์ซึ่งส่วนใหญ่เป็นนักวิจัยอาสา ต้องรับผิดชอบหลายชิ้นต่อคน การใช้ AI ช่วยประหยัดเวลาในขั้นตอนเบื้องต้น เช่น สรุปเนื้อหาหรือตรวจไวยากรณ์ ดูเหมือนจะน่าดึงดูด แต่เมื่อใช้แทนการวิเคราะห์มนุษย์ทั้งหมด จะนำไปสู่รีวิวที่ไร้สาระ นอกจากนี้ ยังมีประเด็นจริยธรรม โดยคณะกรรมการจัดงานหลายแห่ง เช่น OpenReview แพลตฟอร์มรีวิวแบบเปิด ห้ามใช้ AI ในการรีวิวอย่างชัดเจน แต่การบังคับใช้ยังเป็นปัญหา เนื่องจากยากต่อการตรวจสอบ
ผลกระทบจากการถอนเอกสารเหล่านี้ไม่ใช่แค่การสูญเสียโอกาสของนักวิจัยผู้เขียน แต่ยังสะท้อนถึงวิกฤตในระบบ peer review ของยุค AI บางนักวิจัยเรียกร้องให้มีการตรวจสอบรีวิวด้วยเครื่องมือตรวจจับ AI เช่น GPTZero หรือ Originality.ai เพื่อกรองรีวิวปลอม ขณะที่บางส่วนเสนอให้ปรับปรุงระบบ เช่น ลดจำนวนเอกสารต่อรีวิวเวอร์ หรือใช้การรีวิวแบบสองชั้น (human-AI hybrid) อย่างไรก็ตาม จนถึงปัจจุบัน คณะกรรมการ NeurIPS และ ICLR ยังไม่มีการตอบสนองอย่างเป็นทางการต่อเหตุการณ์เหล่านี้
เหตุการณ์ดังกล่าวเป็นเครื่องเตือนใจถึงความจำเป็นในการรักษามาตรฐานมนุษย์ในกระบวนการทางวิชาการ แม้ AI จะเป็นเครื่องมือที่ทรงพลัง แต่การใช้อย่างไม่รับผิดชอบอาจทำลายความน่าเชื่อถือของวงการได้ในที่สุด นักวิจัยที่ได้รับผลกระทบหลายรายยืนยันว่าจะยื่นงานไปยังเวทีอื่นที่โปร่งใสกว่า เพื่อหลีกเลี่ยงการเสียเวลากับรีวิว “ขี้เกียจ” จากโมเดลภาษา
(จำนวนคำประมาณ 728 คำ)
This Article is sponsored by Gnoppix AI (https://www.gnoppix.org)