เกณฑ์มาตรฐานใหม่เผยให้เห็นว่า โมเดลภาษาขนาดใหญ่ (LLMs) ยังไม่สามารถทำการวิจัยทางวิทยาศาสตร์จริงได้
ในยุคที่ปัญญาประดิษฐ์ (AI) ก้าวหน้าอย่างรวดเร็ว นักวิจัยจากสถาบันเทคโนโลยีแห่งสหพันธรัฐสวิส (EPFL) สถาบันวิทยาศาสตร์และเทคโนโลยีแห่งออสเตรีย (IST Austria) และมหาวิทยาลัยอื่นๆ ได้พัฒนาเกณฑ์มาตรฐานใหม่ชื่อ SciArena เพื่อประเมินความสามารถของโมเดลภาษาขนาดใหญ่ (LLMs) ในการทำการวิจัยทางวิทยาศาสตร์แบบครบวงจร ผลการทดสอบชี้ให้เห็นอย่างชัดเจนว่า แม้โมเดลชั้นนำอย่าง GPT-4o, Claude 3.5 Sonnet หรือ Llama 3.1 จะมีความสามารถสูงในด้านการตอบคำถามทั่วไป แต่พวกมันยังห่างไกลจากระดับมนุษย์ในการทำวิจัยวิทยาศาสตร์จริง
SciArena ออกแบบมาเพื่อจำลองกระบวนการวิจัยทางชีววิทยาศาสตร์ตั้งแต่ต้นจนจบ โดยมุ่งเน้นที่งานจริงที่นักวิทยาศาสตร์ต้องเผชิญ เช่น การทบทวนวรรณกรรม การสร้างสมมติฐาน การออกแบบการทดลอง การวิเคราะห์ข้อมูล การตีความผลลัพธ์ และการเขียนรายงานวิจัย เกณฑ์มาตรฐานนี้แตกต่างจาก基准อื่นๆ อย่าง GPQA หรือ BioBench ที่มักทดสอบเฉพาะการตอบคำถามเชิงความรู้ โดย SciArena ใช้ผู้เชี่ยวชาญระดับดุษฎีบัณฑิตด้านชีววิทยา 10 คน เป็นผู้ประเมินคะแนน โดยให้คะแนนเต็ม 10 คะแนนต่อแต่ละขั้นตอน
กระบวนการทดสอบเริ่มต้นด้วยการมอบหมายหัวข้อวิจัยจริง 3 หัวข้อที่ยังไม่มีคำตอบในวรรณกรรมปัจจุบัน เช่น “โปรตีน kinase ตัวใดมีบทบาทสำคัญในการปรับการแสดงออกของยีนในเซลล์มะเร็งตับอ่อนภายใต้สภาวะขาดออกซิเจน” โมเดล LLMs จะต้องดำเนินการทั้งหมดด้วยตัวเอง โดยบางการทดสอบอนุญาตให้ใช้เครื่องมือเสริม เช่น การรันโค้ด Python หรือการค้นหาเว็บ แต่ต้องไม่ใช้ข้อมูลจากอินเทอร์เน็ตโดยตรงเพื่อป้องกันการคัดลอก
ผลการทดสอบเผยให้เห็นประสิทธิภาพที่ต่ำกว่าที่คาดไว้อย่างมาก ในงานทบทวนวรรณกรรม โมเดลชั้นนำอย่าง GPT-4o ได้คะแนนเฉลี่ย 4.3/10 ซึ่งต่ำกว่ามนุษย์ที่ได้ 9.1/10 โดยปัญหาหลักคือการหลอน (hallucination) ที่โมเดลมักอ้างอิงเอกสารที่ไม่มีจริงหรือสรุปผิดพลาด สำหรับการสร้างสมมติฐาน GPT-4o mini ทำได้ดีที่สุดที่ 3.0/10 แต่ Claude 3.5 Sonnet ทำได้เพียง 1.3/10 ซึ่งแสดงถึงความอ่อนแอในการคิดเชิงสร้างสรรค์และเชื่อมโยงแนวคิดใหม่
ขั้นตอนที่ท้าทายที่สุดคือการออกแบบการทดลองและการวิเคราะห์ข้อมูล โดยโมเดลส่วนใหญ่ล้มเหลวในการออกแบบการทดลองที่ถูกต้องทางวิทยาศาสตร์ เช่น การกำหนดตัวแปรควบคุมหรือการใช้สถิติที่เหมาะสม GPT-4o ได้คะแนนสูงสุด 2.8/10 ในส่วนนี้ ขณะที่ Llama 3.1 405B ได้เพียง 0.6/10 แม้จะใช้เครื่องมือรันโค้ด แต่โมเดลยังตีความผลลัพธ์ผิดพลาดบ่อยครั้ง เช่น สรุปว่ามีความสัมพันธ์เชิงสาเหตุจากข้อมูลที่เป็นเพียงความสัมพันธ์แบบถดถอย
ในส่วนการตีความผลลัพธ์และการเขียนรายงาน โมเดลทำได้แย่ยิ่งขึ้น โดยคะแนนเฉลี่ยต่ำกว่า 2/10 เนื่องจากขาดความสามารถในการประเมินความไม่แน่นอนของข้อมูลหรือเชื่อมโยงกลับไปยังสมมติฐานเดิม นักวิจัยชี้ว่า แม้ LLMs จะเก่งในการสร้างข้อความที่ดูน่าเชื่อถือ แต่พวกมันขาด “common sense” ทางวิทยาศาสตร์และไม่สามารถรับมือกับความไม่แน่นอนที่เป็นหัวใจของการวิจัยจริง
ตารางสรุปผลการทดสอบแสดงให้เห็นว่า โมเดล GPT-4o mini ชนะโดยรวมด้วยคะแนน 21% รองลงมาคือ GPT-4o (20%) และ Claude 3.5 Sonnet (19%) ในขณะที่โมเดลโอเพ่นซอร์สอย่าง Llama 3.1 ทำได้เพียง 6-12% การทดสอบซ้ำหลายรอบยืนยันความสม่ำเสมอของผลลัพธ์ โดยความแปรปรวนต่ำ แสดงว่า LLMs ไม่สามารถปรับปรุงได้จากการทดลองซ้ำ
นักวิจัยสรุปว่า SciArena เผยจุดอ่อนหลักของ LLMs คือ การขาดความสามารถในการค้นพบความรู้ใหม่ (novel discovery) พวกมันเหมาะสำหรับงานช่วยเหลือ เช่น สรุปเอกสารหรือร่างโค้ดเบื้องต้น แต่ไม่สามารถแทนที่นักวิทยาศาสตร์มนุษย์ได้ การพัฒนาในอนาคตอาจต้องเน้นการผสานเครื่องมือเฉพาะทางและการฝึกฝนด้วยข้อมูลการวิจัยจริงมากขึ้น อย่างไรก็ตาม ผลนี้เตือนใจว่าการอ้างอิง LLMs ในงานวิจัยต้องระมัดระวัง เพื่อหลีกเลี่ยงข้อผิดพลาดที่อาจนำไปสู่ผลกระทบร้ายแรงในวงการวิทยาศาสตร์
เกณฑ์มาตรฐาน SciArena มีให้ดาวน์โหลดฟรีที่ GitHub พร้อมโค้ดและข้อมูลทั้งหมด เพื่อให้นักวิจัยสามารถทดสอบโมเดลใหม่ๆ ได้ ผลงานนี้ตีพิมพ์ใน arXiv และได้รับความสนใจอย่างกว้างขวางในชุมชน AI
(จำนวนคำประมาณ 720 คำ)
This Article is sponsored by Gnoppix AI (https://www.gnoppix.org)