Gemini 3 Pro และ GPT-5 ยังคงล้มเหลวในงานฟิสิกส์ที่ซับซ้อนซึ่งออกแบบมาสำหรับการวิจัยทางวิทยาศาสตร์จริง

Gemini 3 Pro และ GPT-5 ยังล้มเหลวในงานฟิสิกส์ที่ซับซ้อนที่ออกแบบมาสำหรับการวิจัยทางวิทยาศาสตร์จริง

ในยุคที่ปัญญาประดิษฐ์ (AI) ก้าวหน้าอย่างรวดเร็ว โมเดลภาษาขนาดใหญ่ (Large Language Models: LLMs) เช่น Gemini 3 Pro ของ Google และ GPT-5 ของ OpenAI ได้รับการยกย่องว่ามีศักยภาพสูงในการแก้ปัญหาที่ซับซ้อน อย่างไรก็ตาม การทดสอบล่าสุดเผยให้เห็นว่ายังคงมีความล้มเหลวอย่างชัดเจนเมื่อเผชิญหน้ากับงานฟิสิกส์ระดับสูงที่ออกแบบมาสำหรับการวิจัยทางวิทยาศาสตร์จริง นักวิจัยจากสถาบันเทคโนโลยีแมสซาชูเซตส์ (MIT) และสถาบันอื่นๆ ได้พัฒนาชุด基准การทดสอบที่เรียกว่า SciArena ซึ่งประกอบด้วยปัญหาฟิสิกส์ 100 ข้อที่ต้องการการคิดเชิงวิทยาศาสตร์ขั้นสูง ชุดทดสอบนี้มุ่งเน้นไปที่ปัญหาที่มนุษย์นักฟิสิกส์ระดับดุษฎีบัณฑิตต้องใช้เวลาหลายชั่วโมงหรือหลายวันในการแก้ไข

SciArena ไม่ใช่ชุดคำถามแบบทดสอบทั่วไป แต่เป็นปัญหาที่จำลองสถานการณ์จริงในงานวิจัยฟิสิกส์ เช่น การคำนวณพลศาสตร์ของไหลในระบบซับซ้อน การวิเคราะห์สนามแม่เหล็กในพลาสมา หรือการจำลองปฏิกิริยาควอนตัมในสภาวะ极端 ปัญหาเหล่านี้ต้องการไม่เพียงความรู้ทางทฤษฎี แต่ยังรวมถึงการใช้เหตุผลเชิงตัวเลข การตรวจสอบสมมติฐาน และการหลีกเลี่ยงข้อผิดพลาดที่พบบ่อยในงานวิทยาศาสตร์ นักวิจัยได้คัดเลือกปัญหาจากเอกสารวิจัยจริงและปรับแต่งให้เหมาะสมสำหรับการทดสอบ AI โดยให้โมเดลตอบคำถามแบบปลายเปิด พร้อมอธิบายขั้นตอนการแก้ปัญหาอย่างละเอียด

ผลการทดสอบที่น่าตกใจคือ แม้แต่โมเดลชั้นนำอย่าง Gemini 3 Pro, o3 (รุ่นล่าสุดของ OpenAI), Claude 3.5 Sonnet และ GPT-4o ก็ยังทำผลงานได้ต่ำกว่ามาตรฐานที่ยอมรับได้ โดยอัตราความสำเร็จเฉลี่ยอยู่ที่เพียง 20-30% เท่านั้น Gemini 3 Pro ซึ่งถูกโปรโมตว่าเป็นโมเดลที่ทรงพลังที่สุดของ Google ในขณะนั้น ทำได้เพียง 28% ขณะที่ GPT-5 ในเวอร์ชันทดสอบเบื้องต้นทำได้ใกล้เคียงกันที่ 31% โมเดลเหล่านี้มักให้คำตอบที่ดูน่าเชื่อถือในเบื้องต้น แต่เมื่อตรวจสอบอย่างละเอียด พบข้อผิดพลาดพื้นฐาน เช่น การคำนวณทางคณิตศาสตร์ผิดพลาด การตีความสมการไม่ถูกต้อง หรือการเพิกเฉยต่อเงื่อนไขทางกายภาพที่สำคัญ

ตัวอย่างปัญหาหนึ่งใน SciArena คือ การคำนวณเสถียรภาพของดาวนิวตรอนในสนามโน้มถ่วงที่เข้มข้น โดยโมเดลต้องพิจารณาการกระจายความหนาแน่นของสสารและผลกระทบจากสนามแม่เหล็ก Gemini 3 Pro ให้คำตอบที่ซับซ้อนแต่ผิดพลาดในการประมาณค่าพารามิเตอร์หลัก ทำให้ผลลัพธ์เบี่ยงเบนจากค่าจริงถึง 40% ในทางกลับกัน Claude 3.5 Sonnet พยายามใช้เครื่องมือเสริม เช่น โค้ด Python สำหรับจำลอง แต่โค้ดที่สร้างขึ้นมีบั๊กที่นำไปสู่การคำนวณวนลูปไม่สิ้นสุด ปัญหาอีกข้อคือ การวิเคราะห์การแผ่รังสีในหลุมดำ โดย GPT-4o สับสนระหว่างทฤษฎีโฮว์กิงเรเดียชันกับเอฟเฟกต์ Doppler ทำให้คำตอบขาดความถูกต้องทางฟิสิกส์

สาเหตุหลักของความล้มเหลวนี้มาจากข้อจำกัดพื้นฐานของ LLMs โมเดลเหล่านี้ถูกฝึกฝนจากข้อมูลข้อความจำนวนมหาศาล แต่ขาดความสามารถในการทำเหตุผลเชิงตัวเลขที่แท้จริง (symbolic reasoning) และการตรวจสอบข้อเท็จจริงด้วยตัวเอง พวกมันมัก “หลอน” (hallucinate) โดยสร้างข้อมูลที่ดูสมจริงแต่ไม่ถูกต้อง โดยเฉพาะในโดเมนเฉพาะทางอย่างฟิสิกส์ทฤษฎี นอกจากนี้ การใช้เครื่องมือภายนอก เช่น เครื่องคำนวณหรือซอฟต์แวร์จำลอง ยังไม่ช่วยได้มากนัก เนื่องจากโมเดลไม่สามารถกำหนดโค้ดที่ปราศจากข้อผิดพลาดได้อย่างสม่ำเสมอ

การทดสอบนี้เปรียบเทียบกับ基准อื่นๆ เช่น GPQA (Graduate-Level Google-Proof Q&A) ซึ่งเป็นชุดคำถามฟิสิกส์ระดับบัณฑิตศึกษา แต่ SciArena เข้มข้นกว่าเพราะต้องการขั้นตอนการแก้ปัญหาเต็มรูปแบบ ไม่ใช่แค่คำตอบสั้นๆ ผลลัพธ์คล้ายคลึงกับการทดสอบก่อนหน้า เช่น ในปี 2023 ที่ GPT-4 ทำได้เพียง 50% ในปัญหาฟิสิกส์ระดับปริญญาโท แสดงให้เห็นว่าความก้าวหน้าของโมเดลใหม่ๆ ไม่ได้แปลว่าพร้อมสำหรับงานวิจัยจริง นักวิจัยชี้ว่าการพัฒนา AI สำหรับวิทยาศาสตร์ต้องเน้นการผสานรวมกับเครื่องมือเชิงตัวเลข เช่น symbolic solvers หรือ hybrid systems ที่รวม neural networks กับ traditional computation

นัยสำคัญของผลการทดสอบนี้ต่อชุมชนวิทยาศาสตร์และธุรกิจคือ AI ยังไม่สามารถแทนที่นักวิจัยมนุษย์ในงานฟิสิกส์ที่ซับซ้อนได้ ในอุตสาหกรรม เช่น พลังงานนิวเคลียร์ การสำรวจอวกาศ หรือเซมิคอนดักเตอร์ การพึ่งพา AI อาจนำไปสู่ความเสี่ยงด้านความปลอดภัยและความถูกต้อง สถาบันวิจัยควรลงทุนใน benchmark ใหม่ๆ เพื่อวัดความสามารถที่แท้จริง และผู้พัฒนาโมเดลต้องปรับปรุงการฝึกฝนให้เน้น reasoning chains ที่ยาวขึ้นและการตรวจสอบ self-consistency

แม้จะมีความก้าวหน้ามากมาย แต่ SciArena ย้ำเตือนว่าการเดินทางสู่ AGI (Artificial General Intelligence) ที่สามารถจัดการงานวิทยาศาสตร์จริงยังอีกยาวไกล นักวิจัยคาดหวังว่าการทดสอบชุดนี้จะเป็นมาตรฐานใหม่ในการประเมินโมเดล AI สำหรับการใช้งานเชิงวิชาการและอุตสาหกรรม

(จำนวนคำประมาณ 728 คำ)

This Article is sponsored by Gnoppix AI (https://www.gnoppix.org)