GPT-5.2 ครองอันดับหนึ่งในบททดสอบ FrontierScience ใหม่ของ OpenAI แต่ประสบปัญหากับงานวิจัยจริง
OpenAI ได้เปิดตัวบททดสอบใหม่ชื่อ FrontierScience ซึ่งออกแบบมาเพื่อประเมินความสามารถของปัญญาประดิษฐ์ (AI) ในการจัดการกับงานวิจัยทางวิทยาศาสตร์ขั้นสูง โดยบททดสอบนี้มุ่งเน้นไปที่การทดสอบความสามารถในการทำความเข้าใจและแก้ไขปัญหาจากเอกสารวิจัยล่าสุดจาก arXiv ซึ่งเป็นคลังข้อมูลทางวิชาการชั้นนำ บททดสอบประกอบด้วย 200 เอกสารวิจัยที่ตีพิมพ์ในช่วง 6 เดือนที่ผ่านมา โดยแบ่งงานออกเป็นสามประเภทหลัก ได้แก่ การสรุปเอกสาร การตอบคำถามเชิงลึก และการเสนอแนวทางทดลองใหม่
ผลการทดสอบเผยให้เห็นว่า GPT-5.2 ซึ่งเป็นโมเดลล่าสุดจาก OpenAI สามารถทำคะแนนสูงสุดได้ถึง 56.1% ซึ่งสูงกว่าโมเดลอื่นๆ เช่น o1-preview ที่ทำได้ 50.4% Claude 3.5 Sonnet จาก Anthropic ทำได้ 48.2% และ GPT-4o ทำได้ 45.7% คะแนนนี้ถือเป็นการก้าวกระโดดที่สำคัญ โดยเฉพาะเมื่อเทียบกับโมเดลรุ่นก่อนหน้า ซึ่งแสดงให้เห็นถึงความก้าวหน้าของ OpenAI ในการพัฒนาความสามารถด้านวิทยาศาสตร์
อย่างไรก็ตาม ผู้พัฒนาบททดสอบจาก Epoch AI ชี้ให้เห็นว่าคะแนนที่ได้อาจไม่สะท้อนถึงความสามารถในการทำวิจัยจริง เนื่องจาก FrontierScience ใช้คำถามที่มนุษย์ผู้เชี่ยวชาญสามารถตอบได้ในเวลาไม่เกิน 15 นาทีต่อคำถาม ซึ่งแตกต่างจาก GPQA (Graduate-Level Google-Proof Q&A Benchmark) ที่ใช้คำถามยากระดับบัณฑิตศึกษาซึ่งมนุษย์ต้องใช้เวลาหลายชั่วโมงในการตอบ ใน GPQA GPT-5.2 ทำคะแนนได้เพียง 41.5% ซึ่งต่ำกว่า o1-preview ที่ทำได้ 46.5% และยังคงต่ำกว่ามาตรฐานที่มนุษย์ผู้เชี่ยวชาญทำได้ถึง 65%
การเปรียบเทียบนี้ชี้ให้เห็นถึงจุดอ่อนของ GPT-5.2 ในสถานการณ์วิจัยจริง ซึ่งต้องอาศัยการใช้เหตุผลเชิงลึก การเชื่อมโยงแนวคิดข้ามสาขา และการจัดการกับข้อมูลที่ซับซ้อนและไม่สมบูรณ์ นอกจากนี้ บททดสอบ FrontierScience ยังมีข้อจำกัดในด้านความหลากหลายของสาขาวิชา โดยส่วนใหญ่มาจากฟิสิกส์ คณิตศาสตร์ และวิทยาการคอมพิวเตอร์ ซึ่งอาจทำให้โมเดลที่ฝึกฝนมาดีในสาขาเหล่านี้ได้เปรียบ
OpenAI อธิบายว่า FrontierScience เป็นเครื่องมือที่ช่วยวัด “frontier capabilities” หรือความสามารถขั้นสูงที่อยู่แนวหน้า โดยมุ่งหวังให้เป็นมาตรฐานใหม่สำหรับการประเมิน AI ในงานวิทยาศาสตร์ Sam Altman ผู้ก่อตั้ง OpenAI ระบุว่าบททดสอบนี้จะช่วยเร่งการพัฒนา AI ที่สามารถช่วยนักวิจัยมนุษย์ได้อย่างมีประสิทธิภาพมากขึ้น อย่างไรก็ตาม นักวิจารณ์มองว่าคะแนนสูงของ GPT-5.2 อาจมาจากการฝึกฝนข้อมูลที่คล้ายคลึงกันมากกว่าความเข้าใจที่แท้จริง
ในการทดสอบย่อย GPT-5.2 แสดงศักยภาพเด่นชัดในงานสรุปเอกสาร โดยทำคะแนนได้ 72% ซึ่งสูงกว่าโมเดลอื่นๆ แต่ในงานตอบคำถามเชิงเหตุผลและการเสนอทดลองใหม่ คะแนนลดลงเหลือ 45-50% ซึ่งบ่งชี้ว่ายังขาดความสามารถในการคิดสร้างสรรค์และสมมติฐานใหม่ เมื่อเปรียบเทียบกับมนุษย์ ผู้เชี่ยวชาญสามารถทำคะแนนเฉลี่ยได้ 75-80% ในบททดสอบเดียวกัน
Epoch AI ซึ่งเป็นองค์กรที่พัฒนาบททดสอบ เน้นย้ำว่าการวัดผล AI ต้องคำนึงถึง “real-world research problems” หรือปัญหาวิจัยในโลกจริง เช่น การออกแบบการทดลองที่ซับซ้อน การตรวจสอบความถูกต้องของข้อมูล และการตีความผลลัพธ์ที่คลุมเครือ ซึ่ง FrontierScience ยังไม่ครอบคลุมเต็มที่ Dan Hendrycks ผู้ร่วมก่อตั้ง Center for AI Safety กล่าวว่า “AI ยังคงห่างไกลจากระดับนักวิทยาศาสตร์มืออาชีพ แม้จะมีคะแนนสูงในบางบททดสอบ”
นอกจากนี้ การทดสอบยังเผยให้เห็นถึงปัญหาความสม่ำเสมอของโมเดล โดย GPT-5.2 มีความผันผวนสูงในคำถามที่เกี่ยวข้องกับคณิตศาสตร์ขั้นสูง ซึ่งอาจเกิดจากการพึ่งพาการจำข้อมูลมากกว่าการคำนวณเชิงตรรกะ ในทางตรงกันข้าม Claude 3.5 Sonnet แสดงความเสถียรดีกว่าในสาขาฟิสิกส์ควอนตัม
OpenAI วางแผนขยาย FrontierScience ให้ครอบคลุมสาขาวิทยาศาสตร์เพิ่มเติม เช่น ชีววิทยาและเคมี ในอนาคต เพื่อให้เป็น基准ที่ครอบคลุมยิ่งขึ้น นอกจากนี้ บริษัทกำลังพัฒนาเครื่องมือเสริม เช่น integration กับเครื่องมือค้นหาวิจัยและ simulation software เพื่อเสริมจุดอ่อนของโมเดล
โดยสรุป แม้ GPT-5.2 จะประสบความสำเร็จใน FrontierScience แต่ผลลัพธ์นี้ยังไม่เพียงพอที่จะยืนยันว่า AI พร้อมสำหรับการปฏิวัติงานวิจัยทางวิทยาศาสตร์ นักพัฒนา AI ต้องมุ่งเน้นการปรับปรุงความสามารถในปัญหาจริงเพื่อให้เกิดประโยชน์สูงสุดต่อชุมชนวิชาการและอุตสาหกรรม
(จำนวนคำ: 728)
This Article is sponsored by Gnoppix AI (https://www.gnoppix.org)