ทักษะของเอเจนต์ AI โดดเด่นใน基准การทดสอบ แต่ล้มเหลวภายใต้สภาวะสมจริง นักวิจัยค้นพบ
ในยุคที่ปัญญาประดิษฐ์ (AI) กำลังพัฒนาอย่างรวดเร็ว โดยเฉพาะเอเจนต์ AI ที่สามารถปฏิบัติภารกิจซับซ้อนบนเว็บไซต์ได้ นักวิจัยจากมหาวิทยาลัยเจนีวา สถาบัน IST ออสเตรีย และสถาบันเทคโนโลยีแห่งสหพันธรัฐสวิส (ETH Zurich) ได้ทำการศึกษาที่ท้าทายมุมมองเหล่านี้ พวกเขาพบว่า แม้เอเจนต์ AI จะแสดงผลงานยอดเยี่ยมใน基准การทดสอบมาตรฐาน แต่เมื่อนำไปใช้ในสภาพแวดล้อมเว็บจริง กลับประสบปัญหาอย่างรุนแรง โดยอัตราความสำเร็จลดลงอย่างน่าตกใจ
การศึกษานี้มุ่งเน้นไปที่การประเมินสมรรถนะของเอเจนต์ AI 15 ตัว จากโมเดลภาษาขนาดใหญ่ (LLM) ทั้งแบบเปิดและแบบปิด เช่น GPT-4o, Claude 3.5 Sonnet, Gemini 1.5 Pro และ Llama 3.1 405B นักวิจัยใช้基准ใหม่ชื่อ WebVoyager ซึ่งประกอบด้วยงานทดสอบ 1,000 ภารกิจบนเว็บไซต์จริง เช่น Google Maps, Amazon, Booking.com และ Wikipedia โดยจำลองสถานการณ์การใช้งานจริงที่ผู้ใช้ทั่วไปเผชิญ
ใน基准จำลองอย่าง WebArena ซึ่งควบคุมสภาพแวดล้อมให้คงที่และคาดเดาได้ Claude 3.5 Sonnet แสดงผลงานดีที่สุดด้วยอัตราความสำเร็จ 28.2% ตามด้วยโมเดลอื่นๆ ที่มีอัตราต่ำกว่า อย่างไรก็ตาม เมื่อทดสอบใน WebVoyager ซึ่งใช้เว็บไซต์สด (live websites) ที่มีการเปลี่ยนแปลงแบบไดนามิก เช่น โฆษณาที่โหลดใหม่ ปุ่มที่ย้ายตำแหน่ง หรือเนื้อหาที่ปรับตามผู้ใช้ อัตราความสำเร็จพลันลดฮวบลงอย่างมาก โดย Claude 3.5 Sonnet ทำได้เพียง 1.6% สำหรับความสำเร็จเต็มรูปแบบ และสูงสุด 6.8% สำหรับความสำเร็จบางส่วน โมเดลอื่นๆ อย่าง GPT-4o และ Gemini 1.5 Pro ก็เผชิญปัญหาคล้ายกัน โดยอัตราสำเร็จไม่เกิน 5%
นักวิจัยระบุสาเหตุหลักของความล้มเหลวสี่ประการ ประการแรกคือ ความล้มเหลวในการจับคู่ภาพ (visual grounding failure) เอเจนต์ AI มักประสาทหลอน (hallucinate) องค์ประกอบ UI เช่น “เห็น” ปุ่มที่ไม่มีอยู่จริง หรือคลิกผิดตำแหน่ง โดยเฉพาะในภาพสกรีนช็อตที่ซับซ้อน แม้แต่โมเดลมัลติโมดัลที่เชี่ยวชาญด้านวิเคราะห์ภาพก็ยังผิดพลาดบ่อยครั้ง
ประการที่สองคือ ข้อบกพร่องในการวางแผน (planning deficiencies) เอเจนต์ขาดความสามารถในการวางแผนระยะยาว มักติดอยู่ในลูปซ้ำๆ โดยไม่ก้าวหน้า เช่น พยายามคลิกปุ่มเดิมซ้ำๆ โดยไม่ปรับกลยุทธ์ นักวิจัยพบว่า เอเจนต์ส่วนใหญ่ไม่สามารถจัดการกับงานที่ต้องใช้หลายขั้นตอนได้อย่างมีประสิทธิภาพ
ประการที่สามคือ การใช้เครื่องมือผิดพลาด (tool misuse) แม้จะมีเครื่องมือช่วยเหลือ เช่น การเลื่อนหน้าเว็บหรือค้นหาข้อความ แต่เอเจนต์มักเรียกใช้เครื่องมือไม่ถูกต้องหรือไม่เรียกใช้เลย ส่งผลให้ไม่สามารถโต้ตอบกับเว็บไซต์ได้เต็มประสิทธิภาพ
ประการที่สี่คือ ปัญหาด้านหน่วยความจำ (memory issues) เอเจนต์ลืมข้อมูลสำคัญจากขั้นตอนก่อนหน้า ทำให้ไม่สามารถเชื่อมโยงบริบทได้ สถานการณ์เหล่านี้ยิ่งรุนแรงขึ้นในเว็บจริงที่เต็มไปด้วยความไม่แน่นอน เช่น การโหลดเนื้อหาช้า หรือการแทรกแทรกของโฆษณา
เพื่อยืนยันผลการศึกษา นักวิจัยได้เปรียบเทียบกับ基准อื่นๆ เช่น Mind2Web และ WebShop พบว่าแนวโน้มคล้ายคลึงกัน คือ ประสิทธิภาพลดลงในสภาพแวดล้อมจริง นอกจากนี้ การทดสอบย่อยแสดงว่า การใช้ HTML ดิบแทนภาพสกรีนช็อตช่วยเพิ่มประสิทธิภาพเล็กน้อย แต่ยังไม่เพียงพอ โดย Claude 3.5 Sonnet ทำได้ 4.2% ในโหมดนี้
ผลการศึกษานี้ชี้ให้เห็นถึงช่องว่างสำคัญระหว่างการทดสอบในห้องปฏิบัติการกับการใช้งานจริง WebVoyager จึงเป็น基准ที่สมจริงมากขึ้น ช่วยให้นักพัฒนาเห็นจุดอ่อนของเอเจนต์ AI และปรับปรุงในด้านการรับรู้ภาพ การวางแผน และการจัดการเครื่องมือ นักวิจัยแนะนำให้ใช้基准ดังกล่าวในการพัฒนาเอเจนต์รุ่นถัดไป เพื่อให้สามารถใช้งานได้อย่างน่าเชื่อถือในโลกดิจิทัลที่เปลี่ยนแปลงตลอดเวลา
การค้นพบนี้มีนัยสำคัญต่ออุตสาหกรรม โดยเฉพาะธุรกิจที่พึ่งพาเอเจนต์ AI ในการ automate งาน เช่น การจองโรงแรม ค้นหาข้อมูล หรือช้อปปิ้งออนไลน์ หากไม่แก้ไขปัญหาเหล่านี้ เอเจนต์ AI อาจไม่สามารถนำไปใช้ในเชิงพาณิชย์ได้อย่างมีประสิทธิภาพ นักวิจัยเผยแพร่รายละเอียดเต็มรูปแบบในเว็บไซต์โครงการ WebVoyager เพื่อให้ชุมชนนักพัฒนาสามารถทดสอบและปรับปรุงต่อไป
(จำนวนคำประมาณ 720 คำ)
This Article is sponsored by Gnoppix AI (https://www.gnoppix.org)