เอเจนต์เว็บแบบโอเพ่นซอร์สเต็มรูปแบบของ AI2S: MolmoWeb นำทางเว็บโดยใช้ภาพหน้าจอเท่านั้น
สถาบัน Allen Institute for AI (AI2) ได้เปิดตัว MolmoWeb ซึ่งเป็นเอเจนต์เว็บแบบโอเพ่นซอร์สเต็มรูปแบบที่สามารถนำทางและโต้ตอบกับเว็บไซต์ได้โดยอาศัยภาพหน้าจอ (screenshots) เท่านั้น โดยไม่ต้องพึ่งพาโครงสร้าง HTML หรือ DOM Tree ระบบนี้ใช้โมเดลวิชัน-แลงเกจ (vision-language model) ที่ชื่อว่า Molmo เพื่อวิเคราะห์ภาพหน้าจอและตัดสินใจกระทำการต่อไป เช่น คลิก จับคีย์ลำดับ หรือเลื่อนหน้าจอ ทำให้สามารถทำงานในสภาพแวดล้อมเว็บจริงได้อย่างมีประสิทธิภาพ
MolmoWeb ถือเป็นก้าวสำคัญในด้านเอเจนต์เว็บอัจฉริยะ เนื่องจากเป็นระบบแรกที่เปิดเผยทุกส่วนอย่างสมบูรณ์ รวมถึงน้ำหนักโมเดล (model weights) โค้ดฝึกโมเดล ข้อมูลฝึก และสคริปต์การประเมินผล ผู้พัฒนาสามารถนำไปใช้งาน ดัดแปลง หรือปรับปรุงได้โดยตรง โดยไม่ต้องพึ่งพาบริการคลาวด์แบบปิด เช่น OpenAI หรือ Anthropic ระบบนี้ถูกพัฒนาบนพื้นฐานของโมเดล Molmo 2.1 ซึ่งเป็นโมเดลวิชัน-แลงเกจโอเพ่นซอร์สที่ทรงพลัง โดยเวอร์ชันที่ใช้คือ Molmo-2B-0924-vision-R ที่ปรับแต่ง (fine-tuned) สำหรับงานนำทางเว็บโดยเฉพาะ
หลักการทำงานของ MolmoWeb
MolmoWeb ทำงานโดยใช้แนวทาง “vision-only” ซึ่งหมายถึงการรับข้อมูลจากเบราว์เซอร์ในรูปแบบภาพหน้าจอขนาด 1120x1120 พิกเซลที่ความละเอียดสูง ร่วมกับข้อมูลเพิ่มเติม เช่น URL ปัจจุบัน ข้อความจากแถบที่อยู่ (address bar) และประวัติการกระทำก่อนหน้า (action history) โมเดลจะประมวลผลภาพเหล่านี้เพื่อสร้างคำสั่งกระทำการถัดไปในรูปแบบ JSON ที่กำหนดไว้ล่วงหน้า เช่น คลิกที่ตำแหน่งเฉพาะ จับคีย์ลำดับ หรือเลื่อนหน้าจอ
กระบวนการนี้เกิดขึ้นแบบ end-to-end โดยไม่ต้องแยกการตรวจจับองค์ประกอบ UI (UI element detection) หรือการตีความ HTML ทำให้ระบบมีความยืดหยุ่นสูง สามารถรับมือกับเว็บไซต์ที่หลากหลาย รวมถึงเว็บที่ใช้ JavaScript หนักหรือมีเลย์เอาต์แบบไดนามิกได้ดี ตัวอย่างเช่น ในงานทดสอบ MolmoWeb สามารถล็อกอิน Gmail จองตั๋วเครื่องบาย Expedia หรือจัดการอีเมลใน Apple Mail ได้สำเร็จ โดยอาศัยการมองเห็นภาพหน้าจอเพียงอย่างเดียว
ผลการทดสอบประสิทธิภาพ
MolmoWeb ได้รับการทดสอบบนบ enchmark มาตรฐานหลายชุด โดยเฉพาะ WebArena 2.0 ซึ่งเป็นชุดทดสอบที่ซับซ้อนที่สุดสำหรับเอเจนต์เว็บ ประกอบด้วยงานจริง 812 งานจาก 7 เว็บไซต์ยอดนิยม เช่น Wikipedia, GitHub, Yelp และ Shopping ในโหมด MiniWob++ (ที่ปิดการใช้ HTML) MolmoWeb ทำคะแนนความสำเร็จ (success rate) ได้ 28.6% ซึ่งสูงกว่าโมเดลปิดชั้นนำหลายตัว เช่น GPT-4o (25.3%) และ Claude-3.5-Sonnet (21.7%) ในขณะที่โมเดลโอเพ่นซอร์สอื่นๆ อย่าง OpenHands-WebAgent (12.8%) ยังตามหลังอยู่มาก
นอกจากนี้ ในชุดทดสอบ WebVoyager MolmoWeb ทำคะแนนได้ 24.9% สูงกว่าโมเดลโอเพ่นซอร์สอื่นๆ อย่าง UI-TARS-Web (20.2%) และใน Mind2Web ก็ทำได้ 18.2% บนงานที่ปิด HTML เหล่านี้แสดงให้เห็นถึงความเหนือชั้นของ MolmoWeb ในสภาพแวดล้อมที่จำกัดข้อมูลโครงสร้างเว็บ โดยเฉพาะเมื่อเทียบกับระบบที่ใช้ HTML parser ซึ่งอาจล้มเหลวในเว็บสมัยใหม่ที่มีการป้องกันหรือเลย์เอาต์ซับซ้อน
การเปรียบเทียบกับเอเจนต์อื่นๆ
เมื่อเทียบกับเอเจนต์เว็บชั้นนำ MolmoWeb โดดเด่นในด้านความโปร่งใสและการเข้าถึง ต่างจาก o1-preview ของ OpenAI ที่ทำคะแนนสูงแต่ปิดไม่ให้ใช้งานได้ฟรี หรือ Claude Computer Use ของ Anthropic ที่ยังอยู่ในขั้นทดสอบ MolmoWeb ไม่เพียงทำคะแนนใกล้เคียงหรือเหนือกว่าในบาง benchmark แต่ยังสามารถรันบนฮาร์ดแวร์ทั่วไป เช่น GPU เดี่ยว (single RTX 4090) โดยใช้เวลาน้อยกว่า 1 นาทีต่อตอน (step) ทำให้เหมาะสำหรับการวิจัยและการใช้งานจริง
โมเดลฐาน Molmo-7B-V-0924-R ยังทำคะแนนได้ดีใน benchmark วิชันทั่วไป เช่น 85.5% บน ChartQA และ 88.2% บน DocVQA สะท้อนถึงความสามารถพื้นฐานที่แข็งแกร่งในการตีความภาพและข้อความ
ข้อมูลฝึกและการเปิดเผยซอร์ส
MolmoWeb ถูกฝึกด้วยข้อมูล WebArena ซึ่งเป็นชุดข้อมูลขนาดใหญ่กว่า 400,000 ตอน (episodes) ที่สร้างจากกระบวนการ synthetic data generation โดยใช้โมเดล Molmo-7B เป็น teacher model ข้อมูลนี้ครอบคลุมการกระทำเชิงลึก (deep actions) เช่น การกรอกรหัสผ่าน การอัปโหลดไฟล์ และการโต้ตอบแบบ multi-step ทำให้โมเดลเรียนรู้พฤติกรรมผู้ใช้จริงได้ดี
ทุกส่วนของระบบเปิดให้ใช้งานฟรีบน Hugging Face และ GitHub รวมถึง:
- น้ำหนักโมเดล Molmo-2B-0924-vision-R (สำหรับ WebArena) และ Molmo-7B-V-0924-R
- สคริปต์ฝึกและการประเมินผล
- ชุดข้อมูล WebArena สังเคราะห์
- โค้ดเบสสำหรับรันเอเจนต์
ผู้พัฒนาสามารถเริ่มใช้งานได้ทันทีด้วยคำสั่ง pip install molmo-webagent และรันบนเครื่อง local โดยไม่ต้องสมัคร API key ใดๆ
ความสำคัญทางธุรกิจและอนาคต
MolmoWeb กำลังเปลี่ยนแปลงวิธีที่ธุรกิจนำ AI มาใช้ในการ automate งานเว็บ เช่น e-commerce, customer support หรือ data scraping โดยลดการพึ่งพาบริการปิด ลดต้นทุน และเพิ่มความเป็นส่วนตัวข้อมูล ด้วยความสามารถ vision-only ระบบนี้รับมือกับเว็บที่หลากหลายได้ดี โดยไม่ติดขัดกับการอัปเดต UI หรือ anti-bot measures ในอนาคต AI2 วางแผนขยายไปยังงานที่ซับซ้อนยิ่งขึ้น เช่น multi-tab navigation หรือ integration กับเครื่องมือภายนอก
MolmoWeb ไม่เพียงเป็นเครื่องมือวิจัย แต่ยังเป็นพื้นฐานสำหรับแอปพลิเคชันธุรกิจที่ต้องการเอเจนต์เว็บอัจฉริยะแบบยั่งยืนและโปร่งใส
(จำนวนคำประมาณ 728 คำ)
This Article is sponsored by Gnoppix AI (https://www.gnoppix.org)