ไมโครซอฟต์เปิดตัว Fara-7B โมเดลขนาดกะทัดรัดสำหรับรันการควบคุมคอมพิวเตอร์ด้วย AI ในเครื่อง

ไมโครซอฟต์เปิดตัว FARA-7B โมเดลขนาดกะทัดรัดสำหรับควบคุมคอมพิวเตอร์ด้วย AI แบบรันบนเครื่อง本地

ไมโครซอฟต์ รีเสิร์ช (Microsoft Research) ได้ประกาศเปิดตัวโมเดลปัญญาประดิษฐ์ (AI) ตัวใหม่ชื่อ FARA-7B ซึ่งเป็นโมเดลประเภท Vision-Language-Action (VLA) ขนาด 7 พันล้านพารามิเตอร์ (parameters) ที่ออกแบบมาเพื่อให้สามารถรันบนฮาร์ดแวร์สำหรับผู้บริโภคทั่วไปได้ โดยไม่จำเป็นต้องพึ่งพาเซิร์ฟเวอร์คลาวด์ขนาดใหญ่ โมเดลนี้มุ่งเน้นการควบคุมคอมพิวเตอร์ผ่านการประมวลผลภาพหน้าจอ (screenshots) และการสั่งการผ่านคีย์บอร์ดกับเมาส์ ทำให้สามารถใช้งาน AI ตัวแทนอัจฉริยะ (AI agents) สำหรับงานคอมพิวเตอร์ได้อย่างมีประสิทธิภาพในระดับ本地

FARA-7B ถือเป็นก้าวสำคัญในการพัฒนา AI ที่สามารถทำงานได้แบบอิสระ โดยรับข้อมูลเข้าเป็นภาพหน้าจอของเดสก์ท็อปหรือแอปพลิเคชันต่างๆ และสร้างคำสั่งแอคชันที่เหมาะสม เช่น การคลิกเมาส์ การพิมพ์ข้อความ หรือการเลื่อนหน้าจอ โมเดลนี้ได้รับการฝึกฝน (fine-tuned) จากโมเดลฐาน Qwen2VL-7B-Instruct ซึ่งเป็นโมเดลโอเพนซอร์สจาก Alibaba ทำให้มีขนาดกะทัดรัดแต่ทรงพลัง โดยสามารถรันได้บนการ์ดจอระดับผู้บริโภค เช่น NVIDIA RTX 4090 ด้วยหน่วยความจำ VRAM เพียง 24GB และความเร็วในการอนุมาน (inference) ที่ 4 โทเค็นต่อวินาที

กระบวนการทำงานและการฝึกฝนของ FARA-7B

FARA-7B ทำงานโดยใช้แนวทางแบบ end-to-end ที่ผสานการรับรู้ภาพ (vision) การทำความเข้าใจภาษา (language) และการตัดสินใจแอคชัน (action) เข้าด้วยกัน ข้อมูลเข้าหลักคือภาพหน้าจอความละเอียด 1120x840 พิกเซล ซึ่งโมเดลจะวิเคราะห์เพื่อเข้าใจบริบทของอินเทอร์เฟซผู้ใช้ จากนั้นจึงสร้างลำดับคำสั่งแอคชันในรูปแบบ JSON ที่กำหนดไว้ เช่น {“action”: “key”, “keys”: [“ctrl”, “c”]} สำหรับการคัดลอกข้อความ หรือ {“action”: “click”, “x”: 500, “y”: 300} สำหรับการคลิกตำแหน่งเฉพาะ

ในการฝึกฝน โมเดลได้รับการปรับแต่งจากชุดข้อมูลขนาดใหญ่ที่รวบรวมมาจากแหล่งต่างๆ รวมถึง OSWorld ซึ่งเป็นชุดข้อมูลสำหรับการใช้คอมพิวเตอร์แบบโอเพนเอ็นด์ และชุดข้อมูลอื่นๆ กว่า 450,000 ตัวอย่าง โดยใช้เทคนิคการฝึกแบบ supervised fine-tuning (SFT) และการปรับปรุงด้วยการจัดอันดับโดยผู้ช่วยจากมนุษย์ (human preference ranking) กระบวนการนี้ช่วยให้โมเดลมีความแม่นยำสูงในการตีความงานที่ซับซ้อน เช่น การนำทางเว็บไซต์ การจัดการไฟล์ หรือการโต้ตอบกับแอปพลิเคชันเดสก์ท็อป

นอกจากนี้ FARA-7B ยังรองรับการทำงานแบบ multi-turn conversation ทำให้สามารถรับคำสั่งจากผู้ใช้ในรูปแบบภาษาธรรมชาติ เช่น “คัดลอกข้อความจากเว็บเพจนี้และวางลงในเอกสารใหม่” แล้วดำเนินการตามขั้นตอนทีละสเต็ป โดยไม่ต้องพึ่งพาโมเดลขนาดยักษ์ที่ใช้ทรัพยากรสูง

ผลการทดสอบประสิทธิภาพที่โดดเด่น

ในการทดสอบบนเกณฑ์มาตรฐาน OSWorld ซึ่งวัดความสามารถในการปฏิบัติภารกิจคอมพิวเตอร์แบบโอเพนเอ็นด์ FARA-7B ทำได้ดีกว่าโมเดลขนาดใหญ่หลายตัว เช่น GPT-4V (gpt-4-vision-preview) ที่มีคะแนน success rate เพียง 14.5% ในขณะที่ FARA-7B ทำได้ถึง 20.2% นอกจากนี้ยังเหนือกว่า Claude-3.5-Sonnet และ Gemini-1.5-Pro ในหลายงานย่อย เช่น ScreenSpot (คะแนน 71.8% เทียบกับ 43.6% ของ GPT-4V) และ Mind2Web (คะแนน 48.1% เทียบกับ 38.6% ของ GPT-4V)

สำหรับเกณฑ์ประเมินอื่นๆ เช่น VisualWebBench FARA-7B ได้คะแนน 52.4% ซึ่งสูงกว่าโมเดล VLA อื่นๆ อย่าง CogAgent-Llama3-70B (37.9%) และ Ferret-UI-8B (41.5%) แม้จะมีขนาดเล็กกว่าแต่ประสิทธิภาพใกล้เคียงหรือดีกว่าโมเดลขนาด 72 พันล้านพารามิเตอร์อย่าง Open Hands ในบางด้าน ผลเหล่านี้ยืนยันว่า FARA-7B สามารถมอบประสิทธิภาพระดับแนวหน้าด้วยทรัพยากรที่เข้าถึงได้ง่าย

เกณฑ์ประเมิน FARA-7B GPT-4V Claude-3.5-Sonnet Gemini-1.5-Pro
OSWorld 20.2% 14.5% 16.8% 15.2%
ScreenSpot 71.8% 43.6% - -
Mind2Web 48.1% 38.6% - -
VisualWebBench 52.4% - - -

ความพร้อมใช้งานและใบอนุญาต

FARA-7B วางจำหน่ายแบบน้ำหนักโมเดลเปิด (open weights) ภายใต้ใบอนุญาต Apache 2.0 ซึ่งอนุญาตให้ผู้พัฒนา นักวิจัย และธุรกิจนำไปใช้งาน ปรับแต่ง หรือนำไปรวมในโปรเจกต์เชิงพาณิชย์ได้อย่างเสรี โค้ดฝึกฝนและไฟล์โมเดลสามารถดาวน์โหลดได้จาก Hugging Face (microsoft/FARA-7B) และ GitHub (microsoft/FARA) โดยมีสคริปต์สำหรับการรัน inference และการฝึกฝนเพิ่มเติม

ผู้ใช้สามารถทดลองใช้งานผ่าน Gradio demo บน Hugging Face Spaces เพื่อทดสอบการควบคุมเดสก์ท็อปจริง โดยรองรับระบบปฏิบัติการ Linux เป็นหลัก แต่มีศักยภาพในการขยายไปยัง Windows และ macOS ด้วยการปรับแต่งเพิ่มเติม

ความสำคัญต่ออุตสาหกรรมและอนาคตของ AI Agents

การเปิดตัว FARA-7B แสดงให้เห็นถึงแนวโน้มใหม่ในการพัฒนา AI agents ที่สามารถรันแบบ本地 ซึ่งช่วยลดปัญหาความเป็นส่วนตัวข้อมูล ล่าช้าในการเชื่อมต่อเครือข่าย และค่าใช้จ่ายด้านคลาวด์ สำหรับธุรกิจขนาดกลางและรายย่อย นี่คือโอกาสในการนำ AI มาใช้ในการ automate งาน routine เช่น การจัดการเอกสาร การทดสอบซอฟต์แวร์ หรือการสนับสนุนลูกค้า โดยไม่ต้องลงทุนโครงสร้างพื้นฐานขนาดใหญ่

อย่างไรก็ตาม ผู้พัฒนายังต้องพิจารณาปัญหาด้านความปลอดภัย เช่น การป้องกันการสั่งการที่ไม่พึงประสงค์ ไมโครซอฟต์ได้รวมระบบ guardrails พื้นฐานไว้ในโมเดลแล้ว แต่แนะนำให้ปรับแต่งเพิ่มเติมตามบริบทการใช้งาน

FARA-7B จึงเป็นโมเดลที่สมดุลระหว่างประสิทธิภาพ ขนาด และความเข้าถึงได้ ซึ่งจะเร่งการนำ AI-driven computer control ไปสู่การใช้งานจริงในวงกว้าง

(จำนวนคำประมาณ 720 คำ)

This Article is sponsored by Gnoppix AI (https://www.gnoppix.org)