แอนทโรปิกเปิดตัวฟีเจอร์ “Computer Use” สำหรับ Claude เพื่อควบคุมเดสก์ท็อปของผู้ใช้
แอนทโรปิก (Anthropic) บริษัทผู้พัฒนาโมเดลปัญญาประดิษฐ์ Claude ได้เปิดตัวฟีเจอร์ใหม่ชื่อ “Computer Use” ซึ่งเป็นเครื่องมือที่ช่วยให้ Claude สามารถควบคุมเดสก์ท็อปของผู้ใช้ได้โดยตรง ฟีเจอร์นี้ถูกออกแบบมาเพื่อแก้ปัญหาการรวมระบบ (app integrations) แบบดั้งเดิมที่อาจไม่เพียงพอ โดยเฉพาะในกรณีที่ต้องการให้ AI ทำงานกับแอปพลิเคชันหลากหลายบนคอมพิวเตอร์ของผู้ใช้
ฟีเจอร์ Computer Use อยู่ในสถานะเบต้า (beta) และใช้งานได้เฉพาะกับโมเดล Claude 3.5 Sonnet ผ่าน API เท่านั้น ผู้พัฒนาสามารถเข้าถึงได้โดยการสมัครใช้งานผ่านเว็บไซต์ของแอนทโรปิก ปัจจุบันยังไม่เปิดให้ใช้งานสำหรับผู้ใช้ทั่วไปผ่านเว็บไซต์ claude.ai แต่คาดว่าจะขยายในอนาคต ฟีเจอร์นี้ช่วยให้ Claude สามารถดำเนินการบนเดสก์ท็อปได้เหมือนมนุษย์ เช่น การเลื่อนเมาส์ คลิก แชร์หน้าจอ พิมพ์ข้อความ และอื่นๆ โดยไม่จำเป็นต้องพึ่งพาการรวมระบบกับแอปเฉพาะเจาะจง
หลักการทำงานของ Computer Use
Computer Use ทำงานโดยอาศัยภาพหน้าจอ (screenshots) ที่ส่งมาจากเดสก์ท็อปของผู้ใช้เป็นข้อมูลหลัก Claude จะวิเคราะห์ภาพเหล่านี้เพื่อเข้าใจบริบทและสถานะปัจจุบัน จากนั้นจึงตัดสินใจเลือกการกระทำถัดไป เช่น การคลิกที่ปุ่มเฉพาะ การเลื่อนเมาส์ไปยังตำแหน่งที่ต้องการ หรือการพิมพ์ข้อความ โดยใช้เทคนิคการคาดการณ์ตำแหน่งเคอร์เซอร์ (cursor position prediction) เพื่อให้การเคลื่อนไหวลื่นไหลและเป็นธรรมชาติ
กระบวนการทำงานแบ่งออกเป็นขั้นตอนหลักดังนี้:
- รับข้อมูล: ผู้ใช้ส่งคำสั่งให้ Claude พร้อมภาพหน้าจอปัจจุบัน
- วิเคราะห์: Claude ประมวลผลภาพเพื่อระบุองค์ประกอบต่างๆ เช่น ปุ่ม เมนู หรือฟิลด์ข้อความ
- ตัดสินใจ: เลือกการกระทำที่เหมาะสมจากชุดคำสั่งที่รองรับ เช่น “คลิก” “พิมพ์” “เลื่อนเมาส์” หรือ “กดคีย์ลัด”
- ดำเนินการ: ส่งคำสั่งกลับไปยังเดสก์ท็อปเพื่อรันการกระทำ
- วนลูป: ทำซ้ำจนกว่าจะบรรลุเป้าหมายหรือผู้ใช้หยุด
แอนทโรปิกอธิบายว่า ฟีเจอร์นี้ใช้ “action model” พิเศษที่ฝึกฝนมาสำหรับการตีความภาพหน้าจอและเลือกการกระทำ โดยไม่ต้องใช้ vision model ทั่วไปแบบ Claude เพื่อให้ประสิทธิภาพสูงสุด
ประโยชน์และกรณีใช้งาน
Computer Use ช่วยขยายขอบเขตการใช้งานของ AI เกินกว่าการรวมระบบแบบ API ของแอปพลิเคชัน เช่น Gmail หรือ Google Sheets ซึ่งมักจำกัดฟังก์ชันการทำงาน ตัวอย่างกรณีใช้งานที่แอนทโรปิกยกตัวอย่าง ได้แก่:
- การกรอกข้อมูลจำนวนมาก: Claude สามารถคัดลอกข้อมูลจากไฟล์ CSV และกรอกลงในเว็บฟอร์มได้อัตโนมัติ โดยเลื่อนไปยังแต่ละฟิลด์และพิมพ์ข้อมูล
- การทดสอบแอปพลิเคชัน: เปิดแอปทดสอบ คลิกปุ่มต่างๆ และตรวจสอบผลลัพธ์
- การจัดการไฟล์: สร้างโฟลเดอร์ จัดเรียงไฟล์ หรืออัปโหลดเอกสาร
- การใช้งานซอฟต์แวร์เฉพาะทาง: ทำงานกับโปรแกรมที่ไม่มี API เช่น ซอฟต์แวร์เก่าแก่หรือเครื่องมือภายในองค์กร
ฟีเจอร์นี้ช่วยลดความยุ่งยากในการพัฒนาการรวมระบบใหม่ๆ โดยเฉพาะสำหรับผู้พัฒนาที่ต้องการให้ AI ทำงานกับเครื่องมือหลากหลายบนเดสก์ท็อป macOS หรือ Windows (รองรับทั้งสองระบบปฏิบัติการ)
ความเสี่ยงและมาตรการความปลอดภัย
การให้ AI ควบคุมเดสก์ท็อปโดยตรงมีความเสี่ยงสูง เช่น การคลิกผิดพลาด การเข้าถึงไฟล์สำคัญ หรือปัญหาด้านความปลอดภัย แอนทโรปิกจึงกำหนดมาตรการดังนี้:
- การใช้งานแบบ opt-in: ผู้ใช้ต้องอนุญาตชัดเจนก่อนใช้งาน
- รันใน sandbox: โค้ดรันในสภาพแวดล้อมแยกต่างหากเพื่อป้องกันการเข้าถึงระบบหลัก
- เครื่องมือตรวจสอบ: ผู้ใช้สามารถดูบันทึกการกระทำทั้งหมดและหยุดได้ทุกเมื่อ
- ไม่บันทึกภาพหน้าจอ: แอนทโรปิกไม่เก็บข้อมูลภาพเพื่อปกป้องความเป็นส่วนตัว
นอกจากนี้ ยังมีเครื่องมือเสริม เช่น การตั้งค่า “permissions” เพื่อจำกัดการเข้าถึงบางส่วน และการใช้ “human in the loop” เพื่อให้มนุษย์อนุมัติการกระทำสำคัญ
การเปรียบเทียบกับคู่แข่ง
Computer Use คล้ายกับฟีเจอร์ของคู่แข่ง เช่น Cursor ของ Anysphere หรือโปรเจกต์ open-sourceอย่าง OpenInterpreter แต่แอนทโรปิกเน้นความปลอดภัยและความน่าเชื่อถือสูงกว่า โดยใช้โมเดลที่ฝึกฝนมาอย่างพิถีพิถัน ผู้พัฒนาสามารถทดลองใช้งานได้ทันทีผ่าน API โดยมีตัวอย่างโค้ดพร้อมใช้งานในเอกสารประกอบ
มุมมองอนาคต
แอนทโรปิกมองว่า Computer Use เป็นก้าวสำคัญสู่ “agentic AI” ที่สามารถทำงานอิสระบนคอมพิวเตอร์ของผู้ใช้ได้อย่างปลอดภัยและมีประสิทธิภาพ ในขณะที่การรวมระบบแบบดั้งเดิมยังคงจำเป็นสำหรับงานเฉพาะทาง แต่ฟีเจอร์นี้จะช่วยเติมเต็มช่องว่าง โดยเฉพาะในสภาพแวดล้อมธุรกิจที่ต้องการความยืดหยุ่นสูง
ผู้สนใจสามารถสมัครใช้งาน beta ได้ที่เว็บไซต์ Anthropic Developer Console และติดตามการอัปเดตเพิ่มเติม
(จำนวนคำประมาณ 720 คำ)
This Article is sponsored by Gnoppix AI (https://www.gnoppix.org)