แอนโทรปิกเข้าซื้อกิจการเวอร์เซ็ปต์ เพื่อเสริมสมรรถนะการมองเห็นและควบคุมหน้าจอคอมพิวเตอร์ให้โคลดมีความเฉียบคมยิ่งขึ้น
แอนโทรปิก (Anthropic) บริษัทพัฒนาสมองกลอัจฉริยะปัญญาประดิษฐ์ (AI) ชั้นนำ ได้ประกาศเข้าซื้อกิจการเวอร์เซ็ปต์ (Vercept) สตาร์ทอัพผู้เชี่ยวชาญด้านเทคโนโลยีที่ช่วยให้โมเดล AI สามารถเข้าใจและโต้ตอบกับหน้าจอคอมพิวเตอร์ได้อย่างมีประสิทธิภาพ การเข้าซื้อครั้งนี้มีวัตถุประสงค์หลักเพื่อยกระดับความสามารถ “การใช้งานคอมพิวเตอร์” (computer use) ของโคลด (Claude) โมเดล AI หลักของบริษัท โดยมุ่งเน้นการปรับปรุงการอ่านภาพหน้าจอและการดำเนินการต่างๆ เช่น การคลิกเมาส์และการพิมพ์คำสั่ง
เวอร์เซ็ปต์พัฒนาเทคโนโลยีที่ช่วยให้โมเดล AI สามารถประมวลผลข้อมูลภาพจากส่วนติดต่อผู้ใช้แบบกราฟิก (Graphical User Interface: GUI) ได้อย่างชาญฉลาด ซึ่งเป็นสะพานเชื่อมระหว่างโมเดลภาษาขนาดใหญ่ (Large Language Models: LLMs) กับอินเทอร์เฟซคอมพิวเตอร์ที่มนุษย์ใช้งาน เทคโนโลยีดังกล่าวช่วยให้ AI สามารถนำทางและดำเนินการอัตโนมัติในงานที่ซับซ้อน เช่น การใช้งานโปรแกรมซอฟต์แวร์ การจัดการเอกสาร หรือการโต้ตอบกับระบบปฏิบัติการ โดยอาศัยภาพหน้าจอ (screenshots) เป็นข้อมูลนำเข้า
การประกาศเข้าซื้อกิจการนี้ปรากฏในบล็อกอย่างเป็นทางการของแอนโทรปิก โดยดาริโอ อาโมเดอี (Dario Amodei) ผู้ร่วมก่อตั้งและซีอีโอของบริษัท เน้นย้ำถึงความสำคัญของการมอบ “ดวงตา” ให้ AI เพื่อมองเห็นหน้าจอและ “มือ” เพื่อโต้ตอบกับมัน “การให้ AI มีความสามารถในการมองเห็นและควบคุมคอมพิวเตอร์โดยตรงจะเป็นก้าวสำคัญในการพัฒนาความสามารถของโคลดให้ใกล้เคียงกับมนุษย์มากยิ่งขึ้น” อาโมเดอีกล่าว การเข้าซื้อเวอร์เซ็ปต์จึงเป็นส่วนหนึ่งของกลยุทธ์ระยะยาวในการเสริมสร้างความสามารถด้านการรับรู้ทางสายตา (vision capabilities) ให้กับโมเดลโคลด
เวอร์เซ็ปต์ก่อตั้งโดยอดีตนักวิจัยจากกูเกิล ซึ่งมีประสบการณ์ในการพัฒนาระบบ AI ที่เชี่ยวชาญด้านการตีความภาพหน้าจอ ระบบของบริษัทใช้การผสมผสานระหว่างโมเดลวิชัน (vision models) และการเรียนรู้แบบเสริมกำลัง (reinforcement learning) เพื่อวิเคราะห์องค์ประกอบบนหน้าจอ เช่น ปุ่มกด เมนู ข้อความ และไอคอน จากนั้นจึงตัดสินใจเลือกการกระทำที่เหมาะสม เช่น การเลื่อนเมาส์ไปยังตำแหน่งเฉพาะ การคลิก หรือการป้อนข้อมูลตัวอักษร เทคโนโลยีนี้แตกต่างจากวิธีการแบบดั้งเดิมที่พึ่งพาโครงสร้างข้อมูล (structured data) หรือ API เพียงอย่างเดียว เนื่องจากสามารถจัดการกับอินเทอร์เฟซที่หลากหลายและเปลี่ยนแปลงได้โดยไม่ต้องปรับแต่งล่วงหน้า
การพัฒนาความสามารถนี้สอดคล้องกับการเปิดตัวฟีเจอร์ “computer use” ในโคลด 3.5 ซอนเน็ต (Claude 3.5 Sonnet) เมื่อไม่นานมานี้ ซึ่งเป็นเครื่องมือที่ช่วยให้โมเดลสามารถโต้ตอบกับคอมพิวเตอร์จริงผ่านการจับภาพหน้าจอและการควบคุมเมาส์/คีย์บอร์ด อย่างไรก็ตาม ความสามารถดังกล่าวยังอยู่ในขั้นทดสอบและมีข้อจำกัด เช่น ความเร็วในการประมวลผลและความแม่นยำในการตีความภาพที่ซับซ้อน การรวมเทคโนโลยีของเวอร์เซ็ปต์เข้ากับโคลดคาดว่าจะช่วยแก้ไขปัญหาเหล่านี้ โดยยกระดับความแม่นยำและความรวดเร็วในการดำเนินการ
จากการทดสอบเบื้องต้น เทคโนโลยีของเวอร์เซ็ปต์แสดงศักยภาพสูงในการจัดการงานจริง เช่น การเรียกดูเว็บไซต์ การแก้ไขไฟล์สเปรดชีต หรือการใช้งานเครื่องมือพัฒนาซอฟต์แวร์ โดยไม่ต้องอาศัยคำสั่งที่ละเอียดยิบจากผู้ใช้ นอกจากนี้ ยังช่วยลดข้อผิดพลาดที่เกิดจากการเข้าใจผิดพลาดของภาพหน้าจอ ซึ่งเป็นปัญหาหลักในระบบ AI แบบ vision-language ที่มีอยู่ในปัจจุบัน
การเข้าซื้อกิจการเวอร์เซ็ปต์ถือเป็นก้าวยุทธศาสตร์สำคัญของแอนโทรปิกในการแข่งขันกับคู่แข่งอย่างโอเพ่นเอไอ (OpenAI) และกูเกิล ซึ่งกำลังพัฒนาความสามารถคล้ายคลึงกัน เช่น โครงการ “Project Astra” ของกูเกิลที่มุ่งเน้นการโต้ตอบกับหน้าจอแบบเรียลไทม์ แอนโทรปิกมองว่าการมี “ดวงตาที่เฉียบคม” จะช่วยให้โคลดสามารถปฏิบัติงานที่ต้องการการรับรู้ทางสายตาได้ดีขึ้น ส่งผลให้เกิดการใช้งานในภาคธุรกิจและองค์กรที่หลากหลาย เช่น การอัตโนมัติกระบวนการทำงาน (RPA) การทดสอบซอฟต์แวร์ หรือการช่วยเหลือผู้ใช้ในงานประจำวัน
อย่างไรก็ตาม แอนโทรปิกระบุว่าความสามารถ computer use ยังคงอยู่ในช่วงทดสอบเบต้า และผู้ใช้ควรตรวจสอบการดำเนินการของ AI อย่างใกล้ชิดเพื่อป้องกันข้อผิดพลาดที่อาจเกิดขึ้น การเข้าซื้อครั้งนี้ไม่เพียงเสริมความแข็งแกร่งให้แอนโทรปิกในด้านเทคนิคเท่านั้น แต่ยังดึงดูดบุคลากรผู้เชี่ยวชาญจากเวอร์เซ็ปต์มาร่วมทีม ซึ่งจะเร่งการพัฒนาในอนาคต
(จำนวนคำประมาณ 728 คำ)
This Article is sponsored by Gnoppix AI (https://www.gnoppix.org)