กูเกิลและเมต้าแข่งขันพัฒนาเอไอเอเจนต์ส่วนบุคคล ขณะที่แอนทรอปิกและโอเพ่นเอไอรุกหนีห่าง
ในยุคที่ปัญญาประดิษฐ์ (เอไอ) กำลังเปลี่ยนโฉมอุตสาหกรรมเทคโนโลยี บริษัทเทคโนโลยียักษ์ใหญ่อย่างกูเกิลและเมต้า ได้เร่งแข่งขันกันพัฒนาเอไอเอเจนต์ส่วนบุคคล (Personal AI Agents) ซึ่งเป็นระบบเอไอที่สามารถทำงานแทนมนุษย์ในชีวิตประจำวันได้อย่างอิสระ อย่างไรก็ตาม แอนทรอปิกและโอเพ่นเอไอ ยังคงครองความเป็นผู้นำด้วยความก้าวหน้าที่เหนือกว่า สร้างแรงกดดันให้คู่แข่งต้องเร่งตามให้ทัน
กูเกิลได้เปิดตัวโครงการแอสตรา (Project Astra) ในการประชุมนักพัฒนา Google I/O เมื่อเดือนพฤษภาคมที่ผ่านมา ซึ่งเป็นเอไอเอเจนต์มัลติโมดัล (Multimodal AI Agent) ที่สามารถประมวลผลวิดีโอสด (Live Video Understanding) และโต้ตอบกับผู้ใช้ผ่านกล้องสมาร์ทโฟนได้แบบเรียลไทม์ โครงการนี้ใช้โมเดลเจมีนี (Gemini) เวอร์ชันล่าสุด โดยเฉพาะเจมีนี 2.0 Flash Thinking ซึ่งสามารถคิดและตอบสนองได้รวดเร็วภายในไม่กี่วินาที นอกจากนี้ กูเกิลยังนำเสนอ Gemini Live บนสมาร์ทโฟน Pixel ซึ่งเป็นระบบสนทนาแบบเสียงที่ทำงานแบบเรียลไทม์ โดยผสานรวมกับบริการต่างๆ เช่น Google Maps, YouTube และ Calendar เพื่อช่วยเหลือผู้ใช้ในงานประจำวัน เช่น การนำทางหรือค้นหาข้อมูลวิดีโอ
กูเกิลยังวางแผนขยายขอบเขตของเอไอเอเจนต์ โดยมุ่งเน้นการรวมเข้ากับอุปกรณ์หลากหลายรูปแบบ เช่น แว่นตา Project Astra Glasses และหุ่นยนต์หกขา ซึ่งจะช่วยให้เอไอสามารถโต้ตอบกับโลกกายภาพได้อย่างมีประสิทธิภาพยิ่งขึ้น นอกจากนี้ โมเดลเจมีนี 2.0 Experimental ยังแสดงศักยภาพในการเขียนโค้ดและแก้ปัญหาเชิงตรรกะได้ดี โดยทำคะแนนนำในบางเกณฑ์ทดสอบ เช่น WebDev Arena ซึ่งเป็นการทดสอบการพัฒนาเว็บไซต์แบบเรียลไทม์ อย่างไรก็ตาม ผู้เชี่ยวชาญชี้ว่า กูเกิลยังตามหลังคู่แข่งในด้านการใช้เหตุผลขั้นสูง (Advanced Reasoning) และความสามารถมัลติโมดัลที่ซับซ้อน
ในฝั่งเมต้า บริษัทได้เร่งพัฒนาโมเดลภาษาขนาดใหญ่ลาม่า (Llama) ให้รองรับการใช้งานเอไอเอเจนต์ส่วนบุคคล โดยล่าสุดเปิดตัว Llama 3.3 70B ซึ่งมีประสิทธิภาพใกล้เคียงกับ Llama 3.1 405B แต่ใช้ทรัพยากรน้อยกว่า ทำให้เหมาะสำหรับการติดตั้งบนอุปกรณ์ปลายทาง (On-Device Deployment) เช่น สมาร์ทโฟนและแว่นตา Ray-Ban Meta Smart Glasses เมต้ายังทดสอบ Llama 3.2 Vision ซึ่งเป็นโมเดลมัลติโมดัลที่สามารถวิเคราะห์ภาพถ่ายและวิดีโอได้ โดยผสานกับระบบเสียงเพื่อสร้างเอไอผู้ช่วยเสมือนมนุษย์
เมต้าวางแผนเปิดตัวเอไอเสียง (Voice AI) บนแพลตฟอร์มต่างๆ ภายในปีนี้ โดยใช้ Llama 3.3 เพื่อให้ผู้ใช้สามารถสนทนากับเอไอแบบธรรมชาติผ่าน Messenger, WhatsApp และเว็บไซต์ Facebook, Instagram นอกจากนี้ เมต้ายังพัฒนา Llama Guard 3 เพื่อตรวจสอบความปลอดภัยของเอไอเอเจนต์ ป้องกันการสร้างเนื้อหาที่เป็นอันตราย อย่างไรก็ตาม เมต้ายังเผชิญความท้าทายในการทำให้เอไอเอเจนต์ทำงานอิสระได้อย่างสมบูรณ์ โดยปัจจุบันยังอยู่ในขั้นทดสอบเบต้า
ขณะที่กูเกิลและเมต้าเร่งพัฒนา แอนทรอปิกและโอเพ่นเอไอได้รุกหนีห่างด้วยโมเดลที่เหนือกว่า โอเพ่นเอไอเปิดตัว GPT-4o ซึ่งเป็นโมเดลมัลติโมดัลที่สามารถประมวลผลข้อความ เสียง ภาพ และวิดีโอได้แบบเรียลไทม์ โดยมีระบบเสียงที่ล่าช้าน้อยกว่า 320 มิลลิวินาที ใกล้เคียงกับมนุษย์ นอกจากนี้ โมเดล o1-preview และ o1-mini ยังเด่นในด้านการใช้เหตุผลเชิงโซ่คิด (Chain-of-Thought Reasoning) โดยทำคะแนนสูงในเกณฑ์ทดสอบคณิตศาสตร์และวิทยาศาสตร์ เช่น AIME และ GPQA
แอนทรอปิกเองก็ไม่น้อยหน้า ด้วย Claude 3.5 Sonnet ซึ่งเป็นโมเดลที่นำโด่งในเกณฑ์ทดสอบหลายรายการ เช่น GPQA Diamond (59.4%) และ MMLU-Pro (84.8%) Claude ยังมีความสามารถในการเขียนโค้ดและแก้ปัญหาเชิงตรรกะได้ยอดเยี่ยม โดยนำใน SWE-bench Verified (49%) สิ่งที่ทำให้ทั้งสองบริษัทนี้โดดเด่นคือความสามารถในการทำงานแบบเอเจนต์อิสระ (Autonomous Agents) เช่น การใช้เครื่องมือภายนอก การวางแผนขั้นตอน และการโต้ตอบกับสภาพแวดล้อมจริง
การแข่งขันครั้งนี้สะท้อนถึงแนวโน้มอุตสาหกรรมที่เอไอเอเจนต์ส่วนบุคคลจะกลายเป็นจุดเปลี่ยนสำคัญ โดยคาดว่าจะช่วยเพิ่มประสิทธิภาพในงานธุรกิจ การศึกษา และชีวิตประจำวัน อย่างไรก็ตาม ความท้าทายยังคงมี เช่น การรับประกันความปลอดภัย ความเป็นส่วนตัวของข้อมูล และการลดการใช้พลังงานในการประมวลผล กูเกิลและเมต้าจึงต้องเร่งพัฒนาให้ทัน เพื่อไม่ให้เสียเปรียบในตลาดเอไอที่เติบโตอย่างรวดเร็ว
(จำนวนคำประมาณ 720 คำ)
This Article is sponsored by Gnoppix AI (https://www.gnoppix.org)