Google วางตำแหน่ง Gemini เป็น "กาว" สำหรับระบบนิเวศ XR ใหม่ของตน

กูเกิลวางตำแหน่งเจมินีเป็นตัวเชื่อมหลักสำหรับระบบนิเวศ XR ใหม่

กูเกิลกำลังเร่งสร้างระบบนิเวศความเป็นจริงเสมือนขยาย (Extended Reality: XR) โดยมีเจมินี (Gemini) โมเดลปัญญาประดิษฐ์ (AI) เป็นหัวใจสำคัญในการเชื่อมโยงทุกส่วนเข้าด้วยกัน ในการประชุมนักพัฒนา Google I/O 2024 กูเกิลได้เปิดตัวแพลตฟอร์ม Android XR ซึ่งเป็นระบบปฏิบัติการใหม่สำหรับอุปกรณ์ XR โดยมีเจมินีเป็นตัวขับเคลื่อนหลัก ทำให้กูเกิลสามารถแข่งขันกับคู่แข่งอย่างแอปเปิลและเมต้าได้อย่างมีประสิทธิภาพ

Android XR คือระบบปฏิบัติการที่ออกแบบมาสำหรับอุปกรณ์หัวและแว่น XR โดยเฉพาะ โดยจะเปิดตัวในปี 2568 ร่วมกับพันธมิตรอย่างซัมซุงผ่านโครงการ Project Moohan ซึ่งเป็นแว่น XR แบบ standalone นอกจากนี้ยังมีการร่วมมือกับ Xreal สำหรับแว่น Air 2 Ultra และมีแผนขยายไปยังอุปกรณ์อื่นๆ Android XR สร้างบนพื้นฐานของ Android โดยเพิ่มความสามารถในการจัดการอินพุตหลายรูปแบบ (multimodal inputs) เช่น กล้อง ไมโครโฟน และเซ็นเซอร์ต่างๆ ซึ่งทั้งหมดนี้จะถูกประมวลผลโดยเจมินี

เจมินีถูกวางตำแหน่งเป็น “กาว” หรือตัวเชื่อมที่รวมทุกฟังก์ชันเข้าด้วยกัน โดยรองรับการทำงานแบบ multimodal ซึ่งสามารถเข้าใจและตอบสนองต่อข้อมูลจากวิดีโอสด เสียง และข้อมูลเชิงพื้นที่ได้อย่างชาญฉลาด ในตัวอย่างที่แสดงในการประชุม เจมินี Nano ซึ่งเป็นเวอร์ชัน onsite ของโมเดลนี้ ถูกนำมาใช้ในโปรโตไทป์แว่นอัจฉริยะ (smart glasses) เพื่อแสดงความสามารถในการนำทางแบบเรียลไทม์ โดยผู้ใช้ชี้กล้องไปที่สิ่งแวดล้อมรอบตัว เจมินีจะวิเคราะห์ภาพและให้คำแนะนำ เช่น ชี้ไปที่รถไฟฟ้าแล้วถามเส้นทางไปสนามบิน เจมินีจะตอบกลับด้วยข้อมูลเส้นทางพร้อมไฮไลต์ตำแหน่งบนภาพจริงผ่าน augmented reality (AR)

นอกจากนี้ เจมินียังสามารถจดจำวัตถุและเชื่อมโยงกับบริการของกูเกิล เช่น ในเดโมที่แสดงการถ่ายภาพแมวด้วยกล้องสมาร์ทโฟน เจมินีจะอัปเดตอัลบั้ม Google Photos ทันทีพร้อมแท็กชื่อและตำแหน่งที่ถ่าย หรือในกรณีที่ผู้ใช้อ่านเอกสาร เจมินีจะสรุปเนื้อหาและส่งข้อมูลไปยัง Google Docs โดยอัตโนมัติ ความสามารถเหล่านี้เกิดจากการผสานรวมกับ Google apps เช่น Maps, Photos, และ Docs ทำให้ระบบนิเวศ XR ของกูเกิลมีความต่อเนื่องและใช้งานได้จริงในชีวิตประจำวัน

โครงสร้างของ Android XR ประกอบด้วยชั้นต่างๆ ที่เจมินีมีบทบาทสำคัญ ชั้นล่างสุดคือ Linux kernel สำหรับจัดการฮาร์ดแวร์ ตามด้วย Android framework และ ARCore สำหรับการติดตามเชิงพื้นที่ ชั้นกลางคือ XR Launcher ซึ่งเป็น UI แบบ spatial ที่ปรับตามท่าทางและการมองของผู้ใช้ ชั้นบนสุดคือ apps ที่ใช้เจมินีในการประมวลผล ทำให้ developer สามารถสร้างแอปพลิเคชันที่เข้าใจบริบทเชิงพื้นที่ได้ง่ายขึ้น

กูเกิลเน้นย้ำว่าเจมินีไม่ใช่แค่ AI ช่วยเหลือ แต่เป็นส่วนประกอบพื้นฐานของระบบ โดย Gemini Nano ทำงานบนอุปกรณ์โดยไม่ต้องเชื่อมต่ออินเทอร์เน็ต Gemini Pro และ Ultra จะจัดการงานที่ซับซ้อนกว่าผ่านคลาวด์ นอกจากนี้ยังมี Project Aura ซึ่งเป็นแว่น XR แบบโปรโตไทป์ที่แสดงให้เห็นการใช้งานเจมินีในการแปลภาษาแบบเรียลไทม์ ขณะที่ผู้ใช้มองป้ายภาษาต่างประเทศ เจมินีจะ overlay ข้อความภาษาอังกฤษทับภาพจริง

การวางตำแหน่งนี้ช่วยให้กูเกิลแก้ pain points ของอุปกรณ์ XR ในปัจจุบัน เช่น แบตเตอรี่หมดเร็วและการโต้ตอบที่ยุ่งยาก โดยเจมินีช่วยลดการพึ่งพาการสัมผัสหรือคอนโทรลเลอร์ เปลี่ยนเป็น voice, gesture และ gaze-based interaction ซึ่งเป็นธรรมชาติมากกว่า คู่แข่งอย่าง Apple Vision Pro ใช้ visionOS กับ Siri ที่อัปเกรดแล้ว แต่กูเกิลมีข้อได้เปรียบจากฐานผู้ใช้ Android ที่กว้างขวางและพันธมิตรฮาร์ดแวร์ที่หลากหลาย เช่น Qualcomm สำหรับชิป XR

อย่างไรก็ตาม กูเกิลยังเผชิญความท้าทายในการหาพันธมิตรฮาร์ดแวร์ที่แข็งแกร่ง โดย Project Moohan กับซัมซุงคาดว่าจะเป็นจุดเริ่มต้นสำคัญ แต่ยังไม่มีกำหนดวางจำหน่ายที่ชัดเจน นอกจากนี้ การแข่งขันจาก Meta Quest ซึ่งครองตลาด VR/AR ด้วยราคาที่เข้าถึงได้ ก็เป็นอุปสรรคที่ต้องจับตา

โดยสรุป การใช้เจมินีเป็นตัวกลางช่วยให้ระบบนิเวศ XR ของกูเกิลมีความยืดหยุ่นและเชื่อมโยงกับบริการที่มีอยู่แล้ว ทำให้ผู้ใช้สามารถเปลี่ยนจากสมาร์ทโฟนไปยังแว่น XR ได้อย่างราบรื่น กูเกิลคาดหวังว่าระบบนี้จะกลายเป็นมาตรฐานใหม่ในอุตสาหกรรม XR ภายใน 2-3 ปีข้างหน้า

(จำนวนคำประมาณ 728 คำ)

This Article is sponsored by Gnoppix AI (https://www.gnoppix.org)