กูเกิลรวมข้อความ รูปภาพ วิดีโอ และเสียงไว้ในเวกเตอร์สเปซเดียวกันด้วย Gemini Embedding 2
กูเกิลได้เปิดตัว Gemini Embedding 2 ซึ่งเป็นโมเดลฝังข้อมูลรุ่นใหม่ที่สามารถเข้าใจข้อความ รูปภาพ วิดีโอ และเสียงในเวกเตอร์สเปซที่ใช้ร่วมกันเพียงแห่งเดียว โมเดลนี้เป็นส่วนหนึ่งของ Vertex AI และช่วยให้ผู้พัฒนาสามารถสร้างแอปพลิเคชันมัลติโมดัลที่ทรงพลัง โดยเฉพาะอย่างยิ่งในด้านการค้นหาและการจัดเก็บข้อมูลข้ามรูปแบบต่างๆ
Gemini Embedding 2 แตกต่างจากโมเดลฝังข้อมูลก่อนหน้าด้วยการรวมข้อมูลหลายรูปแบบ (multimodal data) เข้าด้วยกันในพื้นที่เวกเตอร์เดียว ทำให้สามารถเปรียบเทียบและค้นหาข้อมูลระหว่างข้อความ รูปภาพ วิดีโอ และเสียงได้โดยตรง ตัวอย่างเช่น ผู้ใช้สามารถค้นหาวิดีโอด้วยคำอธิบายข้อความ หรือค้นหารูปภาพด้วยคลิปเสียงสั้นๆ โดยไม่จำเป็นต้องแปลงรูปแบบข้อมูลแยกกัน นวัตกรรมนี้ช่วยลดความซับซ้อนในการพัฒนาและเพิ่มประสิทธิภาพในการประมวลผลข้อมูลขนาดใหญ่
โมเดลนี้มีให้เลือกสองขนาด เพื่อตอบโจทย์ความต้องการที่หลากหลาย ได้แก่ Gemini Embedding 2 1.5 Lite ซึ่งมีขนาดมิติเวกเตอร์ 385 มิติ และ Gemini Embedding 2 Preview ซึ่งมีขนาด 1,024 มิติ ทั้งสองรุ่นรองรับความยาวข้อความสูงสุด 8,192 โทเค็น โดย Gemini Embedding 2 Preview สามารถประมวลผลวิดีโอความยาวสูงสุด 8 วินาที และเสียงความยาวสูงสุด 8 วินาที ทำให้เหมาะสำหรับการใช้งานที่ต้องการความละเอียดสูง
ในด้านประสิทธิภาพ Gemini Embedding 2 ทำผลงานได้อย่างโดดเด่นในหลายเกณฑ์มาตรฐาน โดย Gemini Embedding 2 Preview ทำคะแนนสูงสุดใน MIRACL (multilingual retrieval) ที่ 60.4% เทียบกับคู่แข่งอย่าง OpenAI text-embedding-3-large ที่ 58.9% นอกจากนี้ ยังทำผลงานยอดเยี่ยมใน ImageNet โดย Gemini Embedding 2 1.5 Lite ได้รับคะแนน 70.7% และ Preview ได้ 74.4% ซึ่งสูงกว่าโมเดลอื่นๆ เช่น CLIP ViT-L/14 ที่ 70.2%
สำหรับการทดสอบวิดีโอ Gemini Embedding 2 Preview ทำคะแนนสูงสุดใน Video-MME benchmark ที่ 68.0% โดยสามารถจัดการคลิปวิดีโอสั้นๆ ได้อย่างมีประสิทธิภาพ ในขณะที่ Gemini Embedding 2 1.5 Lite ทำคะแนน 64.7% โมเดลทั้งสองรุ่นยังแสดงศักยภาพใน Meatpi-QA benchmark สำหรับการค้นหาวิดีโอ โดย Preview ได้รับคะแนน 64.2% และ Lite ได้ 60.5% ซึ่งเหนือกว่าโมเดลอื่นๆ ในตลาด
การใช้งานหลักของ Gemini Embedding 2 มุ่งเน้นไปที่ Retrieval-Augmented Generation (RAG) ซึ่งช่วยให้ระบบ AI สามารถดึงข้อมูลที่เกี่ยวข้องจากฐานข้อมูลมัลติโมดัลเพื่อสร้างคำตอบที่แม่นยำยิ่งขึ้น นอกจากนี้ ยังเหมาะสำหรับระบบแนะนำสินค้า (recommendation systems) ที่สามารถรวมข้อมูลจากรีวิวข้อความ รูปภาพสินค้า วิดีโอสาธิต และเสียงรีวิวได้ในครั้งเดียว ตัวอย่างการใช้งานอื่นๆ รวมถึงการค้นหาข้อมูลในองค์กร การวิเคราะห์เนื้อหาสื่อ และการสร้าง chatbot ที่เข้าใจบริบทมัลติโมดัล
ผู้พัฒนาสามารถเข้าถึง Gemini Embedding 2 ผ่าน Vertex AI Embeddings API โดยเริ่มต้นใช้งานได้ทันทีผ่าน Google AI Studio หรือ Vertex AI ใน Google Cloud Console สำหรับการใช้งานในเชิงพาณิชย์ โมเดลนี้มีราคาคงที่ 0.10 ดอลลาร์ต่อ 1 ล้านตัวอักษรสำหรับข้อความ รูปภาพ และเสียง และ 0.20 ดอลลาร์ต่อวินาทีสำหรับวิดีโอ โดย Gemini Embedding 2 1.5 Lite มีราคาถูกกว่า Preview ประมาณ 50% ทำให้เหมาะสำหรับการใช้งานในปริมาณมาก
ในส่วนของการฝังข้อมูล (embedding) โมเดลนี้แปลงข้อมูลอินพุตทั้งหมดเป็นเวกเตอร์ที่มีขนาดคงที่ โดยข้อความจะถูกแปลงเป็นเวกเตอร์จากโทเค็น รูปภาพจากพิกเซล วิดีโอจากเฟรมหลายเฟรม และเสียงจากคลื่นเสียง ทำให้เวกเตอร์เหล่านี้สามารถคำนวณความคล้ายคลึงกัน (similarity) ได้โดยใช้ cosine similarity หรือวิธีอื่นๆ ในเวกเตอร์สเปซเดียวกัน
กูเกิลเน้นย้ำว่า Gemini Embedding 2 ถูกฝึกฝนด้วยข้อมูลขนาดใหญ่และหลากหลาย เพื่อให้มีความแม่นยำสูงในภาษาหลายภาษา รวมถึงภาษาอังกฤษ ไทย จีน ญี่ปุ่น และอื่นๆ ซึ่งช่วยให้องค์กรธุรกิจในภูมิภาคเอเชียสามารถนำไปใช้งานได้อย่างมีประสิทธิภาพ โดยเฉพาะในอุตสาหกรรมค้าปลีก สื่อ และการบริการลูกค้า
นอกจากนี้ Vertex AI ยังรองรับการปรับขนาด (scaling) อัตโนมัติ ทำให้สามารถจัดการโหลดงานสูงได้โดยไม่กระทบต่อประสิทธิภาพ ผู้พัฒนาสามารถทดสอบโมเดลผ่านคอนโซลออนไลน์และรวมเข้ากับแอปพลิเคชันได้ง่ายผ่าน SDK สำหรับ Python, Node.js และอื่นๆ
Gemini Embedding 2 ถือเป็นก้าวสำคัญในการพัฒนา AI มัลติโมดัลของกูเกิล โดยช่วยให้ธุรกิจสามารถใช้ประโยชน์จากข้อมูลหลากรูปแบบเพื่อสร้างมูลค่าเพิ่ม ส่งผลให้การตัดสินใจทางธุรกิจรวดเร็วและแม่นยำยิ่งขึ้น ในยุคที่ข้อมูลมัลติโมดัลกลายเป็นหัวใจของการแข่งขันทางธุรกิจ โมเดลนี้จะเป็นเครื่องมือสำคัญสำหรับองค์กรที่ต้องการนำหน้า
(จำนวนคำประมาณ 720 คำ)
This Article is sponsored by Gnoppix AI (https://www.gnoppix.org)