กูเกิลอธิบายความแตกต่างระหว่างโมเดลสร้างภาพสามรุ่นหลัก: Imagen 3, Banana และ Nano
กูเกิล ดีพไมน์ด์ (Google DeepMind) ได้เผยแพร่บล็อกโพสต์ล่าสุดที่อธิบายความแตกต่างระหว่างโมเดลสร้างภาพสามรุ่นที่ใช้เทคโนโลยีการสร้างภาพด้วยปัญญาประดิษฐ์ (AI) ได้แก่ Imagen 3 ซึ่งเป็นโมเดลหลัก, Banana และ Nano ซึ่งเป็นเวอร์ชันย่อยที่ถูกกลั่นกรอง (distilled) มาจาก Imagen 3 โดยทั้งสามโมเดลนี้ถูกออกแบบมาเพื่อตอบสนองความต้องการที่หลากหลายในด้านความเร็ว คุณภาพ และต้นทุนการใช้งาน โดยเฉพาะในแอปพลิเคชัน Gemini
Imagen 3 ถือเป็นโมเดลสร้างภาพที่ทรงพลังที่สุดของกูเกิลในปัจจุบัน โดยสามารถสร้างภาพคุณภาพสูงจากข้อความอธิบาย (text-to-image) ได้อย่างละเอียดและสมจริง โมเดลนี้ได้รับการฝึกฝนด้วยชุดข้อมูลขนาดใหญ่ที่ครอบคลุมหลากหลายสไตล์ศิลปะ วัตถุ สถานที่ และองค์ประกอบซับซ้อน ทำให้สามารถจัดการกับคำสั่งที่ซับซ้อน เช่น การเรียงลำดับองค์ประกอบ การแสดงแสงเงา และการผสมผสานสไตล์ได้อย่างยอดเยี่ยม อย่างไรก็ตาม Imagen 3 ใช้เวลานานกว่าในกระบวนการสร้างภาพ โดยเฉลี่ยใช้เวลา 10-20 วินาทีต่อภาพ ซึ่งเหมาะสำหรับการใช้งานที่ต้องการคุณภาพสูงสุด เช่น การสร้างภาพประกอบทางธุรกิจ งานออกแบบกราฟิก หรือเนื้อหาสร้างสรรค์ที่ต้องการความแม่นยำสูง
เพื่อแก้ไขข้อจำกัดด้านความเร็ว กูเกิลได้พัฒนา Banana และ Nano ซึ่งเป็นโมเดลที่ถูกกลั่นกรองจาก Imagen 3 โดยใช้เทคนิค distillation เพื่อถ่ายโอนความรู้จากโมเดลขนาดใหญ่มาสู่โมเดลขนาดเล็กกว่า ทำให้ทั้งสองรุ่นนี้เร็วกว่าและประหยัดต้นทุนมากขึ้น Banana มีขนาดใกล้เคียงกับ Imagen 3 Fast แต่เร็วกว่า 5 เท่า โดยใช้เวลาเฉลี่ยเพียง 2-4 วินาทีต่อภาพ ในขณะที่ Nano ซึ่งเป็นโมเดลที่เล็กที่สุด เร็วกว่า Imagen 3 Fast ถึง 12 เท่า ใช้เวลาเพียง 1 วินาทีหรือน้อยกว่า ต้นทุนการใช้งานของ Nano ต่ำสุดที่ประมาณ 0.02 ดอลลาร์สหรัฐต่อภาพ เทียบกับ Imagen 3 ที่สูงถึง 0.06 ดอลลาร์สหรัฐ
ในการเปรียบเทียบประสิทธิภาพ กูเกิลใช้ชุดเมตริกมาตรฐานหลายตัว เช่น GenEval ซึ่งวัดความสามารถในการทำตามคำสั่งที่ซับซ้อน, HPSv2 ซึ่งประเมินคุณภาพภาพโดยรวม, AM-3 ซึ่งตรวจสอบความสมจริงของมนุษย์และสัตว์, และ Objaverse ซึ่งทดสอบการสร้างวัตถุ 3 มิติ ผลการทดสอบแสดงว่า Imagen 3 ครองอันดับหนึ่งในทุกเมตริก โดยได้คะแนนสูงสุดใน GenEval (คะแนน 1.325), HPSv2 (คะแนน 33.5) และอื่นๆ Banana และ Nano แม้จะมีคะแนนต่ำกว่าเล็กน้อย แต่ยังคงรักษาคุณภาพในระดับสูง โดย Banana ได้คะแนนใกล้เคียง Imagen 3 ในหลายเมตริก เช่น GenEval (1.250) และใกล้เคียงกับโมเดลชั้นนำอื่นๆ อย่าง Flux.1 Pro ในบางด้าน Nano เองก็แสดงผลงานได้ดีในด้านความเร็ว โดยรักษาคุณภาพได้ถึง 90% ของ Imagen 3 ในเมตริกหลัก
นอกจากนี้ กูเกิลยังได้ทดสอบในสถานการณ์จริงผ่านแอปพลิเคชัน Gemini โดยผู้ใช้กว่า 750 ล้านคนสามารถเข้าถึงโมเดลเหล่านี้ได้ Banana และ Nano ถูกนำมาใช้ใน Gemini 2.0 Flash Experimental ซึ่งช่วยให้การตอบสนองเร็วขึ้นอย่างเห็นได้ชัด โดยเฉพาะในงานที่ต้องการภาพจำนวนมากหรือการใช้งานแบบเรียลไทม์ เช่น การสนทนากับ AI ที่สร้างภาพประกอบทันที ตัวอย่างภาพที่สร้างจากทั้งสามโมเดลแสดงให้เห็นถึงความแตกต่าง เช่น ภาพ “หมีแพนด้ากำลังเล่นไวโอลินในห้องสมุด” ที่ Imagen 3 สร้างได้ละเอียดสมบูรณ์แบบ ในขณะที่ Banana และ Nano ยังคงรายละเอียดหลักแต่ลดความซับซ้อนบางส่วนเพื่อแลกกับความเร็ว
ด้านความปลอดภัย กูเกิลได้รวมระบบ SynthID เข้าไปในโมเดลทั้งสาม เพื่อฝังน้ำmarks ดิจิทัลที่มองไม่เห็นได้ ซึ่งช่วยตรวจจับภาพที่สร้างโดย AI ได้อย่างมีประสิทธิภาพ นอกจากนี้ ยังมีตัวกรองเนื้อหาที่เข้มงวดเพื่อป้องกันการสร้างภาพที่ไม่เหมาะสม เช่น เนื้อหาทางเพศ ความรุนแรง หรือบุคคลที่มีชื่อเสียงจริง
การเปิดตัวโมเดลเหล่านี้สะท้อนถึงกลยุทธ์ของกูเกิลในการ cân bằngระหว่างคุณภาพและประสิทธิภาพ โดย Imagen 3 เหมาะสำหรับงานระดับมืออาชีพที่ต้องการความสมบูรณ์แบบ Banana สำหรับการใช้งานทั่วไปที่ต้องการความเร็วปานกลาง และ Nano สำหรับแอปพลิเคชันที่เน้นความรวดเร็วและต้นทุนต่ำ เช่น บนอุปกรณ์มือถือหรือการประมวลผลจำนวนมาก โมเดลทั้งสามนี้สามารถเข้าถึงได้ผ่าน Google AI Studio, Vertex AI และแอป Gemini โดยนักพัฒนาสามารถทดลองใช้งานและปรับแต่งตามความต้องการทางธุรกิจได้ทันที
การเปรียบเทียบนี้ช่วยให้นักพัฒนาและธุรกิจสามารถเลือกโมเดลที่เหมาะสมกับ use case ของตน เช่น ในอุตสาหกรรมการตลาดที่ต้องการภาพโฆษณาคุณภาพสูงใช้ Imagen 3 ในขณะที่แอปแชทหรือเกมออนไลน์เลือก Nano เพื่อประสบการณ์ผู้ใช้ที่ลื่นไหล สุดท้าย บล็อกโพสต์ของกูเกิลยังเชิญชวนให้ชุมชนทดสอบและให้ feedback เพื่อพัฒนาต่อไป ซึ่งเป็นก้าวสำคัญในการผลักดันเทคโนโลยี AI สร้างภาพสู่การใช้งานเชิงพาณิชย์ที่กว้างขวางยิ่งขึ้น
(จำนวนคำประมาณ 720 คำ)
This Article is sponsored by Gnoppix AI (https://www.gnoppix.org)