ลูมา เอไอ เปิดตัว ยูนิ 1 โมเดลสร้างภาพจากข้อความที่ท้าทายการครองตลาดของกูเกิลในภาพ “นาโนเบนาน่า”
ลูมา เอไอ (Luma AI) บริษัทสตาร์ทอัพด้านปัญญาประดิษฐ์ชั้นนำ ได้เปิดตัวโมเดลสร้างภาพจากข้อความรุ่นใหม่ชื่อ “ยูนิ 1” (Uni 1) ซึ่งถือเป็นคู่แข่งตัวจริงตัวแรกที่ท้าทายการครองตลาดอันเหนียวแน่นของกูเกิลในด้านการสร้างภาพที่ซับซ้อน โดยเฉพาะภาพทดสอบยอดฮิตอย่าง “นาโนเบนาน่า” (nanobananajpeg) ที่เป็นมาตรฐานในการวัดประสิทธิภาพของโมเดล diffusion
ภาพนาโนเบนาน่าคือภาพขนาดเล็กที่ประกอบด้วยลูก banana สีเหลืองนับร้อยลูกเรียงตัวเป็นรูป banana ขนาดใหญ่ โดยมีรายละเอียดระดับนาโนที่ท้าทายโมเดล AI ในการสร้างให้ถูกต้อง โมเดลของกูเกิลอย่าง Imagen 3 เคยครองแชมป์ในการสร้างภาพนี้ได้สมบูรณ์แบบ โดยไม่มีการบิดเบี้ยวหรือสูญเสียรายละเอียด แต่ยูนิ 1 ของลูมากลับทำได้ดีเยี่ยมยิ่งกว่า สร้างภาพที่ชัดเจนและแม่นยำ โดยรักษารูปทรงและสีสันได้อย่างสมบูรณ์ ทำให้เป็นคู่ปรับที่ร้ายกาจที่สุดในปัจจุบัน
ยูนิ 1 เป็นโมเดล diffusion ขนาด 1.5 พันล้านพารามิเตอร์ (1.5B parameters) ที่พัฒนาขึ้นโดยใช้เทคนิค distillation จากโมเดลขนาดใหญ่กว่า 280 ล้านคู่ข้อมูลภาพ-ข้อความ (image-text pairs) ทำให้มีประสิทธิภาพสูงแม้จะมีขนาดกะทัดรัด นอกจากนี้ยังผสานเทคโนโลยี Latent Consistency Models (LCMs) เพื่อเร่งความเร็วในการอนุมาน (inference) ให้สร้างภาพได้ในเวลาไม่กี่วินาที ซึ่งเร็วกว่าโมเดล diffusion แบบดั้งเดิมหลายเท่า
ในด้านประสิทธิภาพ ยูนิ 1 ทำคะแนนนำในชุดทดสอบ GenEval ซึ่งเป็นเกณฑ์มาตรฐานใหม่สำหรับโมเดลสร้างภาพ โดยได้คะแนนสูงสุดใน 17 จาก 28 หมวดหมู่ รวมถึงหมวดที่ท้าทายอย่าง “นาโนเบนาน่า” นอกจากนี้ยังทำผลงานได้ดีใน HPSv2, DrawBench และ PartiPrompts โดยมีคะแนนเฉลี่ยสูงกว่าโมเดลชั้นนำอื่นๆ เช่น Stable Diffusion 3 Medium (SD3 Medium) และ Flux.1 Schnell ในบางเกณฑ์ ยูนิ 1 ยังรองรับการสร้างภาพความละเอียดสูงถึง 1024x1024 พิกเซล และปรับขนาดได้อย่างยืดหยุ่น
โครงสร้างทางเทคนิคของยูนิ 1 ใช้สถาปัตยกรรม DiT (Diffusion Transformers) ซึ่งเป็นวิวัฒนาการจาก U-Net แบบดั้งเดิม โดยมี Multimodal projector สำหรับประมวลผลข้อความ และ Flow matching เพื่อปรับปรุงการฝึกโมเดลให้มีเสถียรภาพยิ่งขึ้น นอกจากนี้ยังใช้เทคนิค EZ-Diag เพื่อลดปัญหา diagonal bias ใน attention layers ทำให้การสร้างภาพมีความสมจริงและหลากหลายมากขึ้น
จุดเด่นอีกประการคือ ยูนิ 1 เปิดให้ใช้งานแบบ open weights ฟรีบน Hugging Face ทำให้开发者และนักวิจัยสามารถดาวน์โหลด นำไปปรับแต่ง และใช้งานได้ทันที โดยไม่ต้องพึ่งพาบริการ cloud ของผู้ให้บริการรายใหญ่ ลูมา เอไอ เน้นย้ำว่ายูนิ 1 เป็นโมเดลที่ “ใช้งานได้จริงในเชิงพาณิชย์” ด้วยความเร็วและคุณภาพที่เหนือชั้น เหมาะสำหรับแอปพลิเคชันหลากหลาย เช่น การสร้างคอนเทนต์ การออกแบบกราฟิก และการพัฒนาเครื่องมือ AI
เมื่อเปรียบเทียบกับคู่แข่ง ยูนิ 1 แซงหน้าคู่ปรับหลายราย โดยเฉพาะในภาพทดสอบที่ซับซ้อน เช่น “นาโนเบนาน่า” ที่ Imagen 3 ของกูเกิลเคยเป็นแชมป์เพียงผู้เดียวก่อนหน้านี้ Flux.1 จาก Black Forest Labs ทำได้ดีแต่ยังมีข้อบกพร่องในรายละเอียดเล็กๆ ส่วน SD3 Medium ของ Stability AI ยังคงประสบปัญหาเรื่องความสอดคล้องของข้อความ (prompt adherence) ยูนิ 1 จึงเป็นตัวเลือกที่น่าสนใจสำหรับธุรกิจที่ต้องการโมเดลสร้างภาพที่มีประสิทธิภาพสูงในราคาถูก
อย่างไรก็ตาม ลูมา เอไอ ยังเผชิญความท้าทายในการขยายขนาดโมเดลให้ใหญ่ขึ้นเพื่อแข่งขันกับยักษ์ใหญ่อย่างกูเกิลและ OpenAI ในอนาคต แต่ด้วยการเปิดตัวยูนิ 1 ที่ประสบความสำเร็จนี้ ถือเป็นก้าวสำคัญที่แสดงให้เห็นถึงศักยภาพของสตาร์ทอัพในการพลิกโฉมตลาด AI สร้างภาพ
การเปิดตัวยูนิ 1 เกิดขึ้นท่ามกลางกระแสการแข่งขันที่ดุเดือดในวงการ generative AI โดยลูมา เอไอ ซึ่งมีชื่อเสียงจากโมเดลวิดีโออย่าง Dream Machine กำลังขยายขอบเขตสู่วงการภาพนิ่ง ลูมา ยังวางแผนปล่อยโมเดลขนาดใหญ่กว่าในอนาคต เพื่อยกระดับประสิทธิภาพให้เทียบเท่าหรือเหนือกว่าคู่แข่ง
สำหรับผู้ที่สนใจ สามารถทดลองใช้งานยูนิ 1 ได้ที่ Hugging Face Spaces หรือดาวน์โหลดน้ำหนักโมเดลเพื่อรันบนเครื่อง local โดยใช้ไลบรารี ComfyUI หรือ Diffusers การมาของยูนิ 1 ไม่เพียงท้าทายการครองตลาดของกูเกิล แต่ยังเปิดโอกาสให้ธุรกิจไทยและภูมิภาคเอเชียเข้าถึงเทคโนโลยี AI สร้างภาพระดับโลกได้ง่ายขึ้น
(จำนวนคำประมาณ 720 คำ)
This Article is sponsored by Gnoppix AI (https://www.gnoppix.org)