โมเดลสร้างภาพ Qwen เปิดใหม่ของอาลีบาบา มุ่งสู่ผลลัพธ์ที่ดูเป็นธรรมชาติยิ่งขึ้น
บริษัท Alibaba Cloud ภายใต้ทีมพัฒนา Qwen ได้เปิดตัวโมเดลปัญญาประดิษฐ์ (AI) สำหรับการสร้างภาพจากข้อความ (text-to-image) แบบโอเพ่นซอร์สล่าสุดชื่อ Qwen Image Generator ซึ่งเป็นส่วนหนึ่งของตระกูล Qwen โดยโมเดลนี้ได้รับการออกแบบมาเพื่อสร้างผลลัพธ์ภาพที่ดูเป็นธรรมชาติและสมจริงมากขึ้น เมื่อเทียบกับโมเดลรุ่นก่อนหน้าและคู่แข่งในตลาด
Qwen Image Generator ถือเป็นก้าวสำคัญในการพัฒนาเทคโนโลยี AI สร้างภาพของอาลีบาบา โดยเน้นแก้ไขปัญหาหลักที่พบในโมเดลสร้างภาพทั่วไป เช่น การเรนเดอร์มือ เท้า ใบหน้า และองค์ประกอบทางกายวิภาคศาสตร์ของมนุษย์ที่มักดูผิดรูปหรือไม่สมจริง โมเดลนี้ใช้สถาปัตยกรรมใหม่ที่ผสานรวมความสามารถของ Qwen2-VL ซึ่งเป็นโมเดลมัลติโมดัลที่เชี่ยวชาญด้านการประมวลผลภาพและข้อความเข้าด้วยกัน ทำให้สามารถเข้าใจพรอมต์ข้อความที่ซับซ้อนได้ดีเยี่ยม และแปลผลออกมาเป็นภาพที่มีคุณภาพสูง
ในด้านข้อมูลฝึกสอน (training data) โมเดล Qwen Image Generator ได้รับการฝึกด้วยชุดข้อมูลขนาดใหญ่ที่คัดกรองมาอย่างพิถีพิถัน โดยเน้นภาพคุณภาพสูงจากแหล่งข้อมูลหลากหลาย เพื่อให้เกิดการเรียนรู้ที่ครอบคลุมหัวข้อต่างๆ เช่น ภาพจริง ภาพศิลปะ สถาปัตยกรรม และสถานการณ์ในชีวิตประจำวัน นอกจากนี้ ทีมพัฒนายังใช้เทคนิคการปรับแต่ง (fine-tuning) พิเศษเพื่อเสริมความสามารถในการสร้างภาพที่หลีกเลี่ยงอคติ (bias) และข้อผิดพลาดทั่วไป เช่น การบิดเบือนสัดส่วนร่างกายหรือพื้นหลังที่ไม่สอดคล้อง
ผลการทดสอบประสิทธิภาพ (benchmark) แสดงให้เห็นถึงจุดเด่นของโมเดลนี้อย่างชัดเจน โดย Qwen Image Generator สามารถทำคะแนนเหนือกว่าโมเดลชั้นนำหลายตัว เช่น Stable Diffusion 3 Medium (SD3 Medium) และ FLUX.1 Schnell ในเมตริกที่วัดความเป็นธรรมชาติของภาพ (naturalness) เช่น GenEval, HPSv2.1 และ DPG โดยเฉพาะในด้านความถูกต้องของโครงสร้างมนุษย์และความสมจริงขององค์ประกอบภาพ คะแนนเหล่านี้ยืนยันว่าโมเดลมีความสามารถในการผลิตภาพที่ “ดูเหมือนภาพถ่ายจริง” มากกว่า โดยลดปัญหา artifacts หรือความผิดเพี้ยนที่พบบ่อยในโมเดลโอเพ่นซอร์สอื่นๆ
ตัวอย่างเดโมที่ทีม Qwen นำเสนอแสดงให้เห็นความแตกต่างอย่างชัดเจน เช่น พรอมต์ “ชายหนุ่มกำลังยืนมองทะเลทรายยามพระอาทิตย์ตก” ในโมเดลรุ่นก่อนหน้ามักให้ผลลัพธ์ที่มีมือผิดรูปหรือใบหน้าบิดเบี้ยว แต่ Qwen Image Generator สร้างภาพที่มีมือห้าข้างชัดเจน ใบหน้าสมส่วน และพื้นหลังทะเลทรายที่สมจริงราวกับภาพถ่ายจริงอีกตัวอย่างคือ พรอมต์ภาพกลุ่มคนในงานปาร์ตี้ ซึ่งโมเดลนี้จัดการตำแหน่งร่างกายและการโต้ตอบระหว่างบุคคลได้อย่างเป็นธรรมชาติ โดยไม่เกิดปัญหาการทับซ้อนหรือสัดส่วนผิดเพี้ยง
นอกจากนี้ โมเดลยังรองรับการสร้างภาพในสไตล์หลากหลาย ตั้งแต่ภาพสมจริง (photorealistic) ไปจนถึงภาพศิลปะดิจิทัล โดยสามารถปรับขนาดภาพได้สูงสุดที่ 1024x1024 พิกเซล และประมวลผลได้รวดเร็วบนฮาร์ดแวร์ทั่วไป ทำให้เหมาะสำหรับนักพัฒนาและธุรกิจที่ต้องการรวมเข้ากับแอปพลิเคชันต่างๆ เช่น การสร้างเนื้อหาสื่อ การออกแบบผลิตภัณฑ์ หรือเครื่องมือช่วยเหลือสร้างสรรค์ (creative tools)
ในแง่การเข้าถึง Qwen Image Generator วางจำหน่ายภายใต้ใบอนุญาต Apache 2.0 ซึ่งเป็นใบอนุญาตโอเพ่นซอร์สที่เปิดกว้าง สามารถดาวน์โหลดได้ฟรีจากแพลตฟอร์ม Hugging Face โดยมีน้ำหนักโมเดล (model weights) ขนาด 7B พารามิเตอร์ ทำให้ใช้งานได้ง่ายทั้งบนคลาวด์และเครื่อง локаль นักพัฒนาสามารถทดลองใช้งานผ่านเดโมออนไลน์ที่ Alibaba Cloud หรือ Hugging Face Spaces เพื่อประเมินประสิทธิภาพก่อนนำไปใช้งานจริง
การเปิดตัวโมเดลนี้สะท้อนกลยุทธ์ของอาลีบาบาในการผลักดันเทคโนโลยี AI โอเพ่นซอร์สให้แข่งขันกับยักษ์ใหญ่อย่าง OpenAI (DALL-E) และ Stability AI โดย Qwen Image Generator ไม่เพียงเสริมความแข็งแกร่งให้ตระกูล Qwen ซึ่งมีโมเดลหลากหลายตั้งแต่ภาษาไปจนถึงวิชชัน แต่ยังช่วยลดช่องว่างระหว่างโมเดลปิด (closed-source) กับโอเพ่นซอร์ส ในตลาดที่กำลังเติบโตอย่างรวดเร็ว
อย่างไรก็ตาม ทีมพัฒนาได้เตือนถึงข้อจำกัด เช่น โมเดลอาจยังมีปัญหากับพรอมต์ที่ซับซ้อนมากหรือหัวข้อที่ละเอียดอ่อน เช่น การเมืองหรือบุคคลจริง ซึ่งเป็นเรื่องปกติในโมเดลสร้างภาพ AI ทั่วไป ผู้ใช้งานควรตรวจสอบและปรับแต่งผลลัพธ์ให้เหมาะสม โดยเฉพาะในบริบทธุรกิจที่ต้องการความแม่นยำสูง
โดยสรุป Qwen Image Generator คือโมเดลที่มุ่งเน้นคุณภาพและความเป็นธรรมชาติ ซึ่งจะช่วยยกระดับการใช้งาน AI สร้างภาพในวงการธุรกิจและการพัฒนาซอฟต์แวร์ อาลีบาบากำลังวางตำแหน่งตัวเองให้เป็นผู้นำในด้านนี้ ผ่านนวัตกรรมที่เปิดกว้างและมีประสิทธิภาพสูง
(จำนวนคำประมาณ 728 คำ)
This Article is sponsored by Gnoppix AI (https://www.gnoppix.org)