Qwen-Image-2.0 ของอาลีบาบา เพิ่มการบีบอัดสองเท่า และลดขั้นตอนการสร้างจาก 40 เป็น 4

Alibaba’s Qwen Image 2.0: เพิ่มประสิทธิภาพการบีบอัดภาพสองเท่า ลดขั้นตอนการสร้างจาก 40 เป็นเพียง 4 ขั้นตอน

Alibaba Cloud’s Qwen Team ได้ประกาศเปิดตัว Qwen Image 2.0 ซึ่งเป็นโมเดลสร้างภาพแบบมัลติโมดัลรุ่นใหม่ล่าสุด โดยเป็นส่วนหนึ่งของซีรีส์ Qwen 2.5 ที่ครอบคลุมทั้ง Qwen 2.5-VL สำหรับการประมวลผลวิชชัน-ภาษา และ Qwen Image 2.0 ที่มุ่งเน้นการสร้างภาพจากข้อความ (text-to-image) โดยโมเดลนี้โดดเด่นด้วยการปรับปรุงประสิทธิภาพอย่างมาก โดยเฉพาะการบีบอัดภาพที่เพิ่มขึ้นสองเท่า และการลดจำนวนขั้นตอนการสร้างภาพจาก 40 ขั้นตอนเหลือเพียง 4 ขั้นตอนเท่านั้น ซึ่งช่วยให้การสร้างภาพรวดเร็วและมีประสิทธิภาพสูงขึ้นอย่างเห็นได้ชัด

Qwen Image 2.0 ถูกพัฒนาขึ้นบนพื้นฐานของเทคโนโลยีการเรียนรู้เชิงลึกขั้นสูง โดยใช้ tokenizer ใหม่ที่เรียกว่า Qwen Image Tokenizer ซึ่งสามารถบีบอัดภาพได้ในอัตราสูงถึง 16 เท่าแบบ lossless (ไม่สูญเสียข้อมูล) สูงกว่าอัตราการบีบอัดเดิม 8 เท่าของโมเดลรุ่นก่อนหน้าถึงสองเท่า การบีบอัดนี้ช่วยลดขนาดข้อมูลภาพลงอย่างมาก ทำให้การประมวลผลบนอุปกรณ์ที่มีทรัพยากรจำกัดเป็นไปได้ โดยยังคงรักษาคุณภาพภาพในระดับสูง นอกจากนี้ โมเดลยังรองรับการสร้างภาพความละเอียดสูงถึง 1024x1024 พิกเซล ซึ่งเหมาะสำหรับการใช้งานในเชิงพาณิชย์ เช่น การออกแบบกราฟิก การสร้างเนื้อหาสื่อ และการพัฒนาแอปพลิเคชัน AI

หนึ่งในนวัตกรรมหลักของ Qwen Image 2.0 คือการลดขั้นตอนการสร้างภาพ (inference steps) จาก 40 ขั้นตอนในโมเดล diffusion แบบดั้งเดิมเหลือเพียง 4 ขั้นตอน โดยใช้เทคนิค consistency models ที่ผสานรวมกับการบีบอัด latent space ขั้นสูง สิ่งนี้ช่วยให้เวลาในการสร้างภาพลดลงกว่า 90% โดยโมเดลขนาด 2B พารามิเตอร์สามารถสร้างภาพขนาด 1024x1024 ได้ภายในเวลาไม่ถึง 1 วินาทีบน GPU ทั่วไป เช่น NVIDIA A100 การปรับปรุงนี้ไม่เพียงเพิ่มความเร็ว แต่ยังคงรักษาคุณภาพภาพให้เทียบเท่าหรือเหนือกว่าโมเดลชั้นนำอื่นๆ เช่น Stable Diffusion 3 Medium และ Flux.1 Schnell

ในการทดสอบประสิทธิภาพ Qwen Image 2.0 แสดงผลลัพธ์ที่โดดเด่นในหลายベンチมาร์กมาตรฐาน เช่น GenEval, DPG-Bench, و HPSv2.1 โดยโมเดลขนาด 7B ทำคะแนนนำหน้าคู่แข่งอย่าง SDXL Lightning, PixArt-Sigma, และ Stable Diffusion 3 ในด้านคุณภาพภาพ ความสอดคล้องกับพรอมต์ (prompt adherence) และความหลากหลายของผลลัพธ์ นอกจากนี้ ยังมีประสิทธิภาพสูงในงานสร้างภาพที่ซับซ้อน เช่น ภาพที่มีองค์ประกอบหลายชิ้น การเรียงลำดับเชิงพื้นที่ที่แม่นยำ และการแสดงผลข้อความในภาพ (text rendering) ซึ่งเป็นจุดอ่อนของโมเดลหลายตัวในตลาดปัจจุบัน

Qwen Image 2.0 มีให้เลือกใช้ในหลายขนาดพารามิเตอร์ เพื่อรองรับการใช้งานที่หลากหลาย ตั้งแต่โมเดลขนาดเล็ก 0.5B สำหรับอุปกรณ์ edge computing ไปจนถึงโมเดลขนาดใหญ่ 7B สำหรับเซิร์ฟเวอร์องค์กร โมเดลทั้งหมดเปิดให้ใช้งานฟรีภายใต้ใบอนุญาต Apache 2.0 บนแพลตฟอร์ม Hugging Face ทำให้ผู้พัฒนา นักวิจัย และธุรกิจสามารถเข้าถึงและปรับแต่งได้ง่าย นอกจากนี้ ยังมีการรองรับ ComfyUI workflow ซึ่งช่วยให้การรวมเข้ากับ pipeline การสร้างภาพอื่นๆ เป็นไปอย่างราบรื่น

การพัฒนานี้สะท้อนถึงกลยุทธ์ของ Alibaba Cloud ในการผลักดันเทคโนโลยี AI แบบ open-source เพื่อเร่งนวัตกรรมในอุตสาหกรรม โดย Qwen Image 2.0 ไม่เพียงแก้ไขข้อจำกัดด้านความเร็วและขนาดข้อมูลของโมเดลสร้างภาพแบบดั้งเดิม แต่ยังเปิดโอกาสให้ธุรกิจนำไปประยุกต์ใช้ในแอปพลิเคชันจริง เช่น e-commerce สำหรับการสร้างภาพสินค้าแบบเรียลไทม์ การตลาดดิจิทัลสำหรับคอนเทนต์ส่วนบุคคล และการพัฒนาเกมที่ต้องการภาพคุณภาพสูงจำนวนมาก

เปรียบเทียบกับคู่แข่ง Qwen Image 2.0 ยังคงความเป็นผู้นำในด้านประสิทธิภาพต่อพารามิเตอร์ (efficiency-per-parameter) โดยโมเดลขนาดเล็กสามารถแข่งขันกับโมเดลขนาดใหญ่ได้ ทำให้เหมาะสำหรับการ deploy ในสภาพแวดล้อม cloud-hybrid หรือ on-premise ที่มีงบประมาณจำกัด การทดสอบบน hardware มาตรฐานยืนยันว่ามี VRAM usage ต่ำ โดยโมเดล 2B ใช้เพียง 6GB VRAM สำหรับการสร้างภาพเต็มความละเอียด ซึ่งต่ำกว่าคู่แข่งหลายตัวเกือบครึ่ง

Qwen Team ยังได้เผยแพร่โค้ดตัวอย่างและคู่มือการใช้งานอย่างละเอียด เพื่อช่วยให้ผู้ใช้เริ่มต้นได้ทันที รวมถึงการ fine-tuning บน dataset เฉพาะโดเมน สิ่งนี้ช่วยเสริมสร้าง ecosystem ของ Qwen ให้แข็งแกร่งยิ่งขึ้น โดยในอนาคต คาดว่าจะมีการอัปเดตเพิ่มเติม เช่น การรองรับ video generation และ multimodal generation ที่ครอบคลุมยิ่งกว่า

ด้วยความก้าวหน้าดังกล่าว Qwen Image 2.0 จึงกลายเป็นตัวเลือกชั้นนำสำหรับธุรกิจที่ต้องการ AI สร้างภาพที่มีประสิทธิภาพสูง คุณภาพเยี่ยม และต้นทุนต่ำ ซึ่งจะช่วยขับเคลื่อน digital transformation ในยุค AI อย่างมีนัยสำคัญ

(จำนวนคำ: 728)

This Article is sponsored by Gnoppix AI (https://www.gnoppix.org)