Alibaba’s Qwen เปิดตัวโมเดล AI ที่แยกภาพออกเป็นเลเยอร์แก้ไขได้คล้าย Photoshop
ทีม Qwen จาก Alibaba Cloud ได้เปิดตัวโมเดลปัญญาประดิษฐ์รุ่นใหม่ชื่อ Qwen-VL-Plus-Layer ซึ่งมีความสามารถในการแยกภาพถ่ายออกเป็นเลเยอร์ที่แก้ไขได้แยกต่างหาก คล้ายกับระบบเลเยอร์ในโปรแกรม Adobe Photoshop โมเดลนี้ช่วยให้ผู้ใช้สามารถแก้ไขส่วนประกอบต่าง ๆ ของภาพ เช่น วัตถุด้านหน้า พื้นหลัง หรือองค์ประกอบอื่น ๆ ได้อย่างอิสระ โดยไม่ต้องใช้เครื่องมือตัดต่อภาพแบบดั้งเดิม
Qwen-VL-Plus-Layer เป็นโมเดลมัลติโมดัลที่พัฒนาต่อยอดจาก Qwen-VL ซึ่งเป็นโมเดลวิชัน-ภาษาก่อนหน้า โดยเพิ่มความสามารถพิเศษในการวิเคราะห์และแยกเลเยอร์ของภาพ โมเดลนี้ทำงานโดยรับภาพเข้าไป แล้วสร้างเลเยอร์หลายชั้นที่แต่ละชั้นแทนส่วนประกอบทางความหมาย (semantic components) เช่น ร่างกายมนุษย์ เสื้อผ้า วัตถุ หรือพื้นหลัง จากนั้น ผู้ใช้สามารถแก้ไข ดึงออก หรือรวมเลเยอร์เหล่านี้เพื่อสร้างภาพใหม่ได้ ตัวอย่างเช่น ในภาพที่มีบุคคลยืนอยู่หน้ากำแพง โมเดลจะแยกบุคคล พื้นหลัง และองค์ประกอบอื่น ๆ ออกเป็นเลเยอร์แยกต่างหาก ทำให้สามารถเปลี่ยนพื้นหลังหรือปรับแต่งบุคคลได้ง่ายดาย
เพื่อฝึกอบรมโมเดลนี้ ทีมพัฒนาได้สร้างชุดข้อมูลใหม่ชื่อ LayerScope ซึ่งประกอบด้วยภาพมากกว่า 23 ล้านภาพ ชุดข้อมูลนี้ถูกสร้างขึ้นโดยใช้เครื่องมือ LayerDiffusion เพื่อสร้างภาพสังเคราะห์ที่มีเลเยอร์กำหนดไว้ล่วงหน้า LayerScope ครอบคลุมหลากหลายประเภทภาพ เช่น ภาพจริง ภาพศิลปะ และภาพ 3 มิติ โดยแต่ละภาพมีเลเยอร์เฉลี่ย 5-10 ชั้น ชุดข้อมูลนี้ช่วยให้โมเดลเรียนรู้การแยกเลเยอร์ได้อย่างแม่นยำ โดยไม่ต้องพึ่งพาข้อมูลภาพจริงที่标注ด้วยมือซึ่งมีต้นทุนสูง
ในด้านประสิทธิภาพ Qwen-VL-Plus-Layer ได้รับการทดสอบบนชุด基准มาตรฐานหลายชุด เช่น LayerBound ซึ่งวัดความสามารถในการแยกเลเยอร์จากภาพจริง และ Objaverse-XL ซึ่งทดสอบกับวัตถุ 3 มิติกว่า 8 ล้านชิ้น ผลการทดสอบแสดงให้เห็นว่าโมเดลนี้มีคะแนนสูงกว่าคู่แข่ง เช่น Shap-E, LucidDreamer และโมเดลอื่น ๆ จาก OpenAI หรือ Stability AI โดยเฉพาะในด้านความสมบูรณ์ของเลเยอร์ (layer completeness) และความแม่นยำในการแยกวัตถุ นอกจากนี้ โมเดลยังรองรับความละเอียดภาพสูงถึง 448x448 พิกเซล และสามารถประมวลผลภาพขนาดใหญ่ได้อย่างมีประสิทธิภาพ
โมเดล Qwen-VL-Plus-Layer เปิดให้ใช้งานฟรีภายใต้ใบอนุญาต Apache 2.0 ผู้สนใจสามารถทดลองใช้งานผ่านเดโมบนแพลตฟอร์ม Hugging Face Spaces ซึ่งให้ผู้ใช้ลากภาพเข้าไปและดูผลลัพธ์การแยกเลเยอร์แบบเรียลไทม์ นอกจากนี้ โค้ดต้นแบบและน้ำหนักโมเดลยังสามารถดาวน์โหลดได้จาก GitHub repository ของ Qwen ทำให้开发者สามารถนำไปปรับแต่งหรือรวมเข้ากับแอปพลิเคชันได้
การเปิดตัวโมเดลนี้ถือเป็นก้าวสำคัญใน lĩnh vựcปัญญาประดิษฐ์สำหรับการตัดต่อภาพ โดยเปลี่ยนกระบวนการที่เคยซับซ้อนให้กลายเป็นเรื่องง่ายและรวดเร็ว ผู้ใช้ในอุตสาหกรรมต่าง ๆ เช่น การตลาด การโฆษณา การผลิตคอนเทนต์ดิจิทัล และการพัฒนาเกม สามารถนำไปประยุกต์ใช้เพื่อเร่งกระบวนการผลิตภาพคุณภาพสูง ลดต้นทุน และเพิ่มความยืดหยุ่นในการสร้างสรรค์
ทีม Qwen ยังได้เผยถึงกระบวนการพัฒนา โดยใช้เทคนิค LayerDiffusion ซึ่งเป็นโมเดล diffusion-based ที่สร้างภาพจากเลเยอร์แยกต่างหาก จากนั้นฝึก Qwen-VL-Plus-Layer ให้ทำนายเลเยอร์เหล่านี้จากภาพเดี่ยว การฝึกใช้เวลารวมกว่า 200 ชั่วโมงบน GPU NVIDIA H800 ทำให้โมเดลมีขนาด 7B พารามิเตอร์ ซึ่งเหมาะสำหรับการใช้งานบนคลาวด์หรือเครื่องเดสก์ท็อปที่มี GPU
เปรียบเทียบกับเครื่องมืออื่น ๆ Photoshop เองมีฟีเจอร์ Select Subject หรือ Remove Background แต่ต้องใช้การปรับแต่งด้วยมือ ในขณะที่ Qwen-VL-Plus-Layer ทำได้อัตโนมัติและรองรับเลเยอร์หลายชั้น โมเดลคู่แข่งอย่าง ControlNet หรือ Inpaint เก่งเรื่องการควบคุมเฉพาะจุด แต่ไม่แยกเลเยอร์แบบครบถ้วนเท่า Qwen นอกจากนี้ ความสามารถในการจัดการวัตถุโปร่งใสหรือซ้อนทับกันยังเป็นจุดเด่นที่ช่วยให้ผลลัพธ์ดูเป็นธรรมชาติมากขึ้น
สำหรับนักพัฒนา โมเดลนี้รองรับอินพุตภาษาธรรมชาติ เช่น “แยกเสื้อผ้าออกจากร่างกาย” ทำให้สามารถสั่งงานได้หลากหลาย นี่เป็นส่วนหนึ่งของวิสัยทัศน์ Qwen ในการสร้างเครื่องมือ AI ที่ใช้งานง่ายสำหรับทุกคน โดยเฉพาะในยุคที่คอนเทนต์ภาพและวิดีโอมีความต้องการสูง
การเปิดตัว Qwen-VL-Plus-Layer สะท้อนถึงความมุ่งมั่นของ Alibaba Cloud ในการผลักดันเทคโนโลยีโอเพ่นซอร์ส สร้าง ecosystem ที่แข็งแกร่งสำหรับชุมชน AI ทั่วโลก ผู้ที่สนใจสามารถติดตามพัฒนาการเพิ่มเติมได้จากบล็อกอย่างเป็นทางการของ Qwen
(จำนวนคำประมาณ 728 คำ)
This Article is sponsored by Gnoppix AI (https://www.gnoppix.org)