Zhipu AI เปิดตัว GLM-5V-Turbo โมเดลมัลติโมดัลที่แปลงภาพร่างแบบออกแบบ UI เป็นโค้ดแอปพลิเคชันเว็บใช้งานได้จริง
Zhipu AI บริษัทปัญญาประดิษฐ์ชั้นนำจากจีน ได้เปิดตัว GLM-5V-Turbo ซึ่งเป็นโมเดลมัลติโมดัลรุ่นล่าสุดที่โดดเด่นด้วยความสามารถในการแปลงภาพร่างแบบออกแบบอินเทอร์เฟซผู้ใช้ (UI mockups) โดยตรงให้กลายเป็นโค้ดแฟรนต์เอนด์ที่ใช้งานได้จริง โมเดลนี้สามารถประมวลผลภาพ UI แล้วสร้างโค้ด HTML, CSS และ JavaScript ที่สมบูรณ์แบบ รวมถึงรองรับเฟรมเวิร์กยอดนิยมอย่าง Vue.js และ React ทำให้กระบวนการพัฒนาเว็บไซต์รวดเร็วและมีประสิทธิภาพยิ่งขึ้น
GLM-5V-Turbo ถือเป็นก้าวกระโดดสำคัญในด้านการเข้าใจภาพและการสร้างโค้ด โดยเฉพาะอย่างยิ่งในงานที่เกี่ยวข้องกับการออกแบบดิจิทัล ผู้ใช้สามารถอัปโหลดภาพร่างแบบ UI ที่สร้างจากเครื่องมืออย่าง Figma หรือ Sketch แล้วโมเดลจะวิเคราะห์องค์ประกอบต่างๆ เช่น เลย์เอาต์ ปุ่ม ฟอร์ม และสีสัน เพื่อผลิตโค้ดที่ responsive และใช้งานได้ทันที โดยไม่จำเป็นต้องปรับแต่งเพิ่มเติมมากนัก ตัวอย่างเช่น จากภาพ mockup ง่ายๆ ของหน้า landing page โมเดลสามารถสร้างโค้ด HTML/CSS/JS ที่มีโครงสร้าง semantic ถูกต้อง พร้อมสไตล์ที่ตรงกับภาพต้นฉบับ
ในด้านประสิทธิภาพ GLM-5V-Turbo ทำคะแนนเหนือชั้นใน基准ทดสอบมาตรฐานหลายรายการ โดยเฉพาะ UI2Code ซึ่งเป็นชุดข้อมูลสำหรับการแปลง UI เป็นโค้ด โดยทำได้ถึง 85.0% ซึ่งสูงกว่าโมเดลคู่แข่งอย่าง Claude 3.5 Sonnet (83.1%) และ GPT-4o (76.5%) นอกจากนี้ ใน基准 WebCodeAI โมเดลนี้ยังคงครองอันดับหนึ่งด้วยคะแนน 78.2% เทียบกับ Claude 3.5 Sonnet ที่ 75.4% และ GPT-4o ที่ 72.1% ผลลัพธ์เหล่านี้ยืนยันถึงความแม่นยำในการตีความภาพและการสร้างโค้ดที่ใช้งานได้จริง โดยเฉพาะในงานที่ซับซ้อน เช่น การจัดการกับองค์ประกอบแบบไดนามิกหรือการเลย์เอาต์ที่ปรับตามขนาดหน้าจอ
นอกเหนือจากความสามารถหลักในการสร้างโค้ดจากภาพ GLM-5V-Turbo ยังมีจุดเด่นในด้านการประมวลผลมัลติโมดัลที่ครอบคลุม โดยสามารถจัดการกับอินพุตทั้งภาพและข้อความ รองรับงานหลากหลาย เช่น การอธิบายภาพ การตอบคำถามจากเอกสารภาพ และการแก้ไขโค้ดที่มีอยู่ โมเดลนี้ใช้สถาปัตยกรรม Mixture-of-Experts (MoE) ที่มีพารามิเตอร์ทั้งหมด 361 พันล้านตัว โดยเปิดใช้งาน 71 พันล้านตัวต่อการประมวลผล ทำให้มีประสิทธิภาพสูงทั้งในด้านความเร็วและคุณภาพ นอกจากนี้ ยังรองรับความละเอียดภาพสูงถึง 1.8 ล้านพิกเซล ซึ่งช่วยให้จัดการกับภาพ UI ที่ละเอียดซับซ้อนได้ดีเยี่ยม
Zhipu AI ได้เปิดให้ทดลองใช้งาน GLM-5V-Turbo ผ่านแพลตฟอร์มออนไลน์ เช่น Playground บนเว็บไซต์ของบริษัท ผู้ใช้สามารถทดสอบโดยอัปโหลดภาพ mockup แล้วรับโค้ดที่พร้อมรันได้ทันที นอกจากนี้ ยังมี API สำหรับนักพัฒนาที่ต้องการรวมเข้ากับ workflow การพัฒนา เช่น ใน CI/CD pipeline หรือเครื่องมือออกแบบอัตโนมัติ การเปิดตัวโมเดลนี้ไม่เพียงช่วยลดช่องว่างระหว่างนักออกแบบและนักพัฒนา แต่ยังเร่งกระบวนการ prototyping ให้สั้นลง จากวันเป็นชั่วโมง
เมื่อเปรียบเทียบกับโมเดลอื่นๆ GLM-5V-Turbo แสดงให้เห็นถึงความเหนือกว่าในงานเฉพาะทางด้าน UI-to-Code โดยใน基准อื่นๆ เช่น ChartQA (93.4%) และ DocVQA (95.2%) ก็ทำคะแนนสูงเช่นกัน แม้จะยังตามหลังในบางงาน OCR แต่โดยรวมแล้วถือเป็นโมเดลที่สมดุลและพร้อมใช้งานจริงในอุตสาหกรรม Zhipu AI วางแผนอัปเดตโมเดลอย่างต่อเนื่อง เพื่อเพิ่มความสามารถในเฟรมเวิร์กอื่นๆ และปรับปรุงความแม่นยำยิ่งขึ้น
การมาของ GLM-5V-Turbo สะท้อนถึงแนวโน้มในอุตสาหกรรม AI ที่มุ่งเน้นการเชื่อมโยงระหว่างการออกแบบและการพัฒนา โดยช่วยให้ทีมงานขนาดเล็กหรือสตาร์ทอัพสามารถสร้างแอปพลิเคชันเว็บคุณภาพสูงได้โดยไม่ต้องพึ่งพานักพัฒนาจำนวนมาก ในยุคที่การแข่งขันด้านดิจิทัลทวีความรุนแรง โมเดลนี้จึงกลายเป็นเครื่องมือสำคัญที่ช่วยเพิ่ม productivity และลดต้นทุนการพัฒนา
(จำนวนคำประมาณ 720 คำ)
This Article is sponsored by Gnoppix AI (https://www.gnoppix.org)