Qwen3.5-Omni เรียนรู้ที่จะเขียนโค้ดจากคำสั่งที่พูดและวิดีโอ โดยไม่มีการฝึกอบรมจากใครเลย

Qwen2.5-Omni: โมเดลปัญญาประดิษฐ์แบบมัลติโมดัลที่เรียนรู้การเขียนโค้ดจากคำสั่งด้วยเสียงและวิดีโอโดยอัตโนมัติ

ในยุคที่ปัญญาประดิษฐ์ (AI) พัฒนาอย่างรวดเร็ว โมเดลมัลติโมดัลอย่าง Qwen2.5-Omni จาก Alibaba Cloud กำลังสร้างความประหลาดใจให้กับวงการ โดยแสดงศักยภาพในการเรียนรู้การเขียนโค้ดจากคำสั่งด้วยเสียงและวิดีโอโดยไม่ต้องผ่านการฝึกอบรมเฉพาะทาง นับเป็นความสามารถที่เกิดขึ้นเอง (emergent capability) ซึ่งนักวิจัยค้นพบโดยบังเอิญระหว่างการทดสอบ

Qwen2.5-Omni เป็นโมเดลพื้นฐาน (foundation model) ที่รองรับข้อมูลอินพุตหลายรูปแบบ ได้แก่ เสียง วิดีโอ ภาพ และข้อความ โดยมีจุดเด่นที่ความหน่วงต่ำ (low latency) ทำให้สามารถประมวลผลแบบเรียลไทม์ได้อย่างมีประสิทธิภาพ โมเดลนี้พัฒนาต่อยอดจาก Qwen2.5-VL ซึ่งเน้นการประมวลผลวิดีโอและภาพถ่ายแบบละเอียด โดยมีพารามิเตอร์ทั้งหมด 3 พันล้านตัว (3B parameters) และสามารถสร้างผลลัพธ์ในรูปแบบข้อความ เสียง และวิดีโอได้ Alibaba Cloud เปิดตัวโมเดลนี้เมื่อไม่นานมานี้ เพื่อตอบสนองความต้องการในการใช้งาน AI ที่หลากหลายในธุรกิจและการพัฒนาเทคโนโลยี

การค้นพบความสามารถที่ไม่คาดคิด

นักวิจัยจาก Alibaba ได้ทดสอบ Qwen2.5-Omni ด้วยงานที่ไม่เคยฝึกอบรมมาก่อน โดยให้โมเดลรับคำสั่งด้วยเสียงหรือดูวิดีโอตัวอย่าง แล้วสร้างโค้ดที่ใช้งานได้จริง ผลลัพธ์น่าทึ่งคือ โมเดลสามารถทำได้สำเร็จ แม้จะไม่มีข้อมูลฝึกอบรมเฉพาะสำหรับงานดังกล่าว ตัวอย่างเช่น เมื่อให้คำสั่งด้วยเสียงว่า “Write a snake game in HTML and JavaScript” โมเดลจะสร้างโค้ดเกมงูที่สมบูรณ์ พร้อมฟังก์ชันการเคลื่อนไหว การชน และการแสดงคะแนน โดยโค้ดที่ได้สามารถรันในเบราว์เซอร์ได้ทันที

ในกรณีวิดีโอ นักวิจัยบันทึกวิดีโอสั้นๆ ของบุคคลที่พิมพ์โค้ดบนหน้าจอ แล้วให้โมเดลดูและทำตาม Qwen2.5-Omni สามารถถอดความ (transcribe) ข้อความจากวิดีโอ วิเคราะห์ลำดับการพิมพ์ และสร้างโค้ดต่อเนื่องที่ถูกต้องได้ แม้ในวิดีโอที่มีเสียงรบกวนหรือมุมกล้องไม่ชัดเจน ความสามารถนี้เกิดจากการรวมกันของการประมวลผลวิดีโอ การรู้จำเสียงพูด (speech recognition) และการทำความเข้าใจบริบทโค้ด ซึ่งเป็นผลจากโครงสร้างโมเดลมัลติโมดัลที่แข็งแกร่ง

ตัวอย่างการใช้งานจริง

หนึ่งในตัวอย่างที่โดดเด่นคือ การสร้างเกม Tic-Tac-Toe จากคำสั่งด้วยเสียง โมเดลไม่เพียงสร้างโครงสร้าง HTML, CSS และ JavaScript เท่านั้น แต่ยังรวมฟังก์ชันตรวจสอบผู้ชนะ การสลับรอบ และการรีเซ็ตเกมได้ครบถ้วน อีกตัวอย่างคือ การเขียนโค้ดคำนวณทางคณิตศาสตร์จากวิดีโอที่แสดงการพิมพ์สูตร โดยโมเดลสามารถปรับปรุงโค้ดให้มีประสิทธิภาพยิ่งขึ้น เช่น เพิ่มการจัดการข้อผิดพลาด (error handling)

นอกจากนี้ Qwen2.5-Omni ยังแสดงศักยภาพในงานที่ซับซ้อน เช่น การสร้างแอปพลิเคชันเว็บจากคำอธิบายด้วยเสียงที่ละเอียด โดยไม่ต้องมีตัวอย่างโค้ดล่วงหน้า ความแม่นยำสูงถึง 80-90% ในงานทดสอบ ซึ่งเทียบเท่ากับโมเดลที่ฝึกอบรมเฉพาะทาง นักวิจัยชี้ว่า ความสามารถนี้เกิดจาก “scaling law” ของโมเดลขนาดใหญ่ ที่สามารถ generalize ความรู้จากข้อมูลฝึกอบรมทั่วไปไปสู่สถานการณ์ใหม่ๆ ได้

กลไกทางเทคนิคเบื้องหลัง

Qwen2.5-Omni ใช้สถาปัตยกรรมที่ผสานการประมวลผลมัลติโมดัลเข้าด้วยกัน โดยมีส่วนการแปลงเสียงและวิดีโอเป็น token ข้อความ (tokenization) ก่อนส่งเข้าสู่โมเดลภาษาขนาดใหญ่ (LLM) ส่วนการประมวลผลวิดีโอใช้เทคนิคการสุ่มตัวอย่างเฟรม (frame sampling) เพื่อลดความซับซ้อน โดยรักษาความละเอียดสูงสุด 1080p และความยาววิดีโอได้ถึง 30 วินาที การรู้จำโค้ดจากวิดีโออาศัยการตรวจจับข้อความบนหน้าจอ (OCR) ร่วมกับการติดตามการเคลื่อนไหวของตัวชี้เมาส์และคีย์บอร์ด

แม้จะไม่ได้รับการฝึกอบรมด้วยข้อมูล “voice-to-code” หรือ “video-to-code” โดยตรง แต่โมเดลได้รับประโยชน์จากข้อมูลมัลติโมดัลจำนวนมหาศาลในชุดฝึกอบรม เช่น วิดีโอการสอนโค้ดบน YouTube หรือการสนทนาด้วยเสียงเกี่ยวกับการเขียนโปรแกรม สิ่งนี้ทำให้เกิดการถ่ายโอนความรู้ (knowledge transfer) โดยอัตโนมัติ

ความหมายต่อธุรกิจและอนาคต

ความสามารถ emergent นี้มีศักยภาพสูงในการปฏิวัติกระบวนการพัฒนาซอฟต์แวร์ โดยเฉพาะในธุรกิจที่ต้องการการพัฒนาแบบรวดเร็ว เช่น no-code/low-code platform นักพัฒนาสามารถสั่งงานด้วยเสียงหรือแสดงเดโมผ่านวิดีโอ เพื่อให้ AI สร้างโค้ดต้นแบบได้ทันที ลดเวลาพัฒนาจากวันเหลือชั่วโมง และเปิดโอกาสให้ผู้ไม่มีทักษะเขียนโค้ด เช่น ผู้บริหารหรือนักการตลาด สามารถสร้างเครื่องมือได้เอง

อย่างไรก็ตาม นักวิจัยเตือนถึงข้อจำกัด เช่น ความผิดพลาดในโค้ดที่ซับซ้อนมาก หรือการพึ่งพาคุณภาพอินพุตวิดีโอ Alibaba วางแผนปรับปรุงในเวอร์ชันถัดไป โดยเพิ่มการฝึกอบรมเฉพาะทางเพื่อยกระดับความน่าเชื่อถือ

Qwen2.5-Omni จึงเป็นตัวอย่างที่ชัดเจนของการพัฒนา AI ในยุคปัจจุบัน ที่โมเดลขนาดใหญ่สามารถแสดงพฤติกรรมอัจฉริยะเกินกว่าการฝึกอบรมเริ่มต้น สร้างโอกาสใหม่ให้กับอุตสาหกรรมเทคโนโลยีและธุรกิจทั่วโลก

(จำนวนคำประมาณ 720 คำ)

This Article is sponsored by Gnoppix AI (https://www.gnoppix.org)