การยกระดับการควบคุมวิดีโอปัญญาประดิษฐ์ผ่านภาพอ้างอิงหลายชุด
Google ได้เปิดตัวความสามารถใหม่ที่ก้าวหน้าสำหรับโมเดลปัญญาประดิษฐ์ (AI) ในการสร้างวิดีโอ (Video Generation AI) โดยเฉพาะอย่างยิ่งในกลุ่มผลิตภัณฑ์ Gemini ซึ่งช่วยให้ผู้ใช้งานสามารถควบคุมทิศทางภาพลักษณ์ของวิดีโอที่สร้างขึ้นได้อย่างแม่นยำยิ่งขึ้น ด้วยการรองรับการป้อนข้อมูลภาพอ้างอิงหลายภาพต่อหนึ่งคำสั่ง (Multiple Reference Images Per Input)
ความสามารถในการใช้ภาพอ้างอิงหลายภาพนี้ ถือเป็นวิวัฒนาการที่สำคัญในการสร้างสรรค์เนื้อหาวิดีโอโดย AI โดยก่อนหน้านี้ การสร้างวิดีโอจาก AI มักอาศัยการป้อนข้อความ (Text Prompt) หรือภาพอ้างอิงเพียงภาพเดียว เพื่อกำหนดลักษณะและรูปลักษณ์ของวัตถุหรือตัวละครในวิดีโอ อย่างไรก็ตาม การใช้ภาพอ้างอิงเดียวมักมีข้อจำกัดในการจับรายละเอียดที่ซับซ้อน หรือการรวมคุณสมบัติที่หลากหลายเข้าด้วยกัน
คุณสมบัติใหม่นี้เปิดโอกาสให้ผู้ใช้งานสามารถนำเข้าชุดภาพ (Set of Images) ที่แสดงให้เห็นถึงหลากหลายมุมมอง (Different Views) ท่าทาง (Poses) หรือแม้กระทั่งคุณลักษณะย่อยที่แตกต่างกันของวัตถุที่ต้องการให้ปรากฏในวิดีโอได้ ทำให้ปัญญาประดิษฐ์สามารถ “ทำความเข้าใจ” (Grasp) แก่นแท้และลักษณะเฉพาะของภาพเป้าหมายได้ละเอียดรอบด้านมากขึ้น เมื่อผู้ใช้งานป้อนชุดภาพอ้างอิงเข้าไป ระบบ AI ของ Gemini จะทำการวิเคราะห์และสังเคราะห์องค์ประกอบภาพเหล่านั้น เพื่อสร้างโมเดลภายในที่มีความสมบูรณ์และแม่นยำกว่าการใช้ภาพเดียว
การใช้ภาพอ้างอิงหลายภาพเป็นประโยชน์อย่างยิ่งในกรณีที่ต้องการความคงเส้นคงวา (Consistency) ของรูปลักษณ์ของตัวละครหรือวัตถุที่เคลื่อนไหวตลอดความยาวของวิดีโอ ตัวอย่างเช่น หากผู้ใช้ต้องการให้วิดีโอแสดงผลตัวละครที่มีใบหน้าเฉพาะเจาะจงและทรงผมที่ละเอียดอ่อน การป้อนภาพตัวละครดังกล่าวจากหลายมุมมอง (หน้าตรง, ด้านข้าง, ก้ม) จะช่วยให้ AI สามารถรักษาความถูกต้องของอัตลักษณ์บุคคลนั้น ๆ ได้อย่างต่อเนื่อง ไม่ว่าจะอยู่ในฉากหรือการเคลื่อนไหวใดก็ตาม
หนึ่งในคุณสมบัติที่โดดเด่นของเทคโนโลยีนี้คือความสามารถในการทำ “Personalization” หรือการปรับแต่งให้เป็นส่วนตัวได้ง่ายขึ้น ในแง่ของการประยุกต์ใช้ในทางธุรกิจและการสร้างเนื้อหาระดับมืออาชีพ นักสร้างสรรค์สามารถสร้างเนื้อหาวิดีโอโฆษณา หรือวิดีโออธิบายสินค้า (Explainer Videos) ที่มีรูปแบบสินค้าหรือแบรนด์ที่มีความสอดคล้องกับคู่มือแบรนด์ (Brand Guidelines) ที่กำหนดไว้ล่วงหน้าได้อย่างเคร่งครัด
นอกจากนี้ เทคโนโลยีการแนะนำวิดีโอที่ขับเคลื่อนด้วยภาพหลายชุดนี้ ยังช่วยลดปัญหา “Drift” ที่มักเกิดขึ้นในโมเดลการสร้างวิดีโอทั่วไป ปัญหา Drift คือการที่ลักษณะของวัตถุ (เช่น สี, รูปร่าง, ลักษณะพื้นผิว) ค่อย ๆ เปลี่ยนแปลงและเบี่ยงเบนไปจากต้นฉบับ เมื่อวิดีโอมีความยาวเพิ่มขึ้น โดยเฉพาะอย่างยิ่งในส่วนท้าย ๆ ของวิดีโอ การมีข้อมูลภาพอ้างอิงที่หลากหลายจะทำหน้าที่เป็นจุดยึด (Anchors) ให้กับโมเดล ทำให้ AI สามารถอ้างอิงถึงต้นแบบได้ตลอดเวลา ทำให้มั่นใจได้ว่าความคงที่ของรูปลักษณ์จะคงอยู่ตลอดเฟรม
สำหรับผู้ใช้งานเบื้องต้น กระบวนการนี้ยังคงเน้นที่ความเรียบง่าย โดยผู้ใช้งานเพียงอัปโหลดชุดภาพที่ต้องการ และระบุทิศทางการเคลื่อนไหวหรือฉากด้วยข้อความป้อนคำสั่ง (Text Prompt) ที่สั้นและชัดเจน จากนั้นระบบ Gemini จะดำเนินการผสานรวมข้อมูลภาพและข้อความเข้าด้วยกัน เพื่อสร้างวิดีโอที่มีคุณภาพสูงและตรงตามความต้องการ
การพัฒนานี้ของ Google แสดงให้เห็นถึงแนวโน้มที่ชัดเจนของอุตสาหกรรม AI ในการให้ความสำคัญกับ “การควบคุม” (Controllability) ของผลลัพธ์ที่สร้างโดย AI มากกว่าเดิม ซึ่งเป็นการเปลี่ยนผ่านจากการสร้างวิดีโอแบบ “กล่องดำ” (Black Box Generation) ไปสู่การเป็นเครื่องมือสร้างสรรค์ที่ผู้ใช้งานสามารถชี้นำและปรับแต่งผลลัพธ์ได้อย่างละเอียดแม่นยำยิ่งขึ้น ถือเป็นก้าวสำคัญที่จะส่งผลกระทบต่ออุตสาหกรรมการผลิตสื่อ, การตลาดดิจิทัล, และการสร้างเนื้อหาสำหรับการฝึกอบรม (Training Content) ในที่สุด
This Article is sponsored by Gnoppix AI (https://www.gnoppix.org)