Google DeepMind อัปเดต Veo 3.1 ด้วยฟังก์ชันภาพอ้างอิงเพื่อสร้างวิดีโอที่ динамиกและสอดคล้องมากยิ่งขึ้น
Google DeepMind บริษัทผู้พัฒนาเทคโนโลยีปัญญาประดิษฐ์ชั้นนำ ได้ประกาศอัปเดตโมเดลสร้างวิดีโอ Veo 3.1 โดยเพิ่มฟังก์ชันภาพอ้างอิง (Reference Image Function) ซึ่งช่วยให้ผู้ใช้สามารถกำหนดทิศทางสไตล์และองค์ประกอบของวิดีโอที่สร้างขึ้นได้อย่างแม่นยำยิ่งขึ้น ฟีเจอร์ใหม่นี้ช่วยยกระดับคุณภาพวิดีโอให้มีความ динамиก สอดคล้อง และสมจริงมากกว่าเดิม โดยเฉพาะในด้านการเคลื่อนไหวและการรักษาความต่อเนื่องขององค์ประกอบภาพ
โมเดล Veo 3.1 เป็นส่วนหนึ่งของเครื่องมือทดลอง VideoFX ใน Google Labs ซึ่งเดิมทีเน้นการสร้างวิดีโอจากข้อความ (Text-to-Video) แต่การอัปเดตครั้งนี้เพิ่มความสามารถในการใช้ภาพอ้างอิงเป็นแนวทางหลัก ผู้ใช้สามารถอัปโหลดภาพตัวอย่างเพื่อกำหนดลักษณะเฉพาะ เช่น สไตล์ศิลปะ การจัดองค์ประกอบ หรือบุคลิกของตัวละครในวิดีโอ ทำให้ผลลัพธ์ออกมามีความสอดคล้องกับวิสัยทัศน์ของผู้สร้างมากขึ้น โดยไม่ต้องพึ่งพาการอธิบายด้วยข้อความยาวๆ เพียงอย่างเดียว
กระบวนการทำงานของฟังก์ชันภาพอ้างอิงนั้นเรียบง่ายแต่ทรงพลัง ผู้ใช้เริ่มต้นด้วยการป้อนพรอมต์ข้อความพื้นฐาน เช่น “สุนัขวิ่งเล่นในสวน” จากนั้นเลือกภาพอ้างอิงที่ต้องการ เช่น ภาพสุนัขพันธุ์เฉพาะในมุมมองที่กำหนด โมเดล Veo 3.1 จะผสานองค์ประกอบจากภาพอ้างอิงเข้ากับพรอมต์ข้อความ เพื่อสร้างวิดีโอความละเอียด 1080p ยาวสูงสุด 8 วินาที ผลลัพธ์ที่ได้คือวิดีโอที่มีการเคลื่อนไหวอย่างเป็นธรรมชาติ เช่น การหมุนกล้อง (Camera Panning) หรือการเปลี่ยนมุมมอง динамиก โดยรักษาลักษณะของภาพอ้างอิงไว้อย่างสมบูรณ์
ตัวอย่างที่ Google DeepMind นำเสนอแสดงให้เห็นถึงประสิทธิภาพของฟีเจอร์นี้อย่างชัดเจน หนึ่งในนั้นคือวิดีโอสุนัขวิ่งผ่านทุ่งหญ้า โดยใช้ภาพอ้างอิงของสุนัขพันธุ์ลาบราดอร์สีน้ำตาล ผลลัพธ์ปรากฏเป็นวิดีโอที่สุนัขมีลักษณะเหมือนภาพอ้างอิงเป๊ะ การเคลื่อนไหวของหาง ขาหน้า และขนสัตว์ดูสมจริง ขณะที่ฉากหลังมีการเปลี่ยนแปลง динамиก เช่น กล้องแพนตามการวิ่ง ทำให้วิดีโอดูมีชีวิตชีวาและน่าติดตามยิ่งขึ้น ตัวอย่างอื่นๆ รวมถึงฉากหมีแพนด้ากินไผ่ในป่าไผ่ หรือนกอินทรีบินโฉบลงมา โดยทุกคลิปคงความสอดคล้องของสไตล์จากภาพอ้างอิง ไม่ว่าจะเป็นแสงเงา สีสัน หรือท่าทาง
ประโยชน์หลักของฟังก์ชันนี้อยู่ที่การเพิ่มความยืดหยุ่นและความแม่นยำในการสร้างเนื้อหา สำหรับนักการตลาด นักโฆษณา หรือผู้ผลิตคอนเทนต์ วิดีโอที่ได้จะช่วยลดเวลาในการแก้ไขหลังการสร้าง เนื่องจากสามารถควบคุมองค์ประกอบได้ตั้งแต่ขั้นตอนแรก นอกจากนี้ ยังช่วยแก้ปัญหาความไม่สอดคล้องที่พบในโมเดลสร้างวิดีโอรุ่นก่อนๆ เช่น การเปลี่ยนแปลงรูปร่างตัวละครหรือสไตล์ฉากกลางคัน Veo 3.1 จึงเหมาะสำหรับการใช้งานเชิงพาณิชย์ที่ต้องการวิดีโอคุณภาพสูงในเวลาอันสั้น
เมื่อเปรียบเทียบกับคู่แข่งในตลาด เช่น Runway Gen-3 หรือ Kling AI จากจีน ฟีเจอร์ภาพอ้างอิงของ Veo 3.1 ถือเป็นจุดเด่นที่ช่วยให้ Google DeepMind ก้าวขึ้นมาเป็นผู้นำ โดย Runway มีความสามารถคล้ายกันแต่เน้นการขยายวิดีโอ (Video Extension) ในขณะที่ Kling โดดเด่นเรื่องความยาววิดีโอ Veo 3.1 กลับเน้นความสมจริงและการควบคุมสไตล์ ทำให้เหมาะกับการใช้งานที่ต้องการความละเอียดอ่อน เช่น การสร้างโฆษณาแบรนด์หรือวิดีโอโปรโมชัน
ปัจจุบัน VideoFX ที่ใช้ Veo 3.1 ยังอยู่ในสถานะทดลอง ผู้สนใจต้องสมัครรอคิวใน Google Labs ซึ่งมีจำกัดในบางประเทศ เช่น สหรัฐอเมริกาและบางส่วนของยุโรป Google DeepMind ระบุว่าการอัปเดตนี้เป็นส่วนหนึ่งของการพัฒนาต่อเนื่อง เพื่อให้ Veo สามารถแข่งขันในตลาด AI สร้างวิดีโอที่กำลังเติบโตอย่างรวดเร็ว โดยคาดว่าจะขยายการเข้าถึงในอนาคตอันใกล้
การอัปเดต Veo 3.1 นี้ไม่เพียงยกระดับเทคโนโลยีของ Google DeepMind แต่ยังสะท้อนถึงแนวโน้มอุตสาหกรรมที่มุ่งสู่การควบคุมเนื้อหาที่ละเอียดยิ่งขึ้น ผู้ประกอบการทางธุรกิจสามารถใช้ประโยชน์จากเครื่องมือนี้เพื่อสร้างสื่อดิจิทัลที่มีประสิทธิภาพ ส่งเสริมการตลาดและการสื่อสารในยุคดิจิทัลได้ดียิ่งขึ้น
(จำนวนคำประมาณ 728 คำ)
This Article is sponsored by Gnoppix AI (https://www.gnoppix.org)