StoryMem ของ ByteDance: เทคโนโลยีมอบ “ความทรงจำ” ให้โมเดลวิดีโอ AI เพื่อแก้ปัญหาการเปลี่ยนรูปร่างตัวละครระหว่างฉาก
ในยุคที่เทคโนโลยีปัญญาประดิษฐ์ (AI) ก้าวหน้าอย่างรวดเร็ว โมเดลสร้างวิดีโอ AI เช่น Sora หรือ HunyuanVideo ได้รับความนิยมอย่างมาก เนื่องจากสามารถผลิตวิดีโอคุณภาพสูงจากข้อความอธิบายเพียงไม่กี่ประโยค อย่างไรก็ตาม ปัญหาหลักที่ยังคงค้างคายคือความไม่สอดคล้องทางเวลาของตัวละคร โดยเฉพาะการเปลี่ยนแปลงรูปร่าง ใบหน้า เสื้อผ้า หรือพื้นหลังระหว่างฉากต่างๆ ซึ่งทำให้วิดีโอยาวหลายวินาทีดูไม่สมจริงและขาดความต่อเนื่อง ByteDance บริษัทแม่ของ TikTok ได้พัฒนาเทคโนโลยีใหม่ชื่อ StoryMem ซึ่งเป็นโมเดลเสริม (plug-and-play module) ที่มอบ “ความทรงจำ” ให้กับโมเดลวิดีโอ AI เพื่อรักษาความสอดคล้องของตัวละครและองค์ประกอบอื่นๆ ระหว่างฉาก โดยไม่ต้องปรับแต่งโมเดลหลัก
ปัญหาความไม่สอดคล้องในโมเดลวิดีโอ AI ปัจจุบัน
โมเดลวิดีโอ AI ส่วนใหญ่ใช้กระบวนการ Denoising Diffusion Probabilistic Models (DDPM) ซึ่งสร้างวิดีโอโดยการค่อยๆ ลด噪声จากภาพสุ่มทีละเฟรม วิธีนี้ทำงานได้ดีสำหรับวิดีโอสั้นๆ แต่เมื่อสร้างวิดีโอยาวหรือหลายฉาก โมเดลมัก “ลืม” ลักษณะของตัวละครหลัก ส่งผลให้ตัวละครเปลี่ยนรูปร่างอย่างเห็นได้ชัด เช่น ใบหน้าผิดรูป เสื้อผ้าต่างกัน หรือแม้แต่พื้นหลังที่ไม่เชื่อมโยงกัน ปัญหานี้เรียกว่า “shapeshifting” หรือการเปลี่ยนรูปร่างโดยไม่ตั้งใจ ซึ่งเป็นอุปสรรคใหญ่ต่อการใช้งานในเชิงพาณิชย์ เช่น การผลิตโฆษณา เนื้อหาความบันเทิง หรือวิดีโอการศึกษา
นักวิจัยจาก ByteDance ได้ตีพิมพ์ผลงานนี้ใน arXiv เมื่อวันที่ 29 กรกฎาคม 2024 โดย StoryMem ได้รับการออกแบบมาเพื่อแก้ปัญหานี้โดยเฉพาะ โดยอาศัยแนวคิด “ความทรงจำ” คล้ายกับมนุษย์ที่จดจำลักษณะตัวละครจากฉากก่อนหน้าและนำมาใช้ต่อเนื่อง
หลักการทำงานของ StoryMem
StoryMem เป็นโมเดลเสริมที่แทรกเข้าไปในกระบวนการ Denoising ของโมเดลวิดีโอ AI โดยไม่ต้องฝึกโมเดลใหม่ทั้งหมด กระบวนการหลักประกอบด้วย 3 ส่วนสำคัญ:
-
Memory Encoder (ตัวเข้ารหัสความทรงจำ): รับภาพอ้างอิง (reference image) ของตัวละครหรือองค์ประกอบที่ต้องการรักษาความสอดคล้อง เช่น ภาพตัวเอกหรือพื้นหลัง จากนั้นเข้ารหัสเป็นเวกเตอร์คุณลักษณะ (feature vectors) ขนาด 256 มิติ โดยใช้ U-Net จาก Stable Diffusion 1.5 เพื่อดึงคุณสมบัติเชิงความหมาย เช่น รูปร่าง ใบหน้า สีผิว และเสื้อผ้า
-
Memory Bank (คลังความทรงจำ): เก็บเวกเตอร์เหล่านี้ไว้ในหน่วยความจำแบบ FIFO (First-In-First-Out) ขนาด 32 สล็อต โดยแต่ละสล็อตเก็บคุณสมบัติจากเฟรมก่อนหน้า สูงสุด 8 เฟรม เพื่อจำกัดการใช้หน่วยความจำและป้องกันการสะสม噪声 การอัปเดตคลังเกิดขึ้นทุกๆ 4 เฟรม เพื่อให้ความทรงจำสดใหม่
-
Retrieval and Fusion Module (โมดูลดึงข้อมูลและรวม): ในแต่ละขั้นตอน Denoising โมเดลจะดึงเวกเตอร์ที่คล้ายคลึงที่สุดจากคลัง โดยใช้ cosine similarity (คะแนนความคล้ายคลึงตั้งแต่ 0.6 ขึ้นไป) จากนั้นรวมเวกเตอร์เหล่านี้เข้ากับคุณสมบัติปัจจุบันด้วยการ scale-adaptive cross-attention ทำให้ตัวละครในเฟรมถัดไปสอดคล้องกับอดีต
เทคนิคนี้ใช้หลักการ Self-Attention เพื่อให้โมเดล “นึกถึง” ลักษณะเดิม โดยไม่รบกวนการสร้างเนื้อหาใหม่ เช่น การเคลื่อนไหวหรือฉากใหม่ StoryMem สามารถทำงานกับโมเดลต่างๆ ได้ทันที เช่น HunyuanVideo, Sora, Gen-2, และ Lumiere โดยไม่ต้องฝึกเพิ่มเติม
ผลการทดสอบและประสิทธิภาพ
นักวิจัยทดสอบ StoryMem บนชุดข้อมูล VBench ซึ่งประเมินความสอดคล้องของตัวละคร (Character Consistency) และพื้นหลัง (Background Consistency) รวมถึงความสมจริงโดยรวม (Overall Realism) ผลปรากฏว่า:
- Character Consistency: StoryMem ได้คะแนนสูงสุด 7.02 (เต็ม 10) สูงกว่า baseline อย่าง DynamiCrafter (5.88) และ ConsistID (6.15) ถึง 20%
- Background Consistency: คะแนน 6.85 สูงกว่า baseline อย่าง DragNUWA (5.92)
- Overall Video Quality: คะแนน 6.78 แสดงถึงความสมดุลระหว่างความสอดคล้องและคุณภาพวิดีโอ
ในการทดสอบเชิงคุณภาพกับผู้ใช้ 50 คน StoryMem ได้รับคะแนนความพึงพอใจสูงสุด โดยผู้เข้าร่วมชี้ว่าตัวละครดู “เหมือนตัวเดียวกันตลอด” มากกว่าโมเดลอื่น นอกจากนี้ StoryMem ยังลดปัญหา “flickering” (การกระพริบ) และรักษาความหลากหลายในการเคลื่อนไหวได้ดี
ด้านประสิทธิภาพการคำนวณ StoryMem เพิ่มเวลา inference เพียง 10-15% บน GPU A100 โดยใช้หน่วยความจำเพิ่ม 0.5 GB เท่านั้น ทำให้เหมาะสำหรับการใช้งานจริงในอุตสาหกรรม
ข้อจำกัดและแนวทางพัฒนาในอนาคต
แม้จะประสบความสำเร็จ แต่ StoryMem ยังมีข้อจำกัด เช่น การจัดการตัวละครหลายตัวในฉากซับซ้อน หรือการเปลี่ยนแปลงเสื้อผ้าที่ตั้งใจ (intentional changes) ซึ่งอาจถูกบังคับให้คงที่ นักวิจัยแนะนำการปรับปรุงด้วยการใช้ multi-head attention สำหรับตัวละครหลายตัว หรือรวมกับ text-based control เพื่อความยืดหยุ่นมากขึ้น
ความสำคัญต่ออุตสาหกรรม
StoryMem ถือเป็นก้าวสำคัญในการยกระดับโมเดลวิดีโอ AI สู่ระดับที่ใช้งานได้จริงในเชิงธุรกิจ โดยช่วยให้ผู้ผลิตเนื้อหาสามารถสร้างวิดีโอยาวหลายนาทีที่มีตัวละครสอดคล้อง เหมือนภาพยนตร์จริง ซึ่งจะเร่งการนำ AI ไปใช้ในอุตสาหกรรมบันเทิง การตลาด และการศึกษา ByteDance วางแผนเปิดโค้ดโอเพ่นซอร์สใน GitHub เพื่อให้ชุมชนนักพัฒนาใช้งานต่อยอด
เทคโนโลยีนี้ไม่เพียงแก้ปัญหา shapeshifting แต่ยังปูทางสู่ “AI storyteller” ที่มีหน่วยความจำระยะยาว สร้างโอกาสใหม่ให้กับเศรษฐกิจดิจิทัล
(จำนวนคำประมาณ 728 คำ)
This Article is sponsored by Gnoppix AI (https://www.gnoppix.org)