Know3D ช่วยให้ผู้ใช้ควบคุมด้านหลังที่ซ่อนอยู่ของวัตถุ 3D ด้วยพรอมต์ข้อความ

Know3D: เทคโนโลยีควบคุมด้านหลังของวัตถุ 3 มิติที่ซ่อนอยู่ด้วยพรอมต์ข้อความ

ในยุคที่เทคโนโลยีการสร้างโมเดล 3 มิติจากภาพถ่ายสองมิติหรือคำอธิบายข้อความกำลังได้รับความนิยมอย่างแพร่หลาย นักวิจัยจากมหาวิทยาลัยฉิงหวาและห้องปฏิบัติการปัญญาประดิษฐ์เทนเซ็นต์ได้พัฒนาเทคโนโลยีใหม่ชื่อ Know3D ซึ่งช่วยให้ผู้ใช้สามารถควบคุมด้านหลังของวัตถุ 3 มิติที่มองไม่เห็นได้อย่างแม่นยำ โดยใช้พรอมต์ข้อความธรรมชาติเท่านั้น เทคนิคนี้แก้ไขปัญหาสำคัญของวิธีการสร้าง 3 มิติแบบเดิมๆ ที่มักสร้างด้านหลังของวัตถุอย่างไม่สอดคล้องหรือสุ่มเสี่ยง ซึ่งส่งผลกระทบต่อการใช้งานจริงในอุตสาหกรรมต่างๆ เช่น การออกแบบผลิตภัณฑ์ การผลิตเสมือนจริง และการพัฒนาเกม

ปัญหาของการสร้าง 3 มิติแบบเดิม

วิธีการสร้างโมเดล 3 มิติจากภาพด้านหน้าหรือข้อความ เช่น Zero-1-to-3, Zero123, Instant3D หรือ SV3D มักประสบปัญหาเรื่องความไม่สอดคล้องของมุมมอง โดยเฉพาะด้านหลังที่มองไม่เห็นจากข้อมูลนำเข้า ระบบเหล่านี้มัก “หลอน” (hallucinate) รายละเอียดด้านหลังโดยอาศัยข้อมูลจากมุมมองด้านหน้าเท่านั้น ส่งผลให้เกิดความไม่สมจริง เช่น เก้าอี้ที่มีขาไม่ตรงกัน หรือรถยนต์ที่มีล้อด้านหลังผิดรูปทนี Know3D จึงถูกออกแบบมาเพื่อแก้ไขจุดอ่อนนี้ โดยมุ่งเน้นการควบคุมด้านหลังให้สอดคล้องกับคำอธิบายข้อความที่ผู้ใช้กำหนด

กรอบการทำงานแบบสองขั้นตอนของ Know3D

Know3D ประกอบด้วยกรอบการทำงานแบบสองขั้นตอนที่ชาญฉลาด ซึ่งผสานการสร้างโมเดล 3 มิติที่สอดคล้องด้านหน้ากับการปรับแต่งด้านหลังด้วยการนำทางจากข้อความ

ขั้นตอนที่ 1: การสร้างโมเดลเริ่มต้นที่สอดคล้องด้านหน้า (Front-View Consistent 3D Generation)
ในขั้นตอนนี้ ระบบใช้โมเดล diffusion แบบมีเงื่อนไข (conditional diffusion model) ที่ฝึกฝนจากชุดข้อมูล Objaverse-XL ขนาดใหญ่กว่า 10 ล้านชิ้น ในการสร้างโมเดล 3 มิติเริ่มต้นจากภาพด้านหน้าหรือพรอมต์ข้อความ โดยอาศัยเทคนิค Score Distillation Sampling (SDS) เพื่อให้มุมมองด้านหน้าสอดคล้องกับข้อมูลนำเข้า 100% โมเดลนี้ใช้การแทนค่าแบบ multi-view latent diffusion model (mv-LDM) ซึ่งช่วยให้เกิดความสอดคล้องข้ามมุมมอง (cross-view consistency) ในมุมมองหลักๆ เช่น ด้านหน้า ด้านข้าง และด้านบน นอกจากนี้ ยังใช้เทคนิค relightable โมเดลเพื่อปรับปรุงคุณภาพการเรนเดอร์

ขั้นตอนที่ 2: การปรับแต่งด้านหลังด้วยการนำทางข้อความ (Text-Guided Back-View Refinement)
หลังจากได้โมเดลเริ่มต้น ขั้นตอนนี้จะโฟกัสที่การปรับปรุงมุมมองด้านหลัง โดยใช้ diffusion model แบบมีเงื่อนไขจากข้อความที่ฝึกฝนใหม่ ระบบจะสุ่มมุมมองด้านหลังหลายมุม (เช่น 180° หรือมุมอื่นๆ) แล้วปรับปรุงให้สอดคล้องกับพรอมต์ข้อความที่ผู้ใช้ระบุ เช่น “ด้านหลังมีล้อสีแดงและกันชนคาร์บอนไฟเบอร์” การปรับปรุงนี้ใช้เทคนิค variational score distillation (VSD) เพื่อรักษาคุณสมบัติด้านหน้าของโมเดลเดิม ขณะเดียวกันก็เพิ่มรายละเอียดด้านหลังตามคำสั่ง โดยไม่รบกวนโครงสร้างโดยรวม ผลลัพธ์คือ โมเดล 3 มิติที่สมบูรณ์ทั้งด้านหน้าและด้านหลัง สามารถหมุนได้ 360 องศาโดยไม่มีความขัดแย้ง

การฝึกฝนและประสิทธิภาพ

Know3D ถูกฝึกฝนบนชุดข้อมูล Objaverse-XL ซึ่งมีวัตถุ 3 มิติหลากหลายประเภท เพื่อให้ครอบคลุมการใช้งานจริง การประเมินผลแสดงให้เห็นว่ามีประสิทธิภาพเหนือกว่า baseline ต่างๆ เช่น

  • Zero123++: CLIP score สูงกว่า 15-20% ในด้านความสอดคล้องมุมมอง
  • Instant3D: ความคล้ายคลึงกับข้อความด้านหลังดีขึ้น 25%
  • SV3D: ลดข้อผิดพลาดด้านหลังลงอย่างมาก

ในด้านเชิงคุณภาพ นักวิจัยใช้เมตริก เช่น CLIP score สำหรับความสอดคลึงกับข้อความ, FID สำหรับความหลากหลายมุมมอง, และ KID สำหรับความสมจริง โดย Know3D ทำคะแนนสูงสุดในทุกเมตริก โดยเฉพาะในหมวดหมู่ที่มีการควบคุมด้านหลัง เช่น รถยนต์ เฟอร์นิเจอร์ และสัตว์

ตัวอย่างการใช้งานและผลลัพธ์

ตัวอย่างเดโมแสดงให้เห็นถึงพลังของ Know3D เช่น การสร้างตุ๊กตาหมีจากภาพด้านหน้า โดยกำหนดด้านหลังว่า “มีริบบิ้นสีน้ำเงิน” ทำให้ด้านหลังมีริบบิ้นจริงๆ โดยไม่กระทบด้านหน้า หรือรถยนต์สปอร์ตที่ด้านหลังมีสปอยเลอร์และท่อไอเสียตามพรอมต์ ผลลัพธ์เหล่านี้สามารถดูได้ที่หน้าโครงการอย่างเป็นทางการ ซึ่งมีวิดีโอหมุน 360 องศาเพื่อพิสูจน์ความสอดคล้อง

ความสำคัญต่ออุตสาหกรรม

Know3D ไม่เพียงยกระดับคุณภาพการสร้าง 3 มิติจากข้อมูลจำกัด แต่ยังเปิดโอกาสใหม่ให้กับธุรกิจที่ต้องการโมเดล 3 มิติที่ปรับแต่งได้รวดเร็ว เช่น การค้าออนไลน์ที่ต้องการแสดงสินค้าทุกมุม, การออกแบบยานยนต์ที่ทดสอบส่วนประกอบด้านหลัง, หรือการพัฒนา AR/VR ที่ต้องการความสมจริงสูง การที่ระบบรองรับทั้งภาพและข้อความ ทำให้ใช้งานง่ายสำหรับผู้เชี่ยวชาญและผู้ใช้ทั่วไป นอกจากนี้ โค้ดต้นแบบและโมเดลน้ำหนักพร้อมใช้งานบน Hugging Face และ GitHub ช่วยให้สามารถนำไปประยุกต์ใช้ได้ทันที

ด้วย Know3D เทคโนโลยีการสร้าง 3 มิติก้าวสู่ยุคที่ผู้ใช้ควบคุมได้ทุกมุมมอง ช่วยลดต้นทุนและเวลาในการผลิตโมเดลคุณภาพสูง ซึ่งจะเป็นตัวเปลี่ยนเกมในอุตสาหกรรมดิจิทัล

(จำนวนคำประมาณ 728 คำ)

This Article is sponsored by Gnoppix AI (https://www.gnoppix.org)