Meta นำ Segment Anything สู่ออดิโอ ช่วยให้บรรณาธิการดึงเสียงจากวิดีโอด้วยการคลิกหรือพรอมต์ข้อความ

เมตา นำเสนอ Segment Anything สำหรับเสียง: ช่วยบรรณาธิการแยกเสียงจากวิดีโอด้วยคลิกเดียวหรือพรอมต์ข้อความ

บริษัท Meta ซึ่งเป็นยักษ์ใหญ่ด้านเทคโนโลยี ได้ประกาศเปิดตัว AudioCraft 3 ชุดเครื่องมือปัญญาประดิษฐ์รุ่นใหม่ล่าสุด โดยมีจุดเด่นสำคัญคือ AudioSep ซึ่งเป็นโมเดลที่นำแนวคิดจาก Segment Anything Model (SAM) มาปรับใช้กับสัญญาณเสียง โดยเฉพาะอย่างยิ่งในบริบทของการตัดต่อวิดีโอ AudioSep ช่วยให้บรรณาธิการสามารถแยกเสียงเฉพาะเจาะจงออกจากวิดีโอได้อย่างง่ายดาย ด้วยการคลิกเมาส์เพียงครั้งเดียวหรือการใช้พรอมต์ข้อความสั้นๆ ซึ่งถือเป็นก้าวกระโดดสำคัญในการยกระดับกระบวนการผลิตสื่อดิจิทัล

Segment Anything Model (SAM) ที่ Meta เปิดตัวก่อนหน้านี้ เป็นโมเดลวิเคราะห์ภาพที่สามารถแยกวัตถุใดๆ ในภาพได้อย่างแม่นยำด้วยการคลิกจุดเดียว โดยไม่จำเป็นต้องฝึกโมเดลใหม่สำหรับแต่ละงาน AudioSep ขยายแนวคิดนี้สู่มิติของเสียง โดยทำงานบนพื้นฐานของ spectrogram ซึ่งเป็นการแสดงภาพแทนสัญญาณเสียงในรูปแบบความถี่ต่อเวลา ทำให้สามารถใช้เทคนิคการแยกส่วน (segmentation) จาก SAM ได้โดยตรง นวัตกรรมนี้ช่วยแก้ปัญหาคลาสสิกในอุตสาหกรรมตัดต่อวิดีโอ คือการแยกเสียงรบกวนหรือเสียงพื้นหลังที่ไม่ต้องการออกจากคลิปหลัก ซึ่งปกติต้องใช้เครื่องมือขั้นสูงและเวลาในการทำงานมหาศาล

กระบวนการฝึกโมเดล AudioSep อาศัยชุดข้อมูลขนาดใหญ่จาก AudioSet ซึ่งเป็นคลังข้อมูลเสียงจาก Google ประกอบด้วยวิดีโอกว่า 1.6 ล้านคลิปที่ครอบคลุม 632 คลาสของเสียงต่างๆ ตั้งแต่เสียงสัตว์ เสียงมนุษย์ เสียงเครื่องจักร ไปจนถึงเสียงสิ่งแวดล้อม โดยโมเดลถูกฝึกให้เข้าใจความสัมพันธ์ระหว่างภาพในวิดีโอกับเสียงที่เกี่ยวข้อง ทำให้สามารถแยกเสียงที่ตรงกับวัตถุหรือเหตุการณ์ในภาพได้อย่างแม่นยำ ตัวอย่างเช่น หากมีวิดีโอที่มีเด็กกำลังเล่น หอนของสุนัข และเสียงรถผ่านไปมา AudioSep สามารถแยกเสียงแต่ละส่วนออกมาเป็นแทร็กเสียงแยกต่างหากได้ทันที

วิธีการใช้งาน AudioSep นั้นเรียบง่ายและมีประสิทธิภาพ ผู้ใช้เริ่มต้นด้วยการป้อนวิดีโอเข้าโมเดล จากนั้นเลือกเสียงที่ต้องการแยกด้วยสองวิธีหลัก ประการแรกคือการคลิกบน spectrogram ซึ่งจะแสดงภาพแทนเสียงทั้งหมดในวิดีโอ การคลิกจุดใดจุดหนึ่งจะสั่งให้โมเดลแยกเสียงรอบๆ จุดนั้นโดยอัตโนมัติ โดยอาศัยการถ่ายทอดจุดเด่น (prompt point) จาก SAM ประการที่สองคือการใช้พรอมต์ข้อความ เช่น “แยกเสียงหอนของสุนัข” หรือ “แยกเสียงเด็กพูด” ซึ่งโมเดลจะประมวลผลและคืนค่าแทร็กเสียงที่แยกแล้วภายในไม่กี่วินาที ผลลัพธ์ที่ได้คือไฟล์เสียง mono ที่สะอาด ปราศจากเสียงรบกวนอื่นๆ พร้อม waveform และ spectrogram เพื่อการตรวจสอบ

ในเดโมที่ Meta นำเสนอ แสดงให้เห็นศักยภาพของ AudioSep อย่างชัดเจน ตัวอย่างแรกคือการแยกเสียงหอนของสุนัขจากวิดีโอที่มีเสียงเด็กเล่นและเสียงพื้นหลังอื่นๆ โดยใช้การคลิกบน spectrogram เพียงครั้งเดียว ผลลัพธ์คือเสียงหอนที่ชัดเจนและแหลมคม ตัวอย่างถัดมาเป็นการแยกเสียงเด็กผู้หญิงที่กำลังร้องเพลง โดยใช้พรอมต์ข้อความ “เด็กผู้หญิงร้องเพลง” ทำให้ได้แทร็กเสียงที่ไพเราะโดยไม่มีเสียงแทรกซึม นอกจากนี้ ยังมีการทดสอบกับเสียงรถยนต์ที่กำลังแล่นผ่าน โดยคลิกบน spectrogram เพื่อแยกเสียงเครื่องยนต์และยางรถที่เสียดสีกับถนน ซึ่งแสดงให้เห็นถึงความสามารถในการจัดการเสียงซับซ้อนที่ทับซ้อนกัน

เทคโนโลยีนี้ไม่เพียงแต่ช่วยลดเวลาในการตัดต่อ แต่ยังเพิ่มความยืดหยุ่นให้กับมืออาชีพในอุตสาหกรรมสื่อ บรรณาธิการวิดีโอสามารถสร้างเอฟเฟกต์เสียงใหม่ๆ ได้รวดเร็ว เช่น การ amplify เสียงเฉพาะส่วน การผสมเสียงจากหลายคลิป หรือการสร้างซาวด์สเคปที่สมจริงยิ่งขึ้น โดยไม่ต้องพึ่งพาเครื่องมือโพสต์โปรดักชันราคาแพง AudioSep ยังรองรับการใช้งานในระดับ enterprise เนื่องจากประมวลผลบน GPU เดียว ทำให้เหมาะสำหรับสตูดิโอขนาดกลางถึงใหญ่ที่ต้องการ workflow ที่รวดเร็วและ scalable

Meta เปิดให้ AudioSep เป็นโอเพ่นซอร์สภายใต้ใบอนุญาต MIT ซึ่งช่วยให้ผู้พัฒนาและบริษัทต่างๆ สามารถนำไปปรับใช้ ดาวน์โหลดโมเดลได้จาก Hugging Face Spaces และรหัสต้นแบบจาก GitHub repository ของ AudioCraft นอกจากนี้ ยังมีบล็อกโพสต์อย่างเป็นทางการที่อธิบายรายละเอียดทางเทคนิคเพิ่มเติม รวมถึงตัวอย่างโค้ดสำหรับการ integrate เข้ากับ pipeline ตัดต่อ

การนำ Segment Anything สู่เสียงของ Meta ถือเป็นตัวอย่างที่ชัดเจนของการขยายขอบเขตปัญญาประดิษฐ์จากภาพสู่เสียง ซึ่งจะเปลี่ยนแปลงวิธีการผลิตเนื้อหาวิดีโอในยุคดิจิทัล บรรณาธิการและโปรดิวเซอร์สามารถมุ่งเน้นไปที่ความคิดสร้างสรรค์มากขึ้น โดยปล่อยให้ AI จัดการงาน routine ที่ซ้ำซาก ในขณะที่อุตสาหกรรมบันเทิงและโฆษณาเตรียมรับมือกับเครื่องมือใหม่นี้ คาดว่าจะเกิด innovation ใหม่ๆ มากมาย เช่น การสร้าง personalized audio tracks หรือ real-time sound isolation ใน live streaming

(จำนวนคำประมาณ 728 คำ)

This Article is sponsored by Gnoppix AI (https://www.gnoppix.org)