สามคำถามใหญ่ที่ยังไม่มีคำตอบเกี่ยวกับ Sora

สามคำถามใหญ่ที่ยังไม่ได้รับคำตอบเกี่ยวกับ Sora

วิดีโอที่สมจริงและน่าทึ่งที่สร้างโดยปัญญาประดิษฐ์ชื่อ Sora ของ OpenAI ได้จุดประกายความตื่นเต้นและความกังวลอย่างมากในหมู่ผู้เชี่ยวชาญ แม้ว่าความสามารถของมันในการสร้างคลิปที่มีความยาวถึงหนึ่งนาทีจากข้อความแจ้งธรรมดาจะน่าประทับใจ แต่ก็ยังมีช่องว่างสำคัญในความเข้าใจของเราเกี่ยวกับเทคโนโลยีนี้ บทความนี้จะสำรวจสามคำถามสำคัญที่นักวิจัยและผู้กำหนดนโยบายยังคงต้องค้นหาคำตอบ

คำถามแรกและอาจเป็นเรื่องพื้นฐานที่สุดคือ Sora เข้าใจโลกทางกายภาพได้อย่างไร เมื่อเราดูตัวอย่างวิดีโอที่สร้างโดย Sora เราจะเห็นวัตถุที่มีปฏิสัมพันธ์กันตามกฎฟิสิกส์ที่คุ้นเคย เช่น การสะท้อนของแสง การเคลื่อนที่ของน้ำ หรือการเบียดเสียดของฝูงชน ความน่าทึ่งคือ Sora ไม่ได้ถูกฝึกฝนโดยการป้อนกฎฟิสิกส์อย่างชัดเจน มันเรียนรู้ “ความรู้” เหล่านี้จากการวิเคราะห์ข้อมูลวิดีโอจำนวนมหาศาลที่ป้อนเข้าไป ความท้าทายคือการทำความเข้าใจว่าแบบจำลองนี้สร้างแบบจำลองภายในของความเป็นจริงได้อย่างไร และความเข้าใจนั้นมีความสมบูรณ์และถูกต้องเพียงใด นักวิจัยยังไม่ทราบแน่ชัดว่า Sora กำลังสร้างแบบจำลองที่แสดงถึงความสัมพันธ์เชิงสาเหตุ (causality) หรือเพียงแค่จับคู่รูปแบบทางสถิติ (statistical patterns) ที่ปรากฏบ่อยในชุดการฝึกอบรม หากเป็นอย่างหลัง แบบจำลองอาจสร้างสถานการณ์ที่ฉลาดในบางแง่มุม แต่ล้มเหลวในการรักษาความสอดคล้องทางฟิสิกส์ในสถานการณ์ที่ซับซ้อนหรือแปลกใหม่

คำถามที่สองมุ่งเน้นไปที่ ขีดจำกัดของขนาดและขอบเขตของความสามารถของ Sora ชุดข้อมูลที่ใช้ในการฝึกอบรม LLMs (Large Language Models) นั้นใหญ่โตมโหฬาร และเป็นที่ทราบกันดีว่าการเพิ่มขนาดของแบบจำลองมักนำไปสู่ความสามารถที่เกิดขึ้นใหม่ (emergent capabilities) ที่ไม่คาดคิด แม้ว่า OpenAI จะเปิดเผยว่า Sora ได้รับการฝึกฝนจากข้อมูลวิดีโอจำนวนมาก แต่รายละเอียดที่แน่ชัดเกี่ยวกับขนาดของชุดข้อมูลและสถาปัตยกรรมภายในที่แน่นอนยังคงเป็นความลับทางการค้า คำถามคือ: มีจุดอิ่มตัวในการเรียนรู้จากข้อมูลวิดีโอหรือไม่? และความสามารถของ Sora จะขยายไปสู่การจำลองเหตุการณ์ที่ต้องใช้ความเข้าใจเชิงลึกของมนุษย์ เช่น ความรู้สึก อารมณ์ หรือการวางแผนระยะยาวที่แม่นยำในโลก 3 มิติได้หรือไม่? การทำความเข้าใจขีดจำกัดเหล่านี้มีความสำคัญอย่างยิ่งในการประเมินว่า Sora จะสามารถแทนที่กระบวนการสร้างเนื้อหาทางภาพของมนุษย์ได้ในระดับใด และจะเกิดอะไรขึ้นเมื่อแบบจำลองมีขนาดใหญ่ขึ้นไปอีก

คำถามที่สามและมีความเร่งด่วนทางจริยธรรมและสังคมมากที่สุดคือ เราจะจัดการกับการใช้ในทางที่ผิดและการเผยแพร่ข้อมูลบิดเบือนได้อย่างไร ความสามารถของ Sora ในการสร้างวิดีโอที่สมจริงอย่างน่าเชื่อถือในระดับที่ไม่เคยมีมาก่อน ทำให้เกิดความกังวลเกี่ยวกับการสร้าง Deepfakes ที่ซับซ้อนและยากต่อการตรวจจับอย่างมาก ความเสี่ยงนี้ไม่ได้จำกัดอยู่แค่การหลอกลวงส่วนบุคคลเท่านั้น แต่ยังรวมถึงการบ่อนทำลายความไว้วางใจในสถาบันข่าวสารและกระบวนการประชาธิปไตยด้วย แม้ว่า OpenAI จะพยายามสร้างมาตรการป้องกันเพื่อป้องกันการสร้างเนื้อหาที่ผิดกฎหมายหรือเป็นอันตราย แต่ธรรมชาติของการเรียนรู้เชิงลึกคือแบบจำลองมักจะหาทาง “แหกคุก” (jailbreak) ได้เสมอ นักวิจัยยังขาดแนวทางที่เป็นมาตรฐานและยืดหยุ่นในการติดป้ายกำกับ (watermarking) คลิปที่สร้างโดย AI ในลักษณะที่สามารถตรวจสอบย้อนกลับได้อย่างน่าเชื่อถือ และในขณะเดียวกันก็ไม่ขัดขวางการใช้งานที่เป็นประโยชน์ต่ออุตสาหกรรมภาพยนตร์และการศึกษา

การตอบคำถามทั้งสามนี้ — ความเข้าใจทางกายภาพ ความสามารถที่ขยายตัว และการควบคุมการใช้ในทางที่ผิด — จะเป็นตัวกำหนดอนาคตของการประยุกต์ใช้เทคโนโลยีการสังเคราะห์วิดีโอโดยอาศัยแบบจำลองการแพร่กระจาย (diffusion models) เช่น Sora

This Article is sponsored by Gnoppix AI (https://www.gnoppix.org)