โมเดล AI ใหม่ของ Meta คาดการณ์ปฏิกิริยาสมองต่อภาพ เสียง และคำพูด
เมตา (Meta) ผู้พัฒนาแพลตฟอร์มโซเชียลมีเดียชั้นนำ ได้เปิดตัวโมเดลปัญญาประดิษฐ์ (AI) ตัวใหม่ที่สามารถคาดการณ์ปฏิกิริยาของสมองมนุษย์ต่อสิ่งกระตุ้นหลากหลายรูปแบบ ไม่ว่าจะเป็นภาพ เสียง หรือคำพูด โดยโมเดลนี้ใช้ข้อมูลการสแกนสมองด้วยเทคนิค fMRI (functional Magnetic Resonance Imaging) เพื่อสร้างการทำนายที่แม่นยำยิ่งขึ้น ซึ่งถือเป็นก้าวสำคัญในการวิจัยด้านประสาทวิทยาศาสตร์และปัญญาประดิษฐ์
โมเดลดังกล่าวพัฒนาโดยทีมนักวิจัยจาก Meta AI โดยมีรายละเอียดปรากฏในเอกสารวิจัยล่าสุด โมเดลนี้ถูกฝึกฝนด้วยชุดข้อมูลขนาดมหาศาลที่รวบรวมจากผู้เข้าร่วมทดลองหลายร้อยราย โดยบันทึกกิจกรรมสมองขณะที่ผู้เข้าร่วมรับรู้สิ่งกระตุ้นทางธรรมชาติ เช่น ภาพถ่าย วิดีโอ เสียงเพลง คำพูด และคลิปเสียงต่างๆ ชุดข้อมูลนี้ครอบคลุมเวลากว่า 1,000 ชั่วโมง ซึ่งเป็นปริมาณที่ใหญ่ที่สุดเท่าที่เคยใช้ในการฝึกโมเดลคาดการณ์กิจกรรมสมอง
หลักการทำงานของโมเดล
โมเดล AI นี้ใช้สถาปัตยกรรมแบบ Transformer ซึ่งเป็นพื้นฐานของโมเดลภาษาขนาดใหญ่ในปัจจุบัน โดยปรับแต่งให้เหมาะสมกับข้อมูล fMRI ซึ่งมีความซับซ้อนสูง กระบวนการทำงานเริ่มจากการแปลงสิ่งกระตุ้น เช่น ภาพหรือเสียง เข้าสู่เวกเตอร์ตัวแทน (embedding) ผ่านโมเดลエンコーピ่ง multimodality จากนั้น โมเดลจะทำนายแพทเทิร์นกิจกรรมสมองในแต่ละ voxel (หน่วยสามมิติของสมอง) โดยเฉพาะในบริเวณ cortex ทางสายตาและการได้ยิน
จุดเด่นสำคัญคือความสามารถในการจัดการสิ่งกระตุ้นหลายรูปแบบ (multimodal) ทำให้โมเดลสามารถคาดการณ์ปฏิกิริยาสมองต่อภาพนิ่ง เสียงพูด หรือแม้แต่คลิปวิดีโอที่ผสมผสานทั้งภาพและเสียง การฝึกฝนใช้วิธี contrastive learning ซึ่งช่วยให้โมเดลเรียนรู้ความสัมพันธ์ระหว่างสิ่งกระตุ้นกับกิจกรรมสมองได้อย่างมีประสิทธิภาพ โดยลดช่องว่างระหว่างโดเมนต่างๆ เช่น ภาพและเสียง
ผลการทดสอบแสดงให้เห็นว่าโมเดลนี้มีประสิทธิภาพเหนือกว่าโมเดลก่อนหน้าถึงสองเท่า โดยวัดจากคะแนน correlation ระหว่างการทำนายและข้อมูลจริง ในชุดข้อมูลทดสอบจากผู้เข้าร่วมใหม่ที่ไม่เคยใช้ในการฝึก โมเดลทำนายได้แม่นยำในระดับสูง โดยเฉพาะกับสิ่งกระตุ้นทางธรรมชาติที่ซับซ้อน เช่น คำพูดในบทสนทนาหรือเพลง
ชุดข้อมูลและการฝึกฝน
ชุดข้อมูลหลักมาจากการทดลองหลายโครงการ รวมถึงข้อมูลจากผู้เข้าร่วม 16 รายที่บันทึก fMRI กว่า 1 ล้านตัวอย่าง ขณะรับ观看วิดีโอและฟังเสียง นอกจากนี้ ยังรวมข้อมูลจากฐานข้อมูลสาธารณะ เช่น Natural Scenes Dataset (NSD) และ Auditory Natural Speech Dataset (ANSD) ซึ่งช่วยให้โมเดลมีความครอบคลุมกว้างขวาง
การฝึกฝนใช้ทรัพยากรคอมพิวเตอร์ขนาดใหญ่ โดยประมวลผลบน GPU หลายตัว นักวิจัยเน้นการ scaling up ขนาดโมเดลและข้อมูล เพื่อให้ได้การทำนายที่ generalize ได้ดีกับบุคคลใหม่ๆ แม้สมองแต่ละคนจะมีความแตกต่างทางโครงสร้างและการตอบสนอง
ประสิทธิภาพและการเปรียบเทียบ
ในการประเมิน โมเดลทำคะแนน correlation สูงถึง 0.3-0.4 ใน cortex ทางสายตา สำหรับภาพ และใกล้เคียงกันในบริเวณการได้ยินสำหรับเสียงและคำพูด ซึ่งสูงกว่าโมเดล baseline เช่น CNN-based models หรือ linear regression อย่างมีนัยสำคัญ โดยเฉพาะกับสิ่งกระตุ้นใหม่ที่ไม่เคยเห็นมาก่อน
กราฟผลการทดสอบแสดงการกระจายของคะแนน correlation ทั่วสมอง โดยโมเดลใหม่ครอบคลุมพื้นที่กว้างกว่า และมี noise น้อยลง นอกจากนี้ โมเดลยังสามารถ zero-shot predict ได้ คือทำนายโดยไม่ต้อง fine-tune เพิ่มเติมสำหรับงานใหม่
การประยุกต์ใช้และผลกระทบ
โมเดลนี้เปิดโอกาสให้เกิดนวัตกรรมในหลายสาขา เช่น การพัฒนา brain-computer interfaces (BCI) ที่ช่วยผู้พิการทางสมองสื่อสารผ่านความคิด การวิจัยโรคทางสมอง เช่น อัลไซเมอร์ โดยเปรียบเทียบแพทเทิร์นสมองผิดปกติกับการทำนายปกติ หรือแม้แต่การปรับแต่งเนื้อหาสื่อให้เหมาะกับการรับรู้ของสมองแต่ละคน
อย่างไรก็ตาม นักวิจัยย้ำถึงความท้าทาย เช่น ความแตกต่างระหว่างบุคคล (inter-subject variability) และข้อจำกัดของ fMRI ที่มีความละเอียดต่ำและราคาแพง ในอนาคต ทีม Meta วางแผนขยายไปยัง EEG หรือ MEG เพื่อข้อมูลเรียลไทม์มากขึ้น
โมเดลนี้เผยแพร่โค้ดและน้ำหนักโมเดลบางส่วนบน GitHub เพื่อให้ชุมชนวิจัยนำไปใช้ต่อ สะท้อนถึงแนวทางการวิจัยแบบเปิดของ Meta AI ซึ่งช่วยเร่งความก้าวหน้าทางวิทยาศาสตร์
สรุปความก้าวหน้า
การพัฒนาโมเดลคาดการณ์กิจกรรมสมองนี้แสดงให้เห็นถึงศักยภาพของ AI ในการถอดรหัสสมองมนุษย์ โดยใช้แนวทาง foundation model คล้ายกับ GPT หรือ CLIP แต่ปรับสำหรับ neuroscience สิ่งนี้ไม่เพียงเพิ่มความเข้าใจกลไกสมอง แต่ยังปูทางสู่เทคโนโลยีที่เชื่อมต่อมนุษย์กับเครื่องจักรได้ลึกซึ้งยิ่งขึ้น
(จำนวนคำประมาณ 720 คำ)
This Article is sponsored by Gnoppix AI (https://www.gnoppix.org)