สถาปัตยกรรม JEPA ของ Meta สูงส่งกว่าวิธีการ AI มาตรฐานในการวิเคราะห์ภาพอัลตราซาวด์หัวใจ
Meta Platforms Inc. ได้เปิดตัวผลงานวิจัยที่น่าตื่นเต้น โดยสถาปัตยกรรม Joint Embedding Predictive Architecture (JEPA) ซึ่งพัฒนาโดยทีมของ Yann LeCun ผู้ได้รับรางวัล Turing Award สามารถทำผลงานเหนือกว่าวิธีการปัญญาประดิษฐ์ (AI) มาตรฐานในการวิเคราะห์วิดีโออัลตราซาวด์หัวใจ (echocardiography) ผลการศึกษานี้ตีพิมพ์ในวารสาร Nature Machine Intelligence เมื่อเร็วๆ นี้ โดยแสดงให้เห็นถึงศักยภาพของการเรียนรู้แบบไม่ต้องกำกับ (self-supervised learning) ในการจัดการกับข้อมูลทางการแพทย์ที่ซับซ้อนและมีสัญญาณรบกวนสูง
JEPA เป็นแนวทางใหม่ในการเรียนรู้ตัวแทน (representation learning) ที่หลีกเลี่ยงปัญหาการพยากรณ์พิกเซลโดยตรง ซึ่งมักนำไปสู่ความไม่ชัดเจน (blurriness) ในภาพสร้างขึ้น แทนที่ JEPA จะพยากรณ์ตัวแทนแฝง (latent representations) ของข้อมูล โดยเฉพาะอย่างยิ่งในเวอร์ชัน V-JEPA สำหรับวิดีโอ ซึ่งพยากรณ์ตัวแทนของเฟรมวิดีโอในอนาคตจากเฟรมปัจจุบัน กระบวนการนี้ช่วยให้โมเดลเรียนรู้โครงสร้างเชิงเวลาและเชิง空間ได้อย่างมีประสิทธิภาพ โดยไม่จำเป็นต้องใช้ข้อมูลที่มีป้ายกำกับ (labeled data) จำนวนมาก
ในการทดลองครั้งนี้ นักวิจัยนำ V-JEPA ไปประยุกต์กับชุดข้อมูล M&Ms-Echo ซึ่งประกอบด้วยวิดีโออัลตราซาวด์หัวใจกว่า 12,000 คลิปที่ไม่มีการกำกับป้าย จากนั้นจึงปรับแต่ง (fine-tune) โมเดลด้วยชุดข้อมูลที่มีป้ายกำกับขนาดเล็กกว่า 2,500 คลิป การทดสอบครอบคลุมงานหลากหลาย เช่น การพยากรณ์อัตราการบีบตัวของหัวใจ (ejection fraction: EF) การจำแนกเฟสของวัฏจักรหัวใจ (cardiac cycle phase) การจำแนกมุมมองของภาพ (view classification) และการตรวจจับภาวะหัวใจล้มเหลว (heart failure detection)
ผลลัพธ์ที่ได้น่าประทับใจอย่างยิ่ง V-JEPA สามารถทำคะแนนพื้นที่ใต้เส้นโค้ง ROC (AUC) สูงสุดในทุกงานที่ทดสอบ โดยในงานพยากรณ์ EF คะแนน AUC อยู่ที่ 0.922 ซึ่งสูงกว่าโมเดลที่กำกับการเรียนรู้แบบเต็มรูปแบบ (fully supervised) อย่าง Video Swin Transformer (0.905) และสูงกว่าโมเดลแบบไม่กำกับอย่าง VICReg (0.899) ในงานจำแนกเฟสวัฏจักรหัวใจ AUC สูงถึง 0.984 เทียบกับ 0.978 ของ Video Swin Transformer และ 0.972 ของ VICReg สำหรับงานจำแนกมุมมองภาพ AUC อยู่ที่ 0.988 ซึ่งเหนือกว่าโมเดลอื่นๆ อย่างชัดเจน นอกจากนี้ ในงานตรวจจับภาวะหัวใจล้มเหลว V-JEPA ยังทำคะแนน F1-score สูงสุดที่ 0.862
ความสำเร็จนี้เกิดจากจุดเด่นของ JEPA ที่สามารถเรียนรู้จากข้อมูลไม่กำกับจำนวนมาก ซึ่งเป็นทรัพยากรที่หาได้ง่ายในวงการแพทย์ โดยเฉพาะอัลตราซาวด์หัวใจที่มักมีสัญญาณรบกวนจากปัจจัยต่างๆ เช่น การเคลื่อนไหวของผู้ป่วยหรือคุณภาพเครื่องมือ ในขณะที่โมเดลแบบกำกับการเรียนรู้ต้องการข้อมูลป้ายกำกับจำนวนมหาศาล ซึ่งการ标注ด้วยมือโดยแพทย์ผู้เชี่ยวชาญนั้นใช้เวลานานและมีค่าใช้จ่ายสูง V-JEPA จึงช่วยลดภาระนี้ได้อย่างมีนัยสำคัญ โดยยังคงรักษาความแม่นยำสูง
นอกจากนี้ นักวิจัยยังทดสอบความสามารถในการถ่ายโอนการเรียนรู้ (transferability) โดยนำโมเดลที่ฝึกจากชุดข้อมูล M&Ms-Echo ไปปรับใช้กับชุดข้อมูลภายนอกอย่าง EchoNet-Dynamic พบว่า V-JEPA สามารถทำผลงานได้ดีกว่าโมเดลอื่นๆ โดยไม่ต้องปรับแต่งเพิ่มเติม ซึ่งบ่งชี้ถึงความยืดหยุ่นและความแข็งแกร่งของสถาปัตยกรรมนี้
การประยุกต์ JEPA ในด้านการแพทย์ภาพ โดยเฉพาะอัลตราซาวด์หัวใจ นำเสนอโอกาสใหม่ในการพัฒนาเครื่องมือช่วยวินิจฉัยที่รวดเร็วและเชื่อถือได้ อัลตราซาวด์หัวใจเป็นเครื่องมือพื้นฐานในการตรวจหัวใจ แต่การตีความภาพต้องอาศัยความเชี่ยวชาญสูง AI ที่มีประสิทธิภาพเช่น V-JEPA สามารถช่วยแพทย์ในการวินิจฉัยโรคหัวใจวาย หัวใจล้มเหลว หรือภาวะแทรกซ้อนอื่นๆ ได้อย่างมีประสิทธิผล โดยเฉพาะในพื้นที่ที่ขาดแคลนบุคลากรทางการแพทย์
อย่างไรก็ตาม นักวิจัยชี้ให้เห็นถึงความท้าทายที่เหลืออยู่ เช่น การปรับปรุงให้โมเดลเข้าใจบริบททางคลินิกมากขึ้น และการตรวจสอบในประชากรที่หลากหลายเพื่อลดอคติ (bias) ผลงานนี้ยังเป็นก้าวสำคัญในการพิสูจน์แนวคิดของ Yann LeCun เกี่ยวกับการเรียนรู้แบบไม่กำกับ ซึ่งอาจขยายไปสู่โดเมนอื่นๆ ในอนาคต
โดยสรุป สถาปัตยกรรม V-JEPA ของ Meta ได้แสดงศักยภาพในการปฏิวัติวงการวิเคราะห์ภาพทางการแพทย์ โดยเอาชนะข้อจำกัดของวิธีการ AI แบบดั้งเดิม และเปิดทางสู่การพัฒนาโมเดลที่เรียนรู้จากข้อมูลจริงในปริมาณมาก ซึ่งจะช่วยยกระดับมาตรฐานการดูแลสุขภาพทั่วโลก
(จำนวนคำประมาณ 728 คำ)
This Article is sponsored by Gnoppix AI (https://www.gnoppix.org)