MedGemma 1.5 ของ Google นำการวิเคราะห์ CT และ MRI แบบ 3D สู่ AI ทางการแพทย์โอเพนซอร์ส

Google เปิดตัว MedGemma 1.5 ยกระดับการวิเคราะห์ภาพทางการแพทย์สามมิติสู่แพลตฟอร์มโอเพ่นซอร์ส

Google ได้ประกาศเปิดตัว MedGemma 1.5 ซึ่งเป็นโมเดลปัญญาประดิษฐ์ (AI) ทางการแพทย์รุ่นล่าสุดที่รองรับการวิเคราะห์ภาพถ่ายทางการแพทย์แบบสามมิติ (3D) โดยเฉพาะภาพ CT Scan และ MRI ทำให้เป็นก้าวสำคัญในการนำเทคโนโลยี AI ทางการแพทย์มาสู่ชุมชนนักพัฒนาโอเพ่นซอร์ส โมเดลนี้พัฒนาต่อยอดจากตระกูล Gemma 2 โดยมุ่งเน้นการประมวลผลภาพทางการแพทย์ที่ซับซ้อนมากขึ้น จากเดิมที่ MedGemma รุ่นก่อนหน้านี้รองรับเฉพาะภาพสองมิติ (2D) เช่น ภาพเอ็กซเรย์ (X-ray) เท่านั้น

MedGemma 1.5 ถือเป็นโมเดลมัลติโมดัล (multimodal) ที่ผสานการประมวลผลภาพและภาษาเข้าด้วยกัน โดยใช้ SigLIP เป็นตัวเข้ารหัสภาพ (image encoder) ซึ่งมีประสิทธิภาพสูงในการจัดการภาพทางการแพทย์หลากหลายรูปแบบ โมเดลนี้ถูกปรับแต่ง (fine-tuned) ให้เหมาะสมกับงานวิเคราะห์ภาพ CT และ MRI แบบ 3D ซึ่งเป็นเทคโนโลยีที่ช่วยให้แพทย์สามารถตรวจสอบโครงสร้างอวัยวะภายในร่างกายได้ละเอียดและแม่นยำยิ่งขึ้น โดยเฉพาะในกรณีโรคซับซ้อน เช่น มะเร็งหรือความผิดปกติของหลอดเลือด

ในขณะนี้ Google ได้ปล่อยโมเดลเวอร์ชันพรีวิว (preview) สองขนาดเพื่อให้นักพัฒนาทดลองใช้งาน ได้แก่ medgemma-1.5-86m-preview ซึ่งมีพารามิเตอร์ 86 ล้านตัว (86 million parameters) และ medgemma-1.5-2b-preview ซึ่งมีพารามิเตอร์ 2 พันล้านตัว (2 billion parameters) โมเดลทั้งสองวางจำหน่ายภายใต้ใบอนุญาต Apache 2.0 บนแพลตฟอร์ม Hugging Face ทำให้สามารถดาวน์โหลดและปรับใช้ได้ฟรี โดยไม่จำกัดการใช้งานเชิงพาณิชย์ นักพัฒนาสามารถนำไปรวมเข้ากับแอปพลิเคชันทางการแพทย์ เช่น ระบบช่วยวินิจฉัยโรค (diagnostic assistance) หรือเครื่องมือสร้างรายงานอัตโนมัติ (automated report generation)

กระบวนการฝึกโมเดล MedGemma 1.5 ใช้ชุดข้อมูลขนาดใหญ่ที่ครอบคลุมภาพทางการแพทย์หลากหลายประเภท โดยเฉพาะชุดข้อมูล 3D-RadMed ซึ่งประกอบด้วยภาพ CT และ MRI กว่า 10,000 ภาพ พร้อมคำอธิบายและคำถาม-ตอบ (question-answer pairs) นอกจากนี้ ยังใช้ชุดข้อมูล MIMIC-CXR-JPG สำหรับภาพเอ็กซเรย์หน้าอก PathVQA สำหรับคำถามเกี่ยวกับพยาธิวิทยา และ REMEDI สำหรับการสร้างรายงานทางการแพทย์ การฝึกโมเดลนี้ช่วยให้ MedGemma 1.5 สามารถทำงานได้หลากหลาย เช่น Visual Question Answering (VQA) ซึ่งตอบคำถามเกี่ยวกับภาพ เช่น “มีก้อนเนื้อผิดปกติในปอดหรือไม่” และการสร้างรายงานสรุปผล (report generation) ที่คล้ายกับรายงานของแพทย์ผู้เชี่ยวชาญ

ผลการทดสอบประสิทธิภาพ (benchmarks) ของ MedGemma 1.5 แสดงให้เห็นถึงศักยภาพที่โดดเด่น โดยโมเดลขนาด 2B พารามิเตอร์ทำคะแนนได้สูงในหลายชุดทดสอบ เช่น MIMIC-CXR-JPG ได้คะแนน RadGraph F1 7.21 และ CheXpert 48.5 PathVQA ได้คะแนน 42.2 และ REMEDI ได้คะแนน 15.2 ซึ่งสูงกว่าค่าเฉลี่ยของโมเดลโอเพ่นซอร์สอื่นๆ ในตลาด แม้จะเป็นเวอร์ชันพรีวิว แต่ประสิทธิภาพนี้บ่งชี้ว่า MedGemma 1.5 มีความพร้อมสำหรับการใช้งานจริงในโรงพยาบาลหรือระบบ telemedicine โดยเฉพาะในประเทศที่ขาดแคลนบุคลากรทางการแพทย์

การเปิดตัว MedGemma 1.5 สอดคล้องกับยุทธศาสตร์ของ Google ในการส่งเสริม AI โอเพ่นซอร์สทางการแพทย์ ซึ่งช่วยลดอุปสรรคในการเข้าถึงเทคโนโลยีขั้นสูง โดยเฉพาะในภาคธุรกิจสุขภาพที่ต้องการเครื่องมือราคาประหยัดและปรับแต่งได้ นักพัฒนาสามารถเริ่มใช้งานได้ทันทีผ่าน Hugging Face โดยมีตัวอย่างโค้ดและเอกสารประกอบครบถ้วน เช่น การโหลดโมเดลด้วย Transformers library และการประมวลผลภาพ DICOM ซึ่งเป็นมาตรฐานภาพทางการแพทย์

อย่างไรก็ตาม Google ระบุว่าเวอร์ชันพรีวิวนี้อาจมีข้อจำกัด เช่น ความแม่นยำในบางกรณีโรคหายาก และแนะนำให้ใช้ควบคู่กับการตรวจสอบจากแพทย์มนุษย์เท่านั้น ในอนาคต Google วางแผนปล่อยเวอร์ชันเต็มรูปแบบ (full release) ที่ครอบคลุมโมเดลขนาดใหญ่กว่า เช่น 27 พารามิเตอร์ และเพิ่มการรองรับ modality อื่นๆ เช่น ultrasound หรือ PET scan เพื่อขยายขอบเขตการใช้งานให้กว้างขึ้นยิ่งไป

MedGemma 1.5 จึงไม่เพียงเป็นเครื่องมือวิจัย แต่ยังเป็นโอกาสทางธุรกิจสำหรับบริษัทสตาร์ทอัพและผู้ให้บริการสุขภาพที่ต้องการพัฒนาโซลูชัน AI แบบกำหนดเอง โดยช่วยลดต้นทุนการพัฒนาและเร่งนวัตกรรมทางการแพทย์ให้เกิดขึ้นได้รวดเร็วขึ้น ในยุคที่ AI กำลังเปลี่ยนโฉมอุตสาหกรรมสุขภาพ การมีโมเดลโอเพ่นซอร์สคุณภาพสูงเช่นนี้จะช่วยให้ผู้ประกอบการไทยและอาเซียนสามารถแข่งขันในระดับสากลได้ดียิ่งขึ้น

(จำนวนคำ: 728)

This Article is sponsored by Gnoppix AI (https://www.gnoppix.org)