นักวิจัยจีนวินิจฉัยโมเดลภาพ ai ว่ามีความผิดปกติคล้ายโรคอะแฟเซีย พัฒนากรอบการทำงานแบบรักษาตัวเอง

นักวิจัยชาวจีนวินิจฉัยโมเดลสร้างภาพด้วย AI ว่ามีอาการคล้ายโรคอฟาเซีย พัฒนากรอบงานการรักษาตัวเอง

นักวิจัยจากมหาวิทยาลัยนอร์มอลตะวันออกจีน (East China Normal University) ร่วมกับ 01.AI และหน่วยงานอื่นๆ ได้ค้นพบปัญหาสำคัญในโมเดลสร้างภาพจากข้อความ (text-to-image models) ของปัญญาประดิษฐ์ (AI) โดยเปรียบเทียบว่ามีอาการคล้ายกับโรคอฟาเซีย (aphasia) ในมนุษย์ ซึ่งเป็นภาวะที่ผู้ป่วยสูญเสียความสามารถในการใช้ภาษา แม้จะเข้าใจความหมายได้ โมเดล AI เหล่านี้ไม่สามารถสร้างภาพของวัตถุทั่วไปบางประเภทได้อย่างถูกต้อง แม้จะได้รับคำอธิบายข้อความที่ชัดเจนและถูกต้องแล้วก็ตาม

การศึกษานี้ตีพิมพ์ในเอกสารวิจัยชื่อ “Concept Aphasia in Text-to-Image Diffusion Models” โดยเผยให้เห็นว่าโมเดลชั้นนำ เช่น Stable Diffusion XL (SDXL) Stable Diffusion 3 (SD3) และ Flux.1 จาก Black Forest Labs มีปัญหา “concept aphasia” หรือการสูญเสียแนวคิดวัตถุเฉพาะเจาะจง นักวิจัยทดสอบด้วยชุดข้อมูล Concept Set ที่ประกอบด้วยวัตถุ 41 รายการที่พบบ่อยในชีวิตประจำวัน เช่น เลื่อยโซ่ (chainsaw) เครื่องปิ้งขนมปัง (toaster) ที่ตีตะปู (stapler) กรรไกรตัดเล็บ (nail clippers) และไม้กวาด (broom)

ผลการทดสอบพบว่าโมเดลเหล่านี้สร้างภาพวัตถุเหล่านี้ได้สำเร็จเพียง 17-24% เท่านั้น โดย SDXL สร้างภาพได้ถูกต้อง 17 จาก 41 รายการ SD3 ได้ 20 รายการ และ Flux.1 ได้ 24 รายการ ในบางกรณี โมเดลสร้างภาพที่ไม่เกี่ยวข้องหรือเพี้ยนไป เช่น แทนที่จะเป็นที่ตีตะปู กลับสร้างภาพปืนใหญ่ (cannon) หรือแทนเลื่อยโซ่ กลับสร้างภาพโซ่ธรรมดา นักวิจัยชี้ว่าปัญหานี้เกิดจากกระบวนการฝึกโมเดลที่ใช้ชุดข้อมูล LAION ซึ่งมีภาพคุณภาพต่ำหรือแท็กที่ไม่ถูกต้อง ทำให้โมเดลเรียนรู้ความสัมพันธ์ระหว่างข้อความและภาพได้บกพร่อง

เพื่อวินิจฉัยปัญหาอย่างละเอียด นักวิจัยใช้เทคนิค Concept Relevance Analysis (CRA) ซึ่งวิเคราะห์ความเกี่ยวข้องของแนวคิดใน attention maps ของโมเดล พบว่าความเกี่ยวข้องเฉลี่ยของวัตถุที่เป็นปัญหาอยู่ที่ 0.15-0.20 ในขณะที่วัตถุปกติอยู่ที่ 0.40-0.50 นอกจากนี้ ยังใช้ CLIP score เพื่อวัดความคล้ายคลึงระหว่างภาพที่สร้างและภาพอ้างอิง พบว่าคะแนนต่ำกว่าปกติอย่างชัดเจน การวิเคราะห์เหล่านี้ยืนยันว่าโมเดลมี “visual aphasia” โดยสูญเสียความสามารถในการเชื่อมโยงข้อความกับภาพวัตถุเฉพาะ

จากปัญหาดังกล่าว นักวิจัยได้พัฒนากรอบงาน “Self-Healing” ซึ่งเป็นระบบอัตโนมัติที่วินิจฉัยและรักษาอาการ concept aphasia โดยไม่ต้องใช้ข้อมูลภาพใหม่หรือภาพจริงของวัตถุ กรอบงานนี้ประกอบด้วย 3 องค์ประกอบหลัก ได้แก่

  1. Self-Diagnosis Module: ใช้ CRA เพื่อตรวจจับแนวคิดที่บกพร่อง โดยคำนวณ concept relevance score หากต่ำกว่าเกณฑ์ (threshold) จะจัดเป็น aphasia concepts

  2. Healing Data Generation: สร้างข้อมูลสังเคราะห์ (synthetic data) โดยใช้ prompt engineering เช่น “a photo of [object] on a white background” ร่วมกับโมเดลเสริมอย่าง DALL-E 3 เพื่อสร้างภาพคุณภาพสูง จากนั้นใช้โมเดลต้นแบบ (teacher model) เช่น SDXL ที่ทำงานปกติเพื่อสร้าง pseudo-labels

  3. Reinforcement Learning-based Fine-tuning: ใช้ reinforcement learning from AI feedback (RLAIF) โดยมี reward model ที่ประเมินคุณภาพภาพจาก CLIP score และ aesthetic score การฝึกปรับแต่งโมเดลด้วย LoRA (Low-Rank Adaptation) เพื่อเพิ่มประสิทธิภาพโดยใช้ทรัพยากรน้อย

กรอบงาน Self-Healing ใช้เวลาเพียง 2 ชั่วโมงในการฝึกบน GPU ตัวเดียว (RTX 4090) โดยไม่ต้องรวบรวมข้อมูลใหม่ ผลการทดสอบแสดงให้เห็นประสิทธิภาพที่เหนือกว่า โดย SDXL ที่ผ่านการรักษามีอัตราความสำเร็จเพิ่มขึ้นจาก 17 เป็น 37 จาก 41 รายการ (เพิ่ม 118%) SD3 จาก 20 เป็น 37 รายการ (เพิ่ม 85%) และ Flux.1 จาก 24 เป็น 37 รายการ (เพิ่ม 54%) นอกจากนี้ CLIP score และ concept relevance score ปรับปรุงขึ้นอย่างมีนัยสำคัญ

นักวิจัยยังทดสอบกับ prompt ที่ซับซ้อนกว่า เช่น “a woman holding a chainsaw” พบว่ากรอบงานช่วยลด hallucination และเพิ่มความแม่นยำในการสร้างภาพบริบท นอกจากนี้ กรอบงานยังคงรักษาประสิทธิภาพในวัตถุอื่นๆ ที่ไม่ใช่อาการ aphasia โดย CLIP score โดยรวมเพิ่มขึ้น 10-15%

การค้นพบนี้เน้นย้ำถึงข้อจำกัดพื้นฐานในโมเดล diffusion-based และเสนอแนวทางแก้ไขที่ยั่งยืน โดย Self-Healing สามารถนำไปประยุกต์กับโมเดลอื่นๆ ได้ง่าย ช่วยลดต้นทุนการฝึกและปรับปรุงความน่าเชื่อถือของ AI สร้างภาพ นักวิจัยคาดหวังว่างานนี้จะเป็นจุดเริ่มต้นในการพัฒนาโมเดลที่ “รักษาตัวเอง” ได้ในอนาคต โดยเผยแพร่โค้ดและชุดข้อมูลบน GitHub เพื่อให้ชุมชนนักวิจัยนำไปใช้ต่อยอด

การศึกษานี้ไม่เพียงชี้ให้เห็นปัญหาเชิงลึกใน AI แต่ยังนำเสนอโซลูชันปฏิบัติที่สามารถนำไปใช้ในเชิงพาณิชย์ได้ทันที ช่วยให้บริษัทผู้พัฒนาโมเดลภาพ AI สามารถยกระดับคุณภาพผลิตภัณฑ์โดยไม่ต้องลงทุนมหาศาลในข้อมูลใหม่ สอดคล้องกับแนวโน้มการพัฒนา AI ที่เน้นความยั่งยืนและประสิทธิภาพ

(จำนวนคำประมาณ 728 คำ)

This Article is sponsored by Gnoppix AI (https://www.gnoppix.org)