โมเดลสร้างภาพ ChatGPT รุ่นใหม่ของ OpenAI เทียบเท่า Nano Banana Pro ของ Google ในพรอมต์ซับซ้อน

โมเดลสร้างภาพ ChatGPT รุ่นใหม่ของ OpenAI เทียบชั้น Imagen 3 nano และ ‘Banana Pro’ ของ Google ในพรอมต์ที่ซับซ้อน

OpenAI ได้เปิดตัวโมเดลสร้างภาพรุ่นใหม่ใน ChatGPT ซึ่งขับเคลื่อนด้วย GPT-4o โดยโมเดลนี้แสดงศักยภาพที่โดดเด่นในการสร้างภาพจากข้อความพรอมต์ที่ซับซ้อน สามารถเทียบเคียงกับโมเดล Imagen 3 nano ของ Google ที่ใช้ใน Gemini และเวอร์ชันปรับแต่งพิเศษที่เรียกว่า ‘Banana Pro’ ได้อย่างสูสี จากการทดสอบที่ดำเนินการโดยผู้เชี่ยวชาญพบว่า โมเดลใหม่นี้ให้ผลลัพธ์ที่มีคุณภาพสูง โดยเฉพาะในสถานการณ์ที่ต้องการรายละเอียดเชิงสร้างสรรค์และความซับซ้อนสูง

การพัฒนาและการเปิดตัวโมเดลใหม่ของ OpenAI

ChatGPT ได้รับการอัปเดตให้รองรับการสร้างภาพโดยตรงผ่านการสนทนา ผู้ใช้สามารถพิมพ์พรอมต์ข้อความเพื่อสร้างภาพได้ทันที โดยโมเดลนี้เป็นส่วนหนึ่งของ GPT-4o ซึ่งเป็นโมเดลมัลติโมดัลที่รวมการประมวลผลข้อความ ภาพ และเสียงเข้าด้วยกัน OpenAI ระบุว่าโมเดลสร้างภาพนี้ได้รับการฝึกฝนด้วยข้อมูลภาพขนาดใหญ่กว่า 1 ล้านล้านตัวอย่าง ทำให้สามารถเข้าใจและตีความพรอมต์ที่ละเอียดอ่อนได้ดีเยี่ยม

ในช่วงแรก โมเดลนี้เปิดให้ผู้ใช้ ChatGPT Plus และผู้ใช้ฟรีจำนวนจำกัดได้ทดลองใช้งาน โดยมีข้อจำกัดในการสร้างภาพต่อวันเพื่อป้องกันการใช้งานเกินกำลัง ต่อมา OpenAI ได้เพิ่มเครื่องหมายลายน้ำ C2PA เพื่อระบุภาพที่สร้างโดย AI ซึ่งช่วยเพิ่มความโปร่งใสและลดความเสี่ยงจากการใช้งานในทางที่ผิด

การเปรียบเทียบกับโมเดล Imagen 3 ของ Google

เพื่อประเมินประสิทธิภาพ ผู้ทดสอบได้นำโมเดลใหม่ของ OpenAI ไปเปรียบเทียบกับ Imagen 3 ซึ่งเป็นโมเดลสร้างภาพชั้นนำของ Google โดยเฉพาะเวอร์ชัน nano ที่ใช้ใน Gemini และเวอร์ชัน ‘Banana Pro’ ซึ่งเป็นโมเดลที่ปรับแต่งอย่างละเอียดสำหรับการทดสอบพรอมต์กล้วย (banana prompts) ที่ซับซ้อน ‘Banana Pro’ นี้ถูกฝึกฝนด้วยชุดข้อมูลเฉพาะเพื่อจัดการกับพรอมต์ที่ต้องการองค์ประกอบหลายชั้น เช่น “กล้วยสวมชุดกล้วยกำลังถือกล้วย” ซึ่งเป็นตัวอย่างคลาสสิกในการทดสอบความสามารถของโมเดล AI

ผลการทดสอบพรอมต์ง่าย

ในพรอมต์พื้นฐาน เช่น “แมวนั่งบนโซฟา” หรือ “พระอาทิตย์ตกดินเหนือทะเล” ทุกโมเดลทำได้ดีเยี่ยม Imagen 3 nano และ Banana Pro ให้ภาพที่คมชัด สีสันสมจริง ขณะที่โมเดลของ OpenAI ก็สร้างภาพที่มีคุณภาพใกล้เคียงกัน โดยมีความแตกต่างเพียงเล็กน้อยในด้านแสงเงาและพื้นผิว

ผลการทดสอบพรอมต์ซับซ้อน

จุดเด่นของโมเดล OpenAI ปรากฏชัดเจนในพรอมต์ที่ซับซ้อน เช่น:

  • “กล้วยยักษ์สวมเสื้อสูทกล้วยกำลังกินกล้วยไอศกรีมในห้องครัวที่ตกแต่งด้วยกล้วยทั้งหมด”
  • “กล้วยนักบินอวกาศกำลังลอยตัวในอวกาศพร้อมกล้วยดาวเคราะห์”

โมเดล Imagen 3 nano มักสร้างภาพที่โครงสร้างดีแต่ขาดรายละเอียดบางส่วน เช่น ชุดกล้วยอาจดูไม่สมส่วนหรือพื้นหลังไม่สอดคล้อง Banana Pro ซึ่งปรับแต่งมาเพื่อพรอมต์เหล่านี้ ทำได้ดีกว่าโดยรักษาความสอดคล้องขององค์ประกอบกล้วยทั้งหมดได้ดี

ที่น่าประทับใจคือ โมเดล GPT-4o ของ OpenAI สามารถสร้างภาพที่เทียบเท่า Banana Pro ได้ โดยรักษาความสมจริง รายละเอียดเสื้อผ้า และการจัดองค์ประกอบได้อย่างลงตัว ผู้ทดสอบระบุว่า ภาพจาก OpenAI มีความสร้างสรรค์สูงกว่าในบางกรณี เช่น การเพิ่มเอฟเฟกต์แสงที่เหมาะสมกับธีมกล้วย

ผลการทดสอบจาก基准มาตรฐาน

จากการประเมินโดย Artificial Analysis ซึ่งเป็นหน่วยงานทดสอบ AI อิสระ พบว่า:

  • Imagen 3 (รวม nano) ยังครองอันดับ 1 ใน ELO score สำหรับการสร้างภาพคุณภาพสูง
  • โมเดลใหม่ของ OpenAI อยู่ในอันดับ 2-3 รองจาก Imagen 3 และ Flux โดยมีคะแนนใกล้เคียงกันมาก

ในด้านความเร็ว OpenAI สร้างภาพได้เร็วกว่า โดยใช้เวลาเพียง 5-10 วินาทีต่อภาพ ขณะที่ Imagen 3 ใน Gemini อาจใช้เวลานานกว่า นอกจากนี้ OpenAI ยังรองรับการแก้ไขภาพผ่านการสนทนาต่อเนื่อง เช่น “เพิ่มแว่นกันแดดให้กล้วย” ซึ่งทำให้กระบวนการสร้างภาพยืดหยุ่นยิ่งขึ้น

ข้อจำกัดและแนวโน้มในอนาคต

แม้จะมีประสิทธิภาพสูง โมเดลของ OpenAI ยังมีข้อจำกัด เช่น การปฏิเสธพรอมต์ที่ละเอียดอ่อน (เช่น ภาพบุคคลจริง) เพื่อป้องกันการละเมิดลิขสิทธิ์หรือเนื้อหาที่ไม่เหมาะสม นอกจากนี้ ยังไม่รองรับการอัปโหลดภาพอ้างอิงเพื่อสร้างภาพใหม่ (image-to-image) ในขณะนี้

Google เองก็กำลังพัฒนา Imagen 3 ให้ดีขึ้น โดย Banana Pro เป็นตัวอย่างของการปรับแต่งโมเดลให้เหมาะกับชุดพรอมต์เฉพาะ ซึ่งอาจกลายเป็นแนวโน้มใหม่ในการใช้งาน AI สร้างภาพเชิงธุรกิจ

การแข่งขันระหว่าง OpenAI และ Google ในด้านการสร้างภาพนี้ สะท้อนถึงการพัฒนาอย่างรวดเร็วของเทคโนโลยี generative AI ซึ่งจะนำไปสู่เครื่องมือที่ทรงพลังยิ่งขึ้นสำหรับนักออกแบบ นักการตลาด และผู้ประกอบการ โดยโมเดลของ OpenAI ที่ผสานเข้ากับ ChatGPT อย่างลงตัว ทำให้เข้าถึงได้ง่ายและใช้งานได้จริงในสภาพแวดล้อมธุรกิจ

(จำนวนคำประมาณ 720 คำ)

This Article is sponsored by Gnoppix AI (https://www.gnoppix.org)