โมเดลสร้างภาพ ChatGPT รุ่นใหม่ของ OpenAI เทียบชั้น Imagen 3 nano และ ‘Banana Pro’ ของ Google ในพรอมต์ที่ซับซ้อน
OpenAI ได้เปิดตัวโมเดลสร้างภาพรุ่นใหม่ใน ChatGPT ซึ่งขับเคลื่อนด้วย GPT-4o โดยโมเดลนี้แสดงศักยภาพที่โดดเด่นในการสร้างภาพจากข้อความพรอมต์ที่ซับซ้อน สามารถเทียบเคียงกับโมเดล Imagen 3 nano ของ Google ที่ใช้ใน Gemini และเวอร์ชันปรับแต่งพิเศษที่เรียกว่า ‘Banana Pro’ ได้อย่างสูสี จากการทดสอบที่ดำเนินการโดยผู้เชี่ยวชาญพบว่า โมเดลใหม่นี้ให้ผลลัพธ์ที่มีคุณภาพสูง โดยเฉพาะในสถานการณ์ที่ต้องการรายละเอียดเชิงสร้างสรรค์และความซับซ้อนสูง
การพัฒนาและการเปิดตัวโมเดลใหม่ของ OpenAI
ChatGPT ได้รับการอัปเดตให้รองรับการสร้างภาพโดยตรงผ่านการสนทนา ผู้ใช้สามารถพิมพ์พรอมต์ข้อความเพื่อสร้างภาพได้ทันที โดยโมเดลนี้เป็นส่วนหนึ่งของ GPT-4o ซึ่งเป็นโมเดลมัลติโมดัลที่รวมการประมวลผลข้อความ ภาพ และเสียงเข้าด้วยกัน OpenAI ระบุว่าโมเดลสร้างภาพนี้ได้รับการฝึกฝนด้วยข้อมูลภาพขนาดใหญ่กว่า 1 ล้านล้านตัวอย่าง ทำให้สามารถเข้าใจและตีความพรอมต์ที่ละเอียดอ่อนได้ดีเยี่ยม
ในช่วงแรก โมเดลนี้เปิดให้ผู้ใช้ ChatGPT Plus และผู้ใช้ฟรีจำนวนจำกัดได้ทดลองใช้งาน โดยมีข้อจำกัดในการสร้างภาพต่อวันเพื่อป้องกันการใช้งานเกินกำลัง ต่อมา OpenAI ได้เพิ่มเครื่องหมายลายน้ำ C2PA เพื่อระบุภาพที่สร้างโดย AI ซึ่งช่วยเพิ่มความโปร่งใสและลดความเสี่ยงจากการใช้งานในทางที่ผิด
การเปรียบเทียบกับโมเดล Imagen 3 ของ Google
เพื่อประเมินประสิทธิภาพ ผู้ทดสอบได้นำโมเดลใหม่ของ OpenAI ไปเปรียบเทียบกับ Imagen 3 ซึ่งเป็นโมเดลสร้างภาพชั้นนำของ Google โดยเฉพาะเวอร์ชัน nano ที่ใช้ใน Gemini และเวอร์ชัน ‘Banana Pro’ ซึ่งเป็นโมเดลที่ปรับแต่งอย่างละเอียดสำหรับการทดสอบพรอมต์กล้วย (banana prompts) ที่ซับซ้อน ‘Banana Pro’ นี้ถูกฝึกฝนด้วยชุดข้อมูลเฉพาะเพื่อจัดการกับพรอมต์ที่ต้องการองค์ประกอบหลายชั้น เช่น “กล้วยสวมชุดกล้วยกำลังถือกล้วย” ซึ่งเป็นตัวอย่างคลาสสิกในการทดสอบความสามารถของโมเดล AI
ผลการทดสอบพรอมต์ง่าย
ในพรอมต์พื้นฐาน เช่น “แมวนั่งบนโซฟา” หรือ “พระอาทิตย์ตกดินเหนือทะเล” ทุกโมเดลทำได้ดีเยี่ยม Imagen 3 nano และ Banana Pro ให้ภาพที่คมชัด สีสันสมจริง ขณะที่โมเดลของ OpenAI ก็สร้างภาพที่มีคุณภาพใกล้เคียงกัน โดยมีความแตกต่างเพียงเล็กน้อยในด้านแสงเงาและพื้นผิว
ผลการทดสอบพรอมต์ซับซ้อน
จุดเด่นของโมเดล OpenAI ปรากฏชัดเจนในพรอมต์ที่ซับซ้อน เช่น:
- “กล้วยยักษ์สวมเสื้อสูทกล้วยกำลังกินกล้วยไอศกรีมในห้องครัวที่ตกแต่งด้วยกล้วยทั้งหมด”
- “กล้วยนักบินอวกาศกำลังลอยตัวในอวกาศพร้อมกล้วยดาวเคราะห์”
โมเดล Imagen 3 nano มักสร้างภาพที่โครงสร้างดีแต่ขาดรายละเอียดบางส่วน เช่น ชุดกล้วยอาจดูไม่สมส่วนหรือพื้นหลังไม่สอดคล้อง Banana Pro ซึ่งปรับแต่งมาเพื่อพรอมต์เหล่านี้ ทำได้ดีกว่าโดยรักษาความสอดคล้องขององค์ประกอบกล้วยทั้งหมดได้ดี
ที่น่าประทับใจคือ โมเดล GPT-4o ของ OpenAI สามารถสร้างภาพที่เทียบเท่า Banana Pro ได้ โดยรักษาความสมจริง รายละเอียดเสื้อผ้า และการจัดองค์ประกอบได้อย่างลงตัว ผู้ทดสอบระบุว่า ภาพจาก OpenAI มีความสร้างสรรค์สูงกว่าในบางกรณี เช่น การเพิ่มเอฟเฟกต์แสงที่เหมาะสมกับธีมกล้วย
ผลการทดสอบจาก基准มาตรฐาน
จากการประเมินโดย Artificial Analysis ซึ่งเป็นหน่วยงานทดสอบ AI อิสระ พบว่า:
- Imagen 3 (รวม nano) ยังครองอันดับ 1 ใน ELO score สำหรับการสร้างภาพคุณภาพสูง
- โมเดลใหม่ของ OpenAI อยู่ในอันดับ 2-3 รองจาก Imagen 3 และ Flux โดยมีคะแนนใกล้เคียงกันมาก
ในด้านความเร็ว OpenAI สร้างภาพได้เร็วกว่า โดยใช้เวลาเพียง 5-10 วินาทีต่อภาพ ขณะที่ Imagen 3 ใน Gemini อาจใช้เวลานานกว่า นอกจากนี้ OpenAI ยังรองรับการแก้ไขภาพผ่านการสนทนาต่อเนื่อง เช่น “เพิ่มแว่นกันแดดให้กล้วย” ซึ่งทำให้กระบวนการสร้างภาพยืดหยุ่นยิ่งขึ้น
ข้อจำกัดและแนวโน้มในอนาคต
แม้จะมีประสิทธิภาพสูง โมเดลของ OpenAI ยังมีข้อจำกัด เช่น การปฏิเสธพรอมต์ที่ละเอียดอ่อน (เช่น ภาพบุคคลจริง) เพื่อป้องกันการละเมิดลิขสิทธิ์หรือเนื้อหาที่ไม่เหมาะสม นอกจากนี้ ยังไม่รองรับการอัปโหลดภาพอ้างอิงเพื่อสร้างภาพใหม่ (image-to-image) ในขณะนี้
Google เองก็กำลังพัฒนา Imagen 3 ให้ดีขึ้น โดย Banana Pro เป็นตัวอย่างของการปรับแต่งโมเดลให้เหมาะกับชุดพรอมต์เฉพาะ ซึ่งอาจกลายเป็นแนวโน้มใหม่ในการใช้งาน AI สร้างภาพเชิงธุรกิจ
การแข่งขันระหว่าง OpenAI และ Google ในด้านการสร้างภาพนี้ สะท้อนถึงการพัฒนาอย่างรวดเร็วของเทคโนโลยี generative AI ซึ่งจะนำไปสู่เครื่องมือที่ทรงพลังยิ่งขึ้นสำหรับนักออกแบบ นักการตลาด และผู้ประกอบการ โดยโมเดลของ OpenAI ที่ผสานเข้ากับ ChatGPT อย่างลงตัว ทำให้เข้าถึงได้ง่ายและใช้งานได้จริงในสภาพแวดล้อมธุรกิจ
(จำนวนคำประมาณ 720 คำ)
This Article is sponsored by Gnoppix AI (https://www.gnoppix.org)