ChatGPT รวมการสนทนาเสียงและข้อความเข้าด้วยกันอย่างราบรื่น
บริษัท OpenAI ผู้พัฒนาแพลตฟอร์มปัญญาประดิษฐ์ ChatGPT ได้ประกาศอัปเดตฟีเจอร์สำคัญที่เปลี่ยนแปลงประสบการณ์การใช้งาน โดยการรวมโหมดการสนทนาเสียง (Voice Mode) เข้ากับการสนทนาข้อความ (Text Chat) ในแอปพลิเคชัน ChatGPT ทำให้ผู้ใช้สามารถสลับรูปแบบการสื่อสารได้อย่างต่อเนื่องโดยไม่สูญเสียบริบทของการสนทนา อัปเดตนี้ช่วยยกระดับประสิทธิภาพการใช้งานให้เหมาะสมกับสภาพแวดล้อมการทำงานทางธุรกิจที่ต้องการความยืดหยุ่นสูง โดยเริ่มทยอยเปิดให้บริการตั้งแต่วันที่ 1 ตุลาคม 2567 สำหรับสมาชิก ChatGPT Plus และ ChatGPT Team บนแอปพลิเคชัน iOS และ Android ก่อน และจะขยายไปยังเวอร์ชันเว็บในเร็วๆ นี้
ในอดีต ผู้ใช้ ChatGPT ต้องเลือกใช้งานโหมดเสียงหรือโหมดข้อความแยกจากกัน โดยโหมดเสียงถูกแยกไว้ในแท็บต่างหาก ซึ่งจำกัดความต่อเนื่องของการสนทนา ผู้ใช้จึงต้องทำซ้ำบริบทเดิมเมื่อสลับโหมด ส่งผลให้เกิดความล่าช้าและลดประสิทธิภาพในการใช้งาน แต่ด้วยการอัปเดตครั้งนี้ โหมดเสียงถูกผสานเข้ากับการสนทนาข้อความหลักโดยตรง ผู้ใช้สามารถเริ่มต้นด้วยการพิมพ์ข้อความ จากนั้นแตะไอคอนไมโครโฟนเพื่อพูดต่อได้ทันที โดยระบบจะบันทึกประวัติการสนทนาทั้งหมดไว้ในสตรีมเดียวกัน ทำให้ ChatGPT เข้าใจบริบทได้อย่างสมบูรณ์ ไม่ว่าจะเป็นข้อความหรือเสียงที่ป้อนเข้าไป
กระบวนการใช้งานนั้นเรียบง่ายและเป็นมิตรกับผู้ใช้ทางธุรกิจ โดยผู้ใช้สามารถโบกมือ (Wave Gesture) ต่อหน้ากล้องเพื่อเริ่มการสนทนาเสียงได้โดยไม่ต้องแตะหน้าจอ ซึ่งเหมาะสำหรับสถานการณ์ที่กำลังเคลื่อนไหว เช่น การประชุมทางเดินหรือการขับขี่ยานพาหนะ ขณะสนทนา ผู้ใช้สามารถขัดจังหวะ (Interrupt) การตอบสนองของ ChatGPT ได้ทุกเมื่อ เพียงแค่เริ่มพูดใหม่ ระบบจะหยุดการประมวลผลทันทีและรับฟังคำสั่งใหม่ นอกจากนี้ ChatGPT ยังสามารถตอบสนองกลับด้วยเสียงหรือข้อความตามความต้องการของผู้ใช้ โดยเลือกรูปแบบผ่านการตั้งค่า ซึ่งช่วยให้การสื่อสารมีความยืดหยุ่นสูง
เทคโนโลยีหลักที่ขับเคลื่อนฟีเจอร์นี้คือโมเดล GPT-4o ซึ่งรองรับการประมวลผลมัลติโมดัล (Multimodal) ที่ครอบคลุมทั้งข้อความ เสียง และภาพ GPT-4o สามารถแปลงเสียงพูดเป็นข้อความ (Speech-to-Text) และสร้างข้อความตอบกลับเป็นเสียง (Text-to-Speech) ได้อย่างมีประสิทธิภาพ โดยมีตัวเลือกเสียงตอบสนองหลากหลายประเภท เช่น Sky, Juniper, Ember และเสียงใหม่ชื่อ Sol ซึ่งเพิ่มความเป็นธรรมชาติและปรับแต่งได้ตามบุคลิกผู้ใช้ นอกจากนี้ ระบบยังปรับปรุงความสามารถในการรับรู้เสียงให้ดีขึ้น โดยลดปัญหาการตอบสนองที่ไม่ตรงประเด็นหรือ “หลอน” (Hallucination) ที่พบในเวอร์ชันก่อนหน้า
ประโยชน์ทางธุรกิจที่ชัดเจนจากการรวมโหมดนี้คือการเพิ่มประสิทธิภาพการทำงานแบบเรียลไทม์ (Real-Time) ผู้บริหารและพนักงานสามารถใช้ ChatGPT ในการ brainstorm ไอเดีย จัดทำรายงาน หรือตอบคำถามลูกค้าด้วยการผสมผสานข้อความสำหรับบันทึกที่ชัดเจนและเสียงสำหรับการอภิปรายด่วน โดยไม่ต้องเสียเวลาย้ายข้อมูลระหว่างโหมด ตัวอย่างเช่น ในระหว่างการสนทนาข้อความเกี่ยวกับแผนธุรกิจ ผู้ใช้สามารถสลับไปถามรายละเอียดด้วยเสียงเพื่อรับคำตอบที่รวดเร็ว แล้วกลับมาพิมพ์สรุปต่อ ซึ่งช่วยลดเวลาการทำงานลงอย่างมีนัยสำคัญ
การทดสอบเบื้องต้นจากผู้ใช้ ChatGPT Plus พบว่าฟีเจอร์นี้ช่วยเพิ่มความพึงพอใจในการใช้งาน โดยเฉพาะในสภาพแวดล้อมมือถือที่ผู้ใช้ส่วนใหญ่เข้าถึง ChatGPT ผ่านสมาร์ทโฟน OpenAI ยังคงพัฒนาต่อเนื่องเพื่อขยายการรองรับภาษาและสำเนียงให้ครอบคลุมมากขึ้น รวมถึงการปรับปรุงความแม่นยำในการรับรู้เสียงในสภาพแวดล้อมที่มีเสียงรบกวน สำหรับผู้ใช้ Enterprise การอัปเดตนี้จะเปิดให้ใช้งานในอนาคตอันใกล้ เพื่อรองรับการใช้งานในองค์กรขนาดใหญ่
อย่างไรก็ตาม ผู้ใช้ควรทราบว่าฟีเจอร์นี้ยังคงอยู่ในขั้นตอนการทยอยเปิดใช้งาน (Rollout) ดังนั้นบางบัญชีอาจยังไม่เห็นการอัปเดตทันที สามารถตรวจสอบได้ผ่านแอปพลิเคชัน ChatGPT โดยไปที่เมนูการตั้งค่าเพื่อเปิดใช้งาน Voice Mode หากต้องการประสบการณ์เต็มรูปแบบ แนะนำให้อัปเดตแอปพลิเคชันเป็นเวอร์ชันล่าสุด
การรวมโหมดเสียงและข้อความนี้ถือเป็นก้าวสำคัญในการพัฒนา ChatGPT สู่แพลตฟอร์มอัจฉริยะที่เข้าใจมนุษย์มากยิ่งขึ้น โดย OpenAI มุ่งเน้นที่การสร้างประสบการณ์ผู้ใช้ที่ไร้รอยต่อ (Seamless) เพื่อตอบโจทย์ความต้องการในยุคดิจิทัลที่การสื่อสารแบบผสมผสานกลายเป็นมาตรฐานใหม่
(จำนวนคำประมาณ 728 คำ)
This Article is sponsored by Gnoppix AI (https://www.gnoppix.org)