Nvidia เปิดตัวโมเดล AI ใหม่สำหรับการขับขี่อัตโนมัติและการประมวลผลเสียง
ในการประชุม GTC 2024 ซึ่งเป็นเวทีสำคัญของ Nvidia บริษัทได้นำเสนอโมเดลปัญญาประดิษฐ์รุ่นใหม่ที่มุ่งเน้นไปที่การขับขี่อัตโนมัติและการประมวลผลเสียง โดย Jensen Huang ประธานเจ้าหน้าที่บริหารของ Nvidia ได้ประกาศเปิดตัว Cosmos ซึ่งเป็นโมเดลโลก (World Foundation Model) สำหรับยานยนต์อัตโนมัติและหุ่นยนต์ โดยโมเดลนี้ได้รับการฝึกฝนจากวิดีโอข้อมูลการขับขี่จำนวนมหาศาลกว่า 20 ล้านชั่วโมง จากแหล่งข้อมูลหลากหลายทั่วโลก
Cosmos ถือเป็นก้าวกระโดดสำคัญในการพัฒนาระบบขับขี่อัตโนมัติ เนื่องจากสามารถสร้างสถานการณ์การขับขี่เสมือนจริง (Synthetic Data Generation) ที่มีความสมจริงสูง โดยอาศัยข้อมูลวิดีโอจริงจากทั่วโลก ทำให้สามารถจำลองสภาพแวดล้อมการขับขี่ที่ซับซ้อน เช่น สภาพอากาศแปรปรวน ถนนแคบ หรือสถานการณ์ฉุกเฉินที่หายากในข้อมูลจริง การฝึกฝนโมเดลดังกล่าวช่วยลดข้อจำกัดของข้อมูลจริงที่อาจไม่ครอบคลุมทุกสถานการณ์ และช่วยเร่งกระบวนการพัฒนาระบบ AI สำหรับยานยนต์ โดย Nvidia ระบุว่า Cosmos สามารถนำไปประยุกต์ใช้ในแพลตฟอร์ม Omniverse เพื่อการจำลองและทดสอบยานยนต์ในสภาพแวดล้อมเสมือนจริง
นอกจากนี้ Nvidia ยังได้เปิดตัว Drive GenAI ซึ่งเป็นแพลตฟอร์มปัญญาประดิษฐ์แบบสร้างสรรค์ (Generative AI) สำหรับยานยนต์ โดยผสานรวมโมเดลภาษาขนาดใหญ่แบบหลายรูปแบบ (Multimodal Large Language Models) เข้ากับระบบขับขี่อัตโนมัติ แพลตฟอร์มนี้ช่วยให้ยานยนต์สามารถเข้าใจและตอบสนองต่อคำสั่งจากผู้ขับขี่ได้อย่างชาญฉลาดยิ่งขึ้น เช่น การตอบคำถามเกี่ยวกับเส้นทางหรือสถานะยานยนต์ในภาษาธรรมชาติ Drive GenAI ทำงานร่วมกับชิปประมวลผลอย่าง Drive Orin และ Drive Thor ซึ่งเป็นชิปประมวลผลรุ่นใหม่ที่มีประสิทธิภาพสูงสำหรับการใช้งานในยานยนต์ โดย Drive Thor สามารถรองรับการประมวลผล AI ได้ถึง 2,000 TOPS (Trillions of Operations Per Second) ทำให้เหมาะสำหรับระบบขับขี่ระดับ L4 และ L5
ในส่วนของการประมวลผลเสียง Nvidia ได้นำเสนอโมเดลใหม่ภายใต้แพลตฟอร์ม Riva ซึ่งเป็นชุดเครื่องมือสำหรับการพัฒนาการรู้จำเสียงพูด (Speech Recognition) และการสังเคราะห์เสียงพูด (Speech Synthesis) โดยโมเดลเด่น ได้แก่ Parakeet-TDT20 และ Parakeet-RNNT-1.1B ซึ่งเป็นโมเดลการรู้จำเสียงพูดแบบ Transducer และ Recurrent Neural Network Transducer (RNNT) ที่ให้ความแม่นยำสูงเกินกว่า Whisper ซึ่งเป็นโมเดลยอดนิยมจาก OpenAI Parakeet-TDT20 ทำผลงานได้ดีเยี่ยมในชุดข้อมูลทดสอบมาตรฐาน เช่น LibriSpeech และ TED-LIUM โดยมีอัตตราการรู้จำคำผิด (Word Error Rate) ต่ำกว่าคู่แข่ง ทำให้เหมาะสำหรับการใช้งานในรถยนต์ เช่น ระบบสั่งงานด้วยเสียง (Voice Commands) หรือผู้ช่วยส่วนตัวในยานยนต์
โมเดล Parakeet ยังรองรับการปรับแต่ง (Customization) สำหรับภาษาและสำเนียงเฉพาะเจาะจง โดยสามารถฝึกฝนเพิ่มเติมด้วยข้อมูลขนาดเล็ก ทำให้องค์กรธุรกิจสามารถพัฒนาระบบเสียงที่ปรับให้เข้ากับตลาดท้องถิ่นได้อย่างมีประสิทธิภาพ นอกจากนี้ Nvidia ยังเปิดตัว NeMo Retriever ซึ่งเป็นโมเดลสำหรับการกู้คืนข้อมูลในระบบสนทนา AI ช่วยให้การตอบสนองมีความเกี่ยวข้องและรวดเร็วมากขึ้น โดยทำงานร่วมกับ Riva Speech Skills ที่ช่วยให้ผู้พัฒนาสามารถสร้างทักษะเสียงพูดแบบกำหนดเอง เช่น การจองตารางนัดหมายหรือให้ข้อมูลการนำทาง
การนำเสนอครั้งนี้ยังครอบคลุมถึง NVLink-C2C ซึ่งเป็นเทคโนโลยีการเชื่อมต่อชิปต่อชิปแบบใหม่สำหรับระบบขับขี่ โดยให้แบนด์วิดธ์สูงถึง 200 GB/s ช่วยให้ชิปหลายตัวทำงานร่วมกันได้อย่างราบรื่นในระบบยานยนต์ขนาดใหญ่ เช่น รถบรรทุกหรือรถโดยสาร สิ่งนี้ช่วยยกระดับประสิทธิภาพการประมวลผลข้อมูลจากเซ็นเซอร์หลายตัว เช่น กล้อง LiDAR และ Radar ในเวลาเดียวกัน
โมเดลเหล่านี้ทั้งหมดเป็นโมเดลแบบเปิด (Open Models) ที่ Nvidia เปิดให้ดาวน์โหลดและใช้งานฟรีผ่าน Nvidia NGC Catalog ทำให้บริษัทรถยนต์และผู้พัฒนาซอฟต์แวร์สามารถนำไปปรับใช้ได้ทันที โดยไม่ต้องเริ่มต้นจากศูนย์ การเคลื่อนไหวนี้สอดคล้องกับยุทธศาสตร์ของ Nvidia ในการสร้างระบบนิเวศ AI ที่ครอบคลุม ecosystem ตั้งแต่ชิปประมวลผล ซอฟต์แวร์ และข้อมูลฝึกฝน
ผลกระทบต่ออุตสาหกรรมยานยนต์และเทคโนโลยีเสียงพูดนั้นชัดเจน โดย Cosmos และ Drive GenAI จะช่วยลดเวลาการพัฒนายานยนต์อัตโนมัติจากหลายปีเหลือเพียงหลายเดือน ขณะที่โมเดล Parakeet จะยกระดับประสบการณ์ผู้ใช้ในรถยนต์ให้ใกล้เคียงกับผู้ช่วยส่วนตัวมนุษย์มากยิ่งขึ้น บริษัทอย่าง Mercedes-Benz, Volvo และ BYD ซึ่งเป็นพันธมิตรของ Nvidia กำลังนำเทคโนโลยีเหล่านี้ไปใช้งานจริง โดยคาดว่าจะเห็นการ商用化ในรถยนต์รุ่นใหม่ภายใน 1-2 ปีข้างหน้า
Nvidia ยังเน้นย้ำถึงความปลอดภัยและจริยธรรมในการพัฒนา AI โดยโมเดลทั้งหมดผ่านการทดสอบมาตรฐานสากล เช่น ISO 26262 สำหรับยานยนต์ และรองรับการตรวจสอบความลำเอียง (Bias Detection) ในข้อมูลฝึกฝน สิ่งนี้ช่วยให้ธุรกิจสามารถนำไปใช้งานได้อย่างมั่นใจ โดยไม่เสี่ยงต่อปัญหาทางกฎหมายหรือความปลอดภัย
โดยสรุป การเปิดตัวโมเดล AI ใหม่เหล่านี้ไม่เพียงเสริมความแข็งแกร่งให้กับตำแหน่งผู้นำของ Nvidia ในตลาด AI สำหรับยานยนต์และเสียงพูดเท่านั้น แต่ยังเร่งให้อุตสาหกรรมก้าวสู่ยุคสมาร์ทโมบิลิตี้ที่แท้จริง ด้วยประสิทธิภาพที่เหนือชั้นและความยืดหยุ่นในการปรับใช้
(จำนวนคำประมาณ 728 คำ)
This Article is sponsored by Gnoppix AI (https://www.gnoppix.org)