OpenAI ร่วมกับ AMD, Broadcom, Intel, Microsoft และ NVIDIA พัฒนาโปรโตคอลเครือข่ายเพื่อแก้ปัญหาคอขวดของซูเปอร์คอมพิวเตอร์ AI

โอเพ่นเอไอ ร่วมพัฒนาโปรโตคอลเครือข่ายใหม่กับ AMD, Broadcom, Intel, Microsoft และ Nvidia เพื่อแก้ไขคอขวดในซูเปอร์คอมพิวเตอร์ AI

ในยุคที่การพัฒนาโมเดลปัญญาประดิษฐ์ (AI) ขนาดใหญ่กำลังเร่งตัวอย่างรวดเร็ว โอเพ่นเอไอ (OpenAI) ได้เผชิญกับความท้าทายสำคัญในการขยายขนาดโครงสร้างพื้นฐานสำหรับการฝึกโมเดล AI โดยเฉพาะอย่างยิ่งในซูเปอร์คอมพิวเตอร์ที่ประกอบด้วยหน่วยประมวลผลกราฟิก (GPU) นับหมื่นตัว เพื่อรองรับการฝึกโมเดลขนาดยักษ์ เช่น GPT รุ่นถัดไป ปัญหาหลักที่เกิดขึ้นคือ “คอขวดด้านเครือข่าย” (networking bottlenecks) ซึ่งทำให้ประสิทธิภาพการสื่อสารระหว่าง GPU ช้าลง ส่งผลกระทบต่อความสามารถในการขยายขนาด (scalability) ของระบบโดยรวม

เครือข่ายแบบ Ethernet มาตรฐานที่ใช้กันอย่างแพร่หลายในปัจจุบันไม่สามารถตอบสนองความต้องการด้านแบนด์วิดธ์สูงและความหน่วงต่ำ (low latency) ที่จำเป็นสำหรับการดำเนินการแบบ Remote Direct Memory Access (RDMA) ในคลัสเตอร์ AI ขนาดใหญ่ได้อย่างมีประสิทธิภาพ การสื่อสารข้อมูลจำนวนมหาศาลระหว่าง GPU แต่ละตัว ซึ่งเป็นหัวใจสำคัญของกระบวนการฝึกโมเดล AI กลายเป็นจุดอ่อนที่ทำให้ระบบไม่สามารถบรรลุประสิทธิภาพสูงสุด แม้ว่าหน่วยประมวลผลจะทรงพลังเพียงใดก็ตาม InfiniBand ซึ่งเป็นเทคโนโลยีเครือข่ายที่ Nvidia ครองตลาดในปัจจุบัน ถูกนำมาใช้ในซูเปอร์คอมพิวเตอร์ AI ชั้นนำหลายแห่ง แต่ก็ยังมีข้อจำกัดในด้านการขยายขนาดและการพึ่งพาผู้ผลิตรายเดียว

เพื่อแก้ไขปัญหาดังกล่าว โอเพ่นเอไอได้ริเริ่มโครงการพัฒนาโปรโตคอลเครือข่ายใหม่โดยร่วมมือกับบริษัทเทคโนโลยีชั้นนำระดับโลก ได้แก่ AMD, Broadcom, Intel, Microsoft และ Nvidia โปรโตคอลนี้ถูกออกแบบมาอย่างเฉพาะเจาะจงสำหรับงานประมวลผล AI โดยมุ่งเน้นการปรับปรุงประสิทธิภาพการสื่อสารแบบ collective operations เช่น all-reduce และ all-gather ซึ่งเป็นการดำเนินการพื้นฐานในการฝึกโมเดลขนาดใหญ่ โปรโตคอลดังกล่าวช่วยเพิ่มแบนด์วิดธ์การสื่อสารระหว่าง GPU ให้สูงขึ้น ลดความหน่วง และปรับให้เหมาะสมกับลักษณะงานของ AI supercomputer โดยตรง

การร่วมมือครั้งนี้เกิดขึ้นภายใต้กรอบการทำงานร่วมกันที่เปิดกว้าง โดยบริษัทแต่ละรายนำความเชี่ยวชาญเฉพาะด้านมาประกอบเข้าด้วยกัน AMD สนับสนุนเทคโนโลยีการเชื่อมต่อสำหรับ GPU ของตน Broadcom นำเสนอชิปเครือข่าย Jericho series ที่มีประสิทธิภาพสูง Intel ให้บริการโซลูชัน QuickAssist และ Ethernet adapters ที่ปรับแต่งสำหรับ AI Microsoft ใช้ประสบการณ์จากโครงสร้างพื้นฐาน Azure ซึ่งรองรับคลัสเตอร์ AI ขนาดใหญ่ และ Nvidia ซึ่งเป็นผู้นำด้าน GPU ช่วยพัฒนา Spectrum-X Ethernet platform ที่ออกแบบสำหรับ workload AI โดยเฉพาะ ทั้งหมดนี้รวมกันเพื่อสร้างโปรโตคอลที่เป็นมาตรฐานเปิด สามารถนำไปใช้งานได้กว้างขวาง และลดการพึ่งพาเทคโนโลยี proprietary

โปรโตคอลเครือข่ายใหม่นี้ไม่เพียงแก้ไขคอขวดในซูเปอร์คอมพิวเตอร์ปัจจุบันของโอเพ่นเอไอ ซึ่งประกอบด้วย GPU กว่า 100,000 ตัวสำหรับการฝึกโมเดลรุ่นใหม่ แต่ยังวางรากฐานสำหรับการพัฒนาซูเปอร์คอมพิวเตอร์ AI ในอนาคตที่ต้องการ GPU นับล้านตัว เพื่อรองรับโมเดล AI ที่มีพารามิเตอร์นับล้านล้าน การปรับปรุงนี้คาดว่าจะเพิ่มประสิทธิภาพการฝึกโมเดลได้หลายเท่า โดยเฉพาะในด้านการสื่อสารข้อมูลที่ต้องจัดการกับ terabytes ของข้อมูลต่อวินาที ทำให้สามารถลดเวลาการฝึกและต้นทุนการดำเนินงานได้อย่างมีนัยสำคัญ

นอกจากนี้ โปรโตคอลดังกล่าวยังถูกพัฒนาให้เข้ากันได้กับ Ethernet ความเร็ว 400 Gbps และสูงกว่านั้น โดยใช้ RDMA over Converged Ethernet (RoCE) เป็นฐาน แต่เพิ่มการปรับแต่งพิเศษสำหรับ AI workloads เช่น การสนับสนุนการสื่อสารแบบ point-to-point และ multicast ที่มีประสิทธิภาพสูงสุด สิ่งสำคัญคือโปรโตคอลนี้จะถูกเปิดเผยเป็น open-source และส่งมอบให้หน่วยงานมาตรฐาน เช่น Ultra Ethernet Consortium (UEC) เพื่อให้อุตสาหกรรมทั้งหมดสามารถนำไปพัฒนาต่อได้ สิ่งนี้ช่วยส่งเสริมการแข่งขัน สร้าง ecosystem ที่หลากหลาย และลดความเสี่ยงจากการผูกขาดตลาดเครือข่าย AI

ผลกระทบของการพัฒนานี้ต่ออุตสาหกรรม AI มีความสำคัญอย่างยิ่ง เนื่องจากซูเปอร์คอมพิวเตอร์ AI กำลังกลายเป็นโครงสร้างพื้นฐานหลักสำหรับนวัตกรรมในทุกภาคส่วน ตั้งแต่การแพทย์ การเงิน ไปจนถึงการผลิต โอเพ่นเอไอคาดหวังว่าการแก้ไขคอขวดเครือข่ายจะช่วยเร่งการพัฒนาโมเดล AI สมัยใหม่ให้เร็วขึ้น สร้างโอกาสให้บริษัทอื่นๆ สามารถแข่งขันได้ โดยไม่ต้องพึ่งพาผู้ผลิตเครือข่ายรายเดียว การร่วมมือกับพันธมิตรชั้นนำ 5 รายนี้ยังแสดงให้เห็นถึงแนวโน้มการทำงานร่วมกันในอุตสาหกรรมเทคโนโลยี เพื่อรับมือกับความท้าทายที่ซับซ้อนของ AI scaling

ในท้ายที่สุด โปรโตคอลเครือข่ายใหม่จากโอเพ่นเอไอและพันธมิตร ถือเป็นก้าวสำคัญในการกำจัดอุปสรรคทางเทคนิคที่ขัดขวางการเติบโตของ AI supercomputing ทำให้โลกของปัญญาประดิษฐ์สามารถก้าวสู่ระดับใหม่ได้อย่างแท้จริง

(จำนวนคำประมาณ 728 คำ)

This Article is sponsored by Gnoppix AI (https://www.gnoppix.org)