Nvidia ทำลายสถิติ MLPerf ใหม่ด้วย GPU 288 ตัว ขณะที่ AMD และ Intel มุ่งเน้นสมรภูมิที่แตกต่าง

เอ็นวิเดียสร้างสถิติใหม่ใน MLPerf ด้วยการใช้จีพียู 288 ตัว ขณะที่เอเอ็มดีและอินเทลมุ่งเน้นการแข่งขันในแนวทางอื่น

ในผลการทดสอบ MLPerf Training v4.0 ล่าสุด บริษัทเอ็นวิเดียได้สร้างสถิติใหม่หลายรายการ โดยใช้ระบบจีพียู H100 จำนวน 288 ตัว ซึ่งเป็นชุดทดสอบมาตรฐานที่พัฒนาโดย MLCommons เพื่อวัดประสิทธิภาพการฝึกโมเดลปัญญาประดิษฐ์ (AI) ขนาดใหญ่ สถิติเหล่านี้ครอบคลุมงานฝึกโมเดลหลากหลาย เช่น GPT-3 ขนาด 175 พันล้านพารามิเตอร์ (parameters) ซึ่งเอ็นวิเดียสามารถฝึกเสร็จสิ้นได้ในเวลาเพียง 2.9 นาที ถือเป็นสถิติที่ดีที่สุดเท่าที่เคยมีมา

นอกจากนี้ เอ็นวิเดียยังครองอันดับหนึ่งในงานทดสอบอื่นๆ เช่น การฝึกโมเดล BERT ขนาด 550 ล้านพารามิเตอร์ ซึ่งใช้เวลา 1.2 นาที และโมเดล ResNet-50 ซึ่งใช้เวลาเพียง 0.6 นาที สถิติเหล่านี้แสดงให้เห็นถึงความสามารถของระบบ Hopper (H100) ในการประมวลผลแบบขนานขนาดใหญ่ โดยเอ็นวิเดียใช้คลัสเตอร์ DGX H100 SuperPOD ซึ่งรวมจีพียู 288 ตัวเข้าด้วยกันผ่าน NVLink สร้างพลังประมวลผลรวมกว่า 40 เพตะฟลอปส์ (petaFLOPS) ในระดับความแม่นยำ FP8

MLPerf Training v4.0 เป็นเวอร์ชันใหม่ที่เพิ่มงานทดสอบที่ท้าทายมากขึ้น เช่น การฝึก Stable Diffusion XL และโมเดล Llama 2 70B ซึ่งเอ็นวิเดียก็ทำได้ดีเยี่ยม โดยฝึก Llama 2 70B เสร็จใน 8.3 นาที เร็วกว่าครั้งก่อนหน้าอย่างมาก ผลเหล่านี้ยืนยันความเป็นผู้นำของเอ็นวิเดียในด้านการฝึกโมเดล AI ขนาดใหญ่ ซึ่งเป็นหัวใจสำคัญของการพัฒนา generative AI ในปัจจุบัน

อย่างไรก็ตาม การแข่งขันใน MLPerf ไม่ได้จำกัดอยู่ที่เอ็นวิเดียเท่านั้น บริษัทเอเอ็มดี (AMD) ได้แสดงศักยภาพในส่วนของการทดสอบ Inference v4.0 โดยใช้ Instinct MI300X ซึ่งเป็นเอไอจีพียูรุ่นใหม่ สร้างสถิติใหม่ใน 7 จาก 9 หมวดหมู่ทดสอบ โดยเฉพาะงานปิด (Closed) สำหรับโมเดล GPT-J 6B, Llama 2 70B และโมเดล RNNT สำหรับการรู้จำเสียงพูด MI300X ทำคะแนนสูงสุดในด้าน throughput และ latency โดยใช้ระบบ 8 ตัว รวมพลัง 6144 คอร์ CDNA 3 และหน่วยความจำ HBM3 ขนาด 192GB ต่อตัว

เอเอ็มดีเน้นจุดเด่นในด้านประสิทธิภาพต่อหน่วยวัตต์ (performance per watt) โดย MI300X สามารถส่งผลลัพธ์ได้สูงถึง 60,000 tokens ต่อวินาทีใน GPT-J ซึ่งดีกว่าคู่แข่ง นอกจากนี้ ในงานทดสอบ Open Division เอเอ็มดีก็ครองแชมป์ในโมเดล MedPerf และ DLRM ขณะที่เอ็นวิเดียยังคงครองสถิติในงานใหญ่ๆ เช่น GPT-3 175B ด้วย H100 TensorRT-LLM

ส่วนบริษัทอินเทล (Intel) มุ่งเน้นกลยุทธ์ที่แตกต่าง โดยใช้ Gaudi 3 ใน MLPerf Training v4.0 และ Inference v4.0 เพื่อเน้นประสิทธิภาพพลังงานและระบบขนาดกลาง Gaudi 3 ซึ่งเป็นตัวเร่งเอไอรุ่นที่สาม สร้างสถิติในด้านประสิทธิภาพต่อวัตต์ (perf/watt) สำหรับงานฝึก BERT 550M และ ResNet-50 โดยใช้พลังงานต่ำกว่าคู่แข่งถึง 2 เท่า ใน Inference Gaudi 3 ทำสถิติ perf/watt ในโมเดล Llama 2 70B Chat และ RNNT

อินเทลใช้ระบบ 8 ตัวของ Gaudi 3 ใน Training และ 4 ตัวใน Inference โดยเน้นการเชื่อมต่อผ่าน SHARP (Scalable Hierarchical Aggregation and Reduction Protocol) ซึ่งช่วยลดการใช้พลังงานและเพิ่ม scalability ผลงานเหล่านี้แสดงให้เห็นว่าอินเทลกำลังแข่งขันในเซกเมนต์ที่เน้นความยั่งยืนและการใช้งานในองค์กรขนาดกลาง ไม่ใช่คลัสเตอร์ยักษ์ใหญ่แบบเอ็นวิเดีย

การประกาศผล MLPerf ครั้งนี้เกิดขึ้นท่ามกลางการแข่งขันที่ดุเดือดในตลาดเอไอ โดยเอ็นวิเดียยังคงครองตลาดจีพียูเอไอด้วยส่วนแบ่งกว่า 80% แต่เอเอ็มดีและอินเทลกำลังไล่ตามด้วยนวัตกรรมเฉพาะทาง เอเอ็มดีเน้น inference สำหรับ generative AI ขณะที่อินเทลโฟกัส efficiency สำหรับ enterprise MLPerf ยังคงเป็นมาตรฐานอิสระที่ช่วยให้ผู้ใช้เปรียบเทียบประสิทธิภาพได้อย่างโปร่งใส โดยผลทั้งหมดสามารถตรวจสอบได้ที่เว็บไซต์ MLCommons

สถิติใหม่ของเอ็นวิเดียช่วยเสริมความเชื่อมั่นให้กับลูกค้าที่ลงทุนในระบบ Hopper และเตรียมพร้อมสำหรับ Blackwell B200 ซึ่งคาดว่าจะยิ่งทรงพลังกว่า ในขณะที่เอเอ็มดีและอินเทลกำลังสร้างฐานลูกค้าในเซกเมนต์ inference และ efficiency ซึ่งเป็นแนวโน้มสำคัญของอุตสาหกรรมเอไอในอนาคต การแข่งขันนี้จะผลักดันให้เทคโนโลยีเอไอพัฒนาเร็วขึ้น ส่งผลดีต่อ ecosystem โดยรวม

(จำนวนคำประมาณ 720 คำ)

This Article is sponsored by Gnoppix AI (https://www.gnoppix.org)