เมต้าเปิดตัวชิป AI แบบกำหนดเองสี่ชั่วอารัตถ์ เพื่อลดต้นทุนการอนุมานสำหรับผู้ใช้หลายพันล้านคน
เมต้า (Meta) บริษัทเทคโนโลยีชั้นนำของสหรัฐฯ ได้ประกาศเปิดตัวชิปปัญญาประดิษฐ์ (AI) แบบกำหนดเองสี่ชั่วอารัตถ์ภายใต้ชื่อ MTIA (Meta Training and Inference Accelerator) โดยมีวัตถุประสงค์หลักเพื่อลดต้นทุนการอนุมาน (inference) สำหรับโมเดล Llama ที่ให้บริการแก่ผู้ใช้หลายพันล้านคนบนแพลตฟอร์ม Facebook, Instagram และ WhatsApp ชิปเหล่านี้ถูกออกแบบมาเพื่อรองรับการประมวลผลโมเดลแนะนำ (recommendation models) และโมเดลสร้างสรรค์ (generative AI) โดยเฉพาะ โดยเมต้าคาดว่าจะลดการพึ่งพาการ์ดจีพียู (GPU) จาก Nvidia ลงอย่างมาก
ชิป MTIA v1 ถือเป็นชิ่วอารัตถ์แรกที่เมต้าเริ่มใช้งานจริงตั้งแต่ปี 2566 โดยผลิตด้วยกระบวนการ 16 นาโนเมตร (nm) มีประสิทธิภาพการคำนวณ FP16 สูงถึง 7 เทราเฟล็ปส์ต่อวินาที (TFLOPs) ชิปนี้ถูกติดตั้งในศูนย์ข้อมูล 16 แห่งทั่วโลก รวมทั้งสิ้น 16,000 ชิ้น และสามารถให้ประสิทธิภาพการอนุมานที่ดีกว่าการใช้งาน CPU ถึงสองเท่า ชิป MTIA v1 ถูกนำมาใช้สำหรับการฝึกและอนุมานโมเดล AI ขนาดเล็ก โดยมุ่งเน้นที่งานประมวลผลแบบเรียลไทม์บนแพลตฟอร์มโซเชียลมีเดียของเมต้า
สำหรับชิ่วอารัตถ์ที่สอง MTIA v2 ซึ่งเริ่มใช้งานในปี 2567 ผลิตด้วยกระบวนการ 5 nm ให้ประสิทธิภาพการอนุมานสูงกว่าชิ่วอารัตถ์แรกถึง 40 เท่า ชิปนี้มีหน่วยความจำ HBM3 ขนาด 24 GB และสามารถรองรับโมเดล Llama 70B ได้อย่างมีประสิทธิภาพ โดยเมต้าจะติดตั้งชิปนี้ในศูนย์ข้อมูลจำนวนมากขึ้นเพื่อขยายขอบเขตการใช้งาน ชิป MTIA v2 ถือเป็นก้าวสำคัญในการปรับปรุงประสิทธิภาพ โดยลดการใช้พลังงานและเพิ่มความหนาแน่นของการคำนวณ ทำให้เหมาะสมกับการประมวลผลข้อมูลขนาดใหญ่จากผู้ใช้หลายพันล้านราย
ชิ่วอารัตถ์ที่สาม MTIA v3 วางแผนเริ่มใช้งานในปี 2568 ผลิตด้วยกระบวนการ 3 nm มีหน่วยความจำ HBM3e ขนาด 288 GB ซึ่งใหญ่กว่าชิ่วอารัตถ์ก่อนหน้าอย่างมาก ชิปนี้ให้ประสิทธิภาพการคำนวณที่หนาแน่นกว่าชิ่วอารัตถ์ v2 ถึง 3.5 เท่า และสามารถจัดการโมเดล Llama 4 ได้ดีเยี่ยม โดยเฉพาะการอนุมานสำหรับงาน generative AI ชิป MTIA v3 ถูกออกแบบให้รองรับการเชื่อมต่อแบบ sparsity-sparse matrix multiplication (SpMM) ซึ่งช่วยเพิ่มประสิทธิภาพในการประมวลผลข้อมูลที่ไม่หนาแน่น นอกจากนี้ ยังมีสถาปัตยกรรมพิเศษสำหรับงาน ranking และ recommendation ทำให้เมต้าสามารถลดต้นทุนการดำเนินงานได้อย่างมีนัยสำคัญ
ชิ่วอารัตถ์ล่าสุด MTIA v4 คาดว่าจะเริ่มใช้งานในปี 2569 ผลิตด้วยกระบวนการ 2 nm ซึ่งเป็นเทคโนโลยีขั้นสูงสุดในขณะนั้น ชิปนี้จะมุ่งเน้นการปรับปรุงประสิทธิภาพการอนุมานสำหรับโมเดลขนาดใหญ่ยิ่งขึ้น โดยเมต้าคาดว่าจะลดต้นทุนลงอีกหลายเท่าตัวเมื่อเทียบกับชิป Nvidia H100 ชิป MTIA v4 จะรวมเอาคุณสมบัติขั้นสูง เช่น การรองรับ sparsity ในระดับสูงสุดและหน่วยความจำขนาดใหญ่ เพื่อตอบสนองความต้องการจากผู้ใช้ที่เพิ่มขึ้นอย่างรวดเร็ว
การพัฒนาชิป MTIA สี่ชั่วอารัตถ์นี้สะท้อนถึงกลยุทธ์ของเมต้าในการสร้างโครงสร้างพื้นฐาน AI แบบกำหนดเอง เพื่อลดค่าใช้จ่ายในการอนุมานซึ่งปัจจุบันคิดเป็นสัดส่วนสูงถึง 80% ของต้นทุนรวมในการรันโมเดล Llama โดยเมต้าระบุว่าการใช้งานชิปเหล่านี้จะช่วยลดต้นทุนลง 4-5 เท่าเมื่อเทียบกับการใช้ GPU ทั่วไป นอกจากนี้ ชิป MTIA ยังถูกออกแบบให้ทำงานร่วมกับระบบ Rank Compute Units (RCUs) และระบบจัดอันดับ (ranking) ที่ปรับแต่งเฉพาะสำหรับแพลตฟอร์มโซเชียลมีเดีย ทำให้สามารถประมวลผลคำขอจากผู้ใช้หลายพันล้านรายต่อวันได้อย่างมีประสิทธิภาพ
เมต้ายังได้เผยรายละเอียดทางเทคนิคเพิ่มเติม เช่น ชิป MTIA v1 มี 256 compute units, 8 memory controllers และ bandwidth หน่วยความจำ 2 TB/s ขณะที่ v2 เพิ่มขึ้นเป็น 1,024 compute units และ bandwidth 8 TB/s ชิปเหล่านี้รองรับทั้งการฝึกและอนุมาน โดยเฉพาะงานที่ต้องการ throughput สูง เช่น การสร้างภาพและข้อความจากโมเดล Llama การประกาศครั้งนี้เกิดขึ้นท่ามกลางการแข่งขันด้าน AI ที่ดุเดือด โดยเมต้าพยายามลดการพึ่งพาซัพพลายเออร์รายเดียวอย่าง Nvidia ซึ่งมีราคาสูงและขาดแคลน
ด้วยการลงทุนในชิป MTIA เมต้าคาดว่าจะสามารถให้บริการ AI ที่มีคุณภาพสูงแก่ผู้ใช้ทั่วโลก โดยไม่ต้องเพิ่มต้นทุนอย่างมีนัยสำคัญ สิ่งนี้จะช่วยเสริมความแข็งแกร่งให้กับแพลตฟอร์มหลักของบริษัท และสนับสนุนการพัฒนาโมเดล Llama รุ่นใหม่ในอนาคต การเปิดตัวชิปสี่ชั่วอารัตถ์นี้ถือเป็นหลักฐานสำคัญถึงความมุ่งมั่นของเมต้าในการเป็นผู้นำด้านโครงสร้างพื้นฐาน AI แบบเปิดและมีประสิทธิภาพ
(จำนวนคำประมาณ 720 คำ)
This Article is sponsored by Gnoppix AI (https://www.gnoppix.org)