Meta เปิดตัวชิป AI แบบกำหนดเองสี่รุ่น เพื่อลดต้นทุนการอนุมานสำหรับผู้ใช้พันล้านคน

เมต้าเปิดตัวชิป AI แบบกำหนดเองสี่ชั่วอารัตถ์ เพื่อลดต้นทุนการอนุมานสำหรับผู้ใช้หลายพันล้านคน

เมต้า (Meta) บริษัทเทคโนโลยีชั้นนำของสหรัฐฯ ได้ประกาศเปิดตัวชิปปัญญาประดิษฐ์ (AI) แบบกำหนดเองสี่ชั่วอารัตถ์ภายใต้ชื่อ MTIA (Meta Training and Inference Accelerator) โดยมีวัตถุประสงค์หลักเพื่อลดต้นทุนการอนุมาน (inference) สำหรับโมเดล Llama ที่ให้บริการแก่ผู้ใช้หลายพันล้านคนบนแพลตฟอร์ม Facebook, Instagram และ WhatsApp ชิปเหล่านี้ถูกออกแบบมาเพื่อรองรับการประมวลผลโมเดลแนะนำ (recommendation models) และโมเดลสร้างสรรค์ (generative AI) โดยเฉพาะ โดยเมต้าคาดว่าจะลดการพึ่งพาการ์ดจีพียู (GPU) จาก Nvidia ลงอย่างมาก

ชิป MTIA v1 ถือเป็นชิ่วอารัตถ์แรกที่เมต้าเริ่มใช้งานจริงตั้งแต่ปี 2566 โดยผลิตด้วยกระบวนการ 16 นาโนเมตร (nm) มีประสิทธิภาพการคำนวณ FP16 สูงถึง 7 เทราเฟล็ปส์ต่อวินาที (TFLOPs) ชิปนี้ถูกติดตั้งในศูนย์ข้อมูล 16 แห่งทั่วโลก รวมทั้งสิ้น 16,000 ชิ้น และสามารถให้ประสิทธิภาพการอนุมานที่ดีกว่าการใช้งาน CPU ถึงสองเท่า ชิป MTIA v1 ถูกนำมาใช้สำหรับการฝึกและอนุมานโมเดล AI ขนาดเล็ก โดยมุ่งเน้นที่งานประมวลผลแบบเรียลไทม์บนแพลตฟอร์มโซเชียลมีเดียของเมต้า

สำหรับชิ่วอารัตถ์ที่สอง MTIA v2 ซึ่งเริ่มใช้งานในปี 2567 ผลิตด้วยกระบวนการ 5 nm ให้ประสิทธิภาพการอนุมานสูงกว่าชิ่วอารัตถ์แรกถึง 40 เท่า ชิปนี้มีหน่วยความจำ HBM3 ขนาด 24 GB และสามารถรองรับโมเดล Llama 70B ได้อย่างมีประสิทธิภาพ โดยเมต้าจะติดตั้งชิปนี้ในศูนย์ข้อมูลจำนวนมากขึ้นเพื่อขยายขอบเขตการใช้งาน ชิป MTIA v2 ถือเป็นก้าวสำคัญในการปรับปรุงประสิทธิภาพ โดยลดการใช้พลังงานและเพิ่มความหนาแน่นของการคำนวณ ทำให้เหมาะสมกับการประมวลผลข้อมูลขนาดใหญ่จากผู้ใช้หลายพันล้านราย

ชิ่วอารัตถ์ที่สาม MTIA v3 วางแผนเริ่มใช้งานในปี 2568 ผลิตด้วยกระบวนการ 3 nm มีหน่วยความจำ HBM3e ขนาด 288 GB ซึ่งใหญ่กว่าชิ่วอารัตถ์ก่อนหน้าอย่างมาก ชิปนี้ให้ประสิทธิภาพการคำนวณที่หนาแน่นกว่าชิ่วอารัตถ์ v2 ถึง 3.5 เท่า และสามารถจัดการโมเดล Llama 4 ได้ดีเยี่ยม โดยเฉพาะการอนุมานสำหรับงาน generative AI ชิป MTIA v3 ถูกออกแบบให้รองรับการเชื่อมต่อแบบ sparsity-sparse matrix multiplication (SpMM) ซึ่งช่วยเพิ่มประสิทธิภาพในการประมวลผลข้อมูลที่ไม่หนาแน่น นอกจากนี้ ยังมีสถาปัตยกรรมพิเศษสำหรับงาน ranking และ recommendation ทำให้เมต้าสามารถลดต้นทุนการดำเนินงานได้อย่างมีนัยสำคัญ

ชิ่วอารัตถ์ล่าสุด MTIA v4 คาดว่าจะเริ่มใช้งานในปี 2569 ผลิตด้วยกระบวนการ 2 nm ซึ่งเป็นเทคโนโลยีขั้นสูงสุดในขณะนั้น ชิปนี้จะมุ่งเน้นการปรับปรุงประสิทธิภาพการอนุมานสำหรับโมเดลขนาดใหญ่ยิ่งขึ้น โดยเมต้าคาดว่าจะลดต้นทุนลงอีกหลายเท่าตัวเมื่อเทียบกับชิป Nvidia H100 ชิป MTIA v4 จะรวมเอาคุณสมบัติขั้นสูง เช่น การรองรับ sparsity ในระดับสูงสุดและหน่วยความจำขนาดใหญ่ เพื่อตอบสนองความต้องการจากผู้ใช้ที่เพิ่มขึ้นอย่างรวดเร็ว

การพัฒนาชิป MTIA สี่ชั่วอารัตถ์นี้สะท้อนถึงกลยุทธ์ของเมต้าในการสร้างโครงสร้างพื้นฐาน AI แบบกำหนดเอง เพื่อลดค่าใช้จ่ายในการอนุมานซึ่งปัจจุบันคิดเป็นสัดส่วนสูงถึง 80% ของต้นทุนรวมในการรันโมเดล Llama โดยเมต้าระบุว่าการใช้งานชิปเหล่านี้จะช่วยลดต้นทุนลง 4-5 เท่าเมื่อเทียบกับการใช้ GPU ทั่วไป นอกจากนี้ ชิป MTIA ยังถูกออกแบบให้ทำงานร่วมกับระบบ Rank Compute Units (RCUs) และระบบจัดอันดับ (ranking) ที่ปรับแต่งเฉพาะสำหรับแพลตฟอร์มโซเชียลมีเดีย ทำให้สามารถประมวลผลคำขอจากผู้ใช้หลายพันล้านรายต่อวันได้อย่างมีประสิทธิภาพ

เมต้ายังได้เผยรายละเอียดทางเทคนิคเพิ่มเติม เช่น ชิป MTIA v1 มี 256 compute units, 8 memory controllers และ bandwidth หน่วยความจำ 2 TB/s ขณะที่ v2 เพิ่มขึ้นเป็น 1,024 compute units และ bandwidth 8 TB/s ชิปเหล่านี้รองรับทั้งการฝึกและอนุมาน โดยเฉพาะงานที่ต้องการ throughput สูง เช่น การสร้างภาพและข้อความจากโมเดล Llama การประกาศครั้งนี้เกิดขึ้นท่ามกลางการแข่งขันด้าน AI ที่ดุเดือด โดยเมต้าพยายามลดการพึ่งพาซัพพลายเออร์รายเดียวอย่าง Nvidia ซึ่งมีราคาสูงและขาดแคลน

ด้วยการลงทุนในชิป MTIA เมต้าคาดว่าจะสามารถให้บริการ AI ที่มีคุณภาพสูงแก่ผู้ใช้ทั่วโลก โดยไม่ต้องเพิ่มต้นทุนอย่างมีนัยสำคัญ สิ่งนี้จะช่วยเสริมความแข็งแกร่งให้กับแพลตฟอร์มหลักของบริษัท และสนับสนุนการพัฒนาโมเดล Llama รุ่นใหม่ในอนาคต การเปิดตัวชิปสี่ชั่วอารัตถ์นี้ถือเป็นหลักฐานสำคัญถึงความมุ่งมั่นของเมต้าในการเป็นผู้นำด้านโครงสร้างพื้นฐาน AI แบบเปิดและมีประสิทธิภาพ

(จำนวนคำประมาณ 720 คำ)

This Article is sponsored by Gnoppix AI (https://www.gnoppix.org)