เมตะเซ็นสัญญาหลายพันล้านดอลลาร์เช่า TPUs จากกูเกิล ท้าชน Nvidia เรื่องความเด่นชัดชิป AI โดยตรง

เมตาเซ็นสัญญาระยะยาวมูลค่าหลายพันล้านดอลลาร์ เพื่อเช่า TPU ของกูเกิล ท้าทายการครองตลาดชิป AI ของ Nvidia โดยตรง

เมตา แพลตฟอร์มส์ (Meta Platforms) ยักษ์ใหญ่ด้านโซเชียลมีเดีย ได้ลงนามในสัญญาระยะยาวมูลค่าหลายพันล้านดอลลาร์กับกูเกิล คลาวด์ (Google Cloud) เพื่อเช่าชิป TPU (Tensor Processing Units) จำนวนมหาศาลสำหรับการฝึกฝนและใช้งานโมเดลปัญญาประดิษฐ์ (AI) การเคลื่อนไหวนี้นับเป็นความท้าทายโดยตรงต่อการครองตลาดชิป AI ของ Nvidia ซึ่งเป็นผู้นำในอุตสาหกรรมปัจจุบัน

แอนดรูว์ บอสเวิร์ธ (Andrew Bosworth) ผู้บริหารระดับสูงฝ่ายเทคโนโลยีและหัวหน้าฝ่ายเรียลลิตี้ (CTO และหัวหน้า Reality Labs ของเมตา) ได้ประกาศข้อตกลงดังกล่าวผ่านโพสต์บนเฟซบุ๊กเมื่อเร็วๆ นี้ โดยระบุว่าสัญญานี้จะช่วยให้เมตาสามารถเข้าถึง TPU กว่า 1,000 ชิ้นในระยะสั้น และขยายไปสู่หลักหมื่นชิ้นในอนาคต โดยเริ่มต้นด้วย TPU v5p ซึ่งเป็นรุ่นประสิทธิภาพสูงสุดของกูเกิลในปัจจุบัน

การตัดสินใจนี้เกิดขึ้นท่ามกลางความต้องการคอมพิวติ้งสำหรับ AI ที่พุ่งสูงอย่างต่อเนื่อง โดยเมตาเองก็เป็นหนึ่งในผู้บริโภคชิป AI รายใหญ่ที่สุดในโลก บริษัทได้ลงทุนไปแล้วกว่า 40 พันล้านดอลลาร์ในโครงสร้างพื้นฐาน AI ตั้งแต่ปี 2566 ถึง 2568 โดยส่วนใหญ่มาจากการจัดซื้อชิป GPU ของ Nvidia อย่างไรก็ตาม ความขาดแคลนชิป Nvidia ที่เกิดจากการสั่งซื้อล้นหลามจากบริษัทเทคโนโลยีชั้นนำทั่วโลก ได้ก่อให้เกิดปัญหาคอขวดในการขยายกำลังการประมวลผล

บอสเวิร์ธเน้นย้ำว่าการกระจายแหล่งคอมพิวติ้งเป็นกลยุทธ์สำคัญของเมตา เพื่อลดความเสี่ยงจากการพึ่งพาผู้ผลิตชิปรายเดียว โดยบริษัทได้พัฒนาความสามารถในการใช้งานชิปจากผู้ผลิตรายอื่นๆ เช่น Broadcom และ Marvell รวมถึงชิป TPU ของกูเกิล ซึ่งมีประสิทธิภาพเทียบเท่ากับชิป H100 ของ Nvidia ในด้านการฝึกโมเดลขนาดใหญ่ “เรากำลังมุ่งสู่การใช้งานชิปจากผู้ผลิตรายอื่นๆ มากขึ้น เพื่อให้มั่นใจในกำลังการประมวลผลที่ยั่งยืน” บอสเวิร์ธกล่าว

TPU v5p ของกูเกิลเป็นชิป AI ที่ออกแบบมาเพื่อการฝึกโมเดลขนาดใหญ่ โดยมีประสิทธิภาพสูงถึง 2.5 เท่าของรุ่นก่อนหน้า (TPU v4) และสามารถเชื่อมต่อกันเป็นโพด (pod) ขนาดใหญ่ได้ โดยโพดขนาด 8,960 ชิ้นให้ประสิทธิภาพสูงสุด 38.7 exaFLOPS สำหรับการฝึกฝนด้วยความแม่นยำแบบ BF16 กูเกิล คลาวด์ยังอ้างว่าประสิทธิภาพต่อค่าใช้จ่าย (performance per dollar) ของ TPU สูงกว่าชิป Nvidia H100 ถึง 4.2 เท่า และมีประสิทธิภาพต่อกิโลวัตต์ (performance per watt) สูงกว่าเกือบ 3 เท่า

ข้อตกลงนี้ไม่เพียงช่วยเมตาในการฝึกโมเดล Llama 3.1 ซึ่งเป็นโมเดลภาษาขนาดใหญ่ล่าสุดของบริษัท (มีพารามิเตอร์ถึง 405 พันล้านตัว) แต่ยังช่วยลดต้นทุนและเพิ่มความยืดหยุ่นในการปรับขนาดระบบ โดยเมตาได้แสดงให้เห็นถึงความสามารถในการใช้งาน TPU ในการฝึก Llama 3.1 70B บนโพด TPU v5p ขนาด 1,024 ชิ้น ซึ่งใช้เวลาเพียง 15.1 ชั่วโมง เทียบกับ 16.1 ชั่วโมงบนชิป Nvidia H100 ขนาดเท่ากัน

สำหรับกูเกิล ข้อตกลงนี้เป็นชัยชนะสำคัญในการแข่งขันตลาดคลาวด์ AI โดยกูเกิล คลาวด์ได้ขยายส่วนแบ่งตลาดจาก 10% ในปี 2565 เป็น 12% ในปี 2567 ตามข้อมูลของ Synergy Research แม้จะยัง落后 Nvidia ในด้าน GPU แต่ TPU ได้รับความนิยมเพิ่มขึ้นจากลูกค้าที่มองหาทางเลือกด้านต้นทุนและประสิทธิภาพ โดยกูเกิลยังคงพัฒนา TPU รุ่นใหม่ เช่น Trillium ซึ่งคาดว่าจะเปิดตัวในช่วงครึ่งหลังของปีนี้ และมีประสิทธิภาพสูงกว่า TPU v5p ถึง 4.7 เท่า

การเคลื่อนไหวนี้อาจส่งสัญญาณถึงการเปลี่ยนแปลงในอุตสาหกรรมชิป AI ซึ่ง Nvidia ครองส่วนแบ่งตลาดกว่า 80-90% ในด้าน GPU สำหรับ AI ขณะที่ผู้เล่นรายอื่นๆ อย่าง AMD, Intel และ hyperscalers อย่างกูเกิล อเมซอน และเมตาเอง กำลังเร่งพัฒนาทางเลือกเพื่อลดการพึ่งพา Nvidia นักวิเคราะห์จากบริษัทอย่าง Loop Capital มองว่าข้อตกลงนี้อาจเป็นจุดเริ่มต้นของการกระจายตลาด โดยคาดว่าส่วนแบ่งของ Nvidia จะลดลงเหลือ 70% ในอีก 2-3 ปีข้างหน้า

เมตายังคงมุ่งมั่นในการพัฒนา AI แบบเปิด (open-source) โดย Llama series ได้รับความนิยมสูงในชุมชนนักพัฒนา และบริษัทได้เปิดเผยรายละเอียดทางเทคนิคเกี่ยวกับการใช้งาน TPU เพื่อส่งเสริมการนำไปใช้อย่างกว้างขวาง บอสเวิร์ธระบุว่าการเลือก TPU เป็นส่วนหนึ่งของกลยุทธ์ “open compute” ที่ช่วยให้เมตาสามารถแข่งขันกับคู่แข่งอย่าง OpenAI, Google และ Anthropic ได้อย่างมีประสิทธิภาพยิ่งขึ้น

โดยรวมแล้ว ข้อตกลงระหว่างเมตาและกูเกิลไม่เพียงเป็นการสนับสนุนซึ่งกันและกันในยุค AI แต่ยังสะท้อนถึงแนวโน้มการแข่งขันที่ดุเดือดในตลาดโครงสร้างพื้นฐาน AI ซึ่งบริษัทเทคโนโลยีชั้นนำกำลังมองหาทางออกเพื่อความยั่งยืนและต้นทุนที่ต่ำลง

(จำนวนคำประมาณ 720 คำ)

This Article is sponsored by Gnoppix AI (https://www.gnoppix.org)