Google, OpenAI และ Anthropic เตรียมรับมือการเปิดตัวโมเดลใหญ่ครั้งต่อไปของ DeepSeek
DeepSeek บริษัทสตาร์ทอัพด้านปัญญาประดิษฐ์ (AI) จากเมืองหางโจว ประเทศจีน กำลังสร้างความปั่นป่วนในวงการ AI ทั่วโลก ด้วยการประกาศเตรียมเปิดตัวโมเดล AI รุ่นใหม่ที่คาดว่าจะมีประสิทธิภาพสูงสุดตัวหนึ่ง โดยเฉพาะอย่างยิ่ง “DeepSeek R1” โมเดลที่เน้นการใช้เหตุผลขั้นสูง ซึ่งบริษัทใหญ่ในสหรัฐอเมริกาอย่าง Google, OpenAI และ Anthropic ต่างเร่งพัฒนาและเปิดตัวโมเดลใหม่ของตนเพื่อรับมือกับการแข่งขันครั้งนี้
DeepSeek ก่อตั้งขึ้นในปี 2023 โดยทีมงานจาก High-Flyer ซึ่งเป็นบริษัทกองทุนเฮดจ์ฟันด์ชั้นนำของจีน บริษัทนี้เติบโตอย่างรวดเร็ว ด้วยการมุ่งเน้นพัฒนาโมเดลภาษาขนาดใหญ่ (Large Language Models: LLMs) ที่มีประสิทธิภาพสูงแต่ต้นทุนต่ำ โดยโมเดลก่อนหน้านี้อย่าง DeepSeek-V2 ที่เปิดตัวในเดือนพฤษภาคม 2567 มีพารามิเตอร์รวม 236 พันล้านตัว แต่ใช้งานจริงเพียง 21 พันล้านตัวผ่านเทคนิค Mixture-of-Experts (MoE) ทำให้ประสิทธิภาพเทียบเท่าโมเดลขนาดใหญ่แต่ใช้ทรัพยากรน้อยกว่า นอกจากนี้ DeepSeek-Coder-V2 ยังทำคะแนนเหนือกว่า GPT-4 Turbo ในบางเกณฑ์ทดสอบด้านการเขียนโค้ด
ล่าสุด DeepSeek ได้โพสต์บล็อกเกี่ยวกับ DeepSeek R1 ซึ่งเป็นโมเดลที่ฝึกฝนด้วยข้อมูล 14.8 ล้านล้านโทเค็น โดยใช้เทคนิค Chain-of-Thought (CoT) และ Group Relative Policy Optimization (GRPO) เพื่อยกระดับความสามารถในการใช้เหตุผล คาดว่าโมเดลนี้จะแข่งขันโดยตรงกับ OpenAI o1-preview ที่เน้นการคิดแบบหลายขั้นตอน โมเดล R1 นี้ถูกออกแบบให้ตอบสนองต่อโจทย์ซับซ้อนได้ดีขึ้น โดยเฉพาะในด้านคณิตศาสตร์ วิทยาศาสตร์ และการเขียนโค้ด ซึ่งเป็นจุดแข็งของ DeepSeek มาตั้งแต่แรก
การเคลื่อนไหวของ DeepSeek ครั้งนี้ทำให้บริษัทยักษ์ใหญ่ในสหรัฐฯ ต้องปรับกลยุทธ์อย่างเร่งด่วน Google เพิ่งเปิดตัว Gemini 2.0 Flash Thinking ซึ่งเป็นเวอร์ชันที่เพิ่มความสามารถด้านการใช้เหตุผลแบบขั้นตอนต่อขั้นตอน ในขณะที่ OpenAI เร่งปล่อย o1 และ o1-mini เพื่อรักษาความเป็นผู้นำด้าน reasoning models ส่วน Anthropic ก็อัปเดต Claude 3.5 Sonnet ให้มีประสิทธิภาพสูงขึ้น โดยทั้งสามบริษัทต่างยอมรับว่าความก้าวหน้าของ DeepSeek โดยเฉพาะในด้านประสิทธิภาพต่อต้นทุน กำลังเป็นภัยคุกคามต่อตลาดตะวันตก
สิ่งที่น่ากังวลสำหรับบริษัทอเมริกันคือ DeepSeek ไม่เพียงพัฒนาโมเดลที่ทัดเทียมหรือเหนือกว่าในบางด้าน แต่ยังเปิดซอร์สโค้ดฟรี ทำให้开发者ทั่วโลกเข้าถึงได้ง่าย ล่าสุด DeepSeek-V2.5 ได้รับความนิยมสูงใน Hugging Face โดยมีดาวน์โหลดจำนวนมาก และต้นทุนการใช้งานต่ำกว่าคู่แข่ง เช่น การรัน DeepSeek-V2 ใช้เพียง 3% ของพลังประมวลผลเมื่อเทียบกับ Llama 3.1 405B แต่ประสิทธิภาพใกล้เคียงกัน นอกจากนี้ DeepSeek ยังวางแผนเปิดตัว DeepSeek-V3 ในเร็วๆ นี้ ซึ่งมีพารามิเตอร์มากกว่า 400 พันล้านตัว โดยใช้สถาปัตยกรรม MoE ขั้นสูง Multi-head Latent Attention (MLA) และ Multi-Token Prediction (MTP) เพื่อเพิ่มความเร็วและประสิทธิภาพ
นักวิเคราะห์ในอุตสาหกรรมมองว่า ความสำเร็จของ DeepSeek มาจากการเข้าถึงชิป Nvidia H800/H20 จำนวนมาก แม้จะเผชิญข้อจำกัดจากมาตรการควบคุมการส่งออกของสหรัฐฯ แต่จีนได้พัฒนาชิปทางเลือก ทำให้ DeepSeek สามารถฝึกโมเดลขนาดยักษ์ได้ในเวลาอันสั้น ตัวอย่างเช่น DeepSeek-V2 ฝึกเสร็จใน 2.8 ล้านชั่วโมง GPU เท่านั้น สิ่งนี้สะท้อนถึงความก้าวหน้าของระบบนิเวศ AI จีนที่กำลังไล่ตามฝั่งตะวันตกอย่างรวดเร็ว
บริษัทตะวันตกกำลังตอบโต้ด้วยการลงทุนมหาศาล Google เพิ่มทีมพัฒนา reasoning models ขณะที่ OpenAI และ Anthropic มุ่งเน้น multimodal capabilities เพื่อสร้างความแตกต่าง อย่างไรก็ตาม ผู้เชี่ยวชาญอย่าง Nathan Lambert จาก Anthropic ชี้ว่า “DeepSeek กำลังบังคับให้ทุกคนต้องยกระดับเกม” โดยเฉพาะเมื่อโมเดลจีนเหล่านี้มีราคาถูกกว่า 10-20 เท่า ทำให้ธุรกิจขนาดกลางและเล็กหันมาใช้มากขึ้น
ในภาพรวม การแข่งขันครั้งนี้ไม่เพียงเปลี่ยนแปลงลำดับอันดับประสิทธิภาพบนเกณฑ์ทดสอบอย่าง LMSYS Arena หรือ MMLU แต่ยังกระทบต่อโมเดลธุรกิจ โดย DeepSeek ใช้กลยุทธ์ API ราคาถูกเพื่อดึงดูดผู้ใช้จำนวนมาก สร้างรายได้จากปริมาณ ขณะที่บริษัทอเมริกันเน้นพรีเมียม pricing หาก DeepSeek R1 ทำได้ตามคาด คาดว่าจะยิ่งเร่งให้เกิดสงครามราคาและนวัตกรรมรอบใหม่
DeepSeek ไม่หยุดแค่นี้ บริษัทประกาศแผนพัฒนาโมเดล multimodal ในอนาคต เพื่อขยายขอบเขตจาก text-only สู่ vision-language models ซึ่งจะท้าทาย Gemini และ GPT-4o โดยตรง สถานการณ์นี้บ่งชี้ว่า ปี 2025 จะเป็นปีแห่งการแข่งขันดุเดือด โดย DeepSeek กลายเป็นตัวเร่งสำคัญที่บังคับให้ผู้นำตลาดต้องปรับตัว
(จำนวนคำประมาณ 720 คำ)
This Article is sponsored by Gnoppix AI (https://www.gnoppix.org)