DeepSeek V3.2 เทียบชั้น GPT-5 และ Gemini 3 Pro บรรลุระดับเหรียญทอง IMO ในฐานะโอเพ่นซอร์ส

ดีพซีค-วี3-0324: โมเดลโอเพ่นซอร์สที่ท้าทายจีพีที-4โอ และคลอด 3.5 สอนเน็ต ทำผลงานระดับทองโอลิมปิกคณิตศาสตร์สากล

บริษัทดีพซีค (DeepSeek) ผู้พัฒนาโมเดลปัญญาประดิษฐ์ชั้นนำจากจีน ได้เปิดตัวเวอร์ชันอัปเดตของโมเดลดีพซีค-วี3 ชื่อว่า ดีพซีค-วี3-0324 ซึ่งเป็นโมเดลโอเพ่นเวท (open weights) ที่มีขนาดใหญ่ถึง 671 พันล้านพารามิเตอร์ โดยโมเดลนี้แสดงศักยภาพในการแข่งขันกับโมเดลปิดชั้นนำอย่างจีพีที-4โอ (GPT-4o) จากโอเพ่นเอไอ คลอด 3.5 สอนเน็ต (Claude 3.5 Sonnet) จากแอนทропิก และเจมีนี่ 1.5 โปร (Gemini 1.5 Pro) จากกูเกิล ในหลากหลายเกณฑ์มาตรฐาน โดยเฉพาะอย่างยิ่งในด้านคณิตศาสตร์และการเขียนโค้ด

จุดเด่นที่สำคัญที่สุดคือ ดีพซีค-วี3-0324 สามารถทำคะแนนในประกวดโอลิมปิกคณิตศาสตร์สากล (International Mathematical Olympiad: IMO) ได้ถึงระดับเหรียญทอง โดยทำคะแนนรวม 49.4% ซึ่งเทียบเท่าระดับเหรียญเงิน และเมื่อใช้เทคนิคโหวตส่วนใหญ่ (majority voting) คะแนนพุ่งสูงถึง 79.8% ซึ่งเทียบเท่าระดับเหรียญทอง ทำให้เป็นโมเดลโอเพ่นซอร์สโมเดลแรกที่บรรลุระดับนี้ การทดสอบ IMO 2024 ประกอบด้วยปัญหา 6 ข้อที่ท้าทาย โดยโมเดลต้องแก้ปัญหาเหล่านี้ด้วยการให้เหตุผลทีละขั้นตอน (chain-of-thought) ซึ่งดีพซีค-วี3-0324 แสดงให้เห็นถึงความสามารถในการแก้ปัญหาคณิตศาสตร์ขั้นสูงที่เทียบเคียงกับมนุษย์ระดับสูงสุด

ในด้านเกณฑ์มาตรฐานอื่นๆ โมเดลนี้ทำผลงานเหนือกว่าโมเดลชั้นนำหลายตัว ดังนี้:

  • MMLU-Pro: คะแนน 75.9% สูงกว่าคลอด 3.5 สอนเน็ต (74.5%) และจีพีที-4โอ (74.8%)
  • GPQA Diamond: คะแนน 59.1% สูงกว่าคลอด 3.5 สอนเน็ต (53.6%)
  • MATH-500: คะแนน 94.5% สูงกว่าคลอด 3.5 สอนเน็ต (93.7%)
  • LiveCodeBench: คะแนน 65.9% สูงกว่าคลอด 3.5 สอนเน็ต (62.0%) และไลม์ไวร์โค้ด (LMArena Hard) คะแนน 35.5% สูงกว่าคลอด 3.5 สอนเน็ต (26.9%)
  • AIME 2024/2025: คะแนน 70.0% และ 72.0% ตามลำดับ สูงกว่าคลอด 3.5 สอนเน็ต

นอกจากนี้ ในเกณฑ์มาตรฐาน Arena Hard (เวอร์ชัน 0625) ดีพซีค-วี3-0324 ทำคะแนน Elo สูงถึง 1,378 สูงกว่าคลอด 3.5 สอนเน็ต (1,363) และเจมีนี่ 2.5 โปร (1,357) ซึ่งสะท้อนถึงประสิทธิภาพในสถานการณ์จริงที่หลากหลาย

โครงสร้างทางเทคนิคของดีพซีค-วี3-0324 ใช้สถาปัตยกรรม Mixture-of-Experts (MoE) ขนาด 671 พันล้านพารามิเตอร์ โดยมี experts 256 ตัวต่อเลเยอร์ และเปิดใช้งานเพียง 37 พารามิเตอร์ต่อโทเค็น ทำให้มีประสิทธิภาพสูงในการประมวลผล โมเดลนี้รองรับความยาวคอนเท็กซ์สูงสุด 128,000 โทเค็น และใช้รูปแบบการฝึก Multi-head Latent Attention (MLA) ร่วมกับเทคนิค Multi-Token Prediction (MTP) เพื่อเพิ่มประสิทธิภาพในการเรียนรู้

กระบวนการฝึกโมเดลใช้ข้อมูล 14.8 ล้านล้านโทเค็น โดยแบ่งเป็น 8.1 ล้านล้านโทเค็นสำหรับ pre-training และ 6.7 ล้านล้านโทเค็นสำหรับการฝึกคณิตศาสตร์เฉพาะทาง การฝึก pre-training ใช้เวลา 2.664 ล้านชั่วโมง GPU บนคลัสเตอร์ Nvidia H800 ขนาด 2.788 ล้าน GPU และการฝึกคณิตศาสตร์ใช้เวลา 55,000 ชั่วโมง GPU นอกจากนี้ ยังมีการปรับแต่งด้วย Reinforcement Learning from AI Feedback (RLAIF) เพื่อเสริมความสามารถในการให้เหตุผล

ด้านประสิทธิภาพการใช้งาน ดีพซีค-วี3-0324 มีความเร็วในการสร้างโทเค็น (tokens per second) สูงถึง 24 เท่าของโมเดล Llama3 405B บนฮาร์ดแวร์เดียวกัน และใช้หน่วยความจำ VRAM เพียง 376 GB สำหรับการประมวลผล ทำให้เหมาะสำหรับการใช้งานในองค์กรที่ต้องการต้นทุนต่ำ โดยมีค่าใช้จ่ายในการ inference เพียง 0.14 ดอลลาร์ต่อล้านโทเค็น (input) และ 0.28 ดอลลาร์ต่อล้านโทเค็น (output) บนแพลตฟอร์ม DeepSeek API ซึ่งถูกกว่าคลาวด์ชั้นนำถึง 30 เท่า

โมเดลนี้เปิดให้ใช้งานภายใต้ใบอนุญาต MIT ซึ่งอนุญาตให้ดาวน์โหลด นำไปปรับใช้ และนำไปใช้ในเชิงพาณิชย์ได้อย่างอิสระ สามารถดาวน์โหลดได้จาก Hugging Face และใช้งานผ่านแพลตฟอร์ม DeepSeek Platform นอกจากนี้ ยังมีเวอร์ชันแชท (DeepSeek-V3-Chat-0324) ที่ปรับแต่งสำหรับการสนทนาและงานเฉพาะทาง

การเปิดตัวดีพซีค-วี3-0324 ถือเป็นก้าวสำคัญของวงการปัญญาประดิษฐ์โอเพ่นซอร์ส โดยพิสูจน์ให้เห็นว่าโมเดลขนาดใหญ่จากจีนสามารถแข่งขันกับยักษ์ใหญ่จากตะวันตกได้อย่างสูสี โดยเฉพาะในด้านคณิตศาสตร์และการเขียนโปรแกรม ซึ่งจะช่วยลดช่องว่างระหว่างโมเดลปิดและโอเพ่นซอร์ส ส่งเสริมการพัฒนานวัตกรรมในภาคธุรกิจและวิจัยทั่วโลก

(จำนวนคำประมาณ 728 คำ)

This Article is sponsored by Gnoppix AI (https://www.gnoppix.org)