AIの勢力図を塗り替える超効率アーキテクチャ：DeepSeek-V3が提示する巨大言語モデルの新基準

DeepSeek-V3は、総パラメータ数671B、トークンごとのアクティブパラメータ数37Bを実現した大規模混合エキスパート（MoE）言語モデルである。MLA（Multi-head Latent Attention）や補助損失なしのロードバランス戦略、マルチトークン予測（MTP）などの革新的なアーキテクチャを採用し、14.8兆トークンに及ぶ膨大なデータセットで事前学習を行うことで、既存のクローズドモデルに匹敵する性能を極めて高い訓練効率で達成した。

AIの勢力図を塗り替える超効率アーキテクチャ：DeepSeek-V3が提示する巨大言語モデルの新基準 Vol. 2025 • No. 1 Slideify Arxiv Research Feb 18, 2025 DeepSeek-V3 Technical Report AIの勢力図を塗り替える超効率アーキテクチャ：巨大言語モデルの新基準 DeepSeek-AI • DeepSeek-AI Research Team ☞ In Brief 総パラメータ671B（アクティブ37B）のMoE構造により、クローズドモデルに匹敵する知能と高効率推論を両立。補助損失なしのロードバランスとFP8混合精度訓練により、従来の常識を覆す低コスト・高安定な訓練プロセスを確立。数学（MATH-500: 90.2%）やコーディング性能において、GPT-4oやo1-previewを凌駕するベンチマーク結果を記録。 2024年から2025年にかけて、大規模言語モデル（LLM）の世界は「計算資源の暴力」から「アルゴリズムの洗練」へとその主戦場を移しました。その中心に君臨するのが、中国のDeepSeek-AIが発表した DeepSeek-V3 です。このモデルは、単なる「巨大なモデル」ではありません。671Bという膨大なパラメータを持ちながら、計算コストを最小限に抑え、クローズドモデルの覇者であるGPT-4oやClaude 3.5 Sonnetに真っ向から挑む、オープンソース界の「ゲームチェンジャー」です。本稿では、テクニカルレポートに基づき、DeepSeek-V3がどのようにして驚異的な性能とコストパフォーマンスを実現したのか、その内部構造を深掘りします。 § 歴史的背景：MoEの進化大規模言語モデルの発展において、パラメータ数の増大は知能向上の鍵でした。しかし、すべてのパラメータを毎トークン計算していては、推論コストが指数関数的に増大します。これを解決したのが Mixture-of-Experts (MoE) 技術です。GoogleのSwitch TransformerやGShardから始まったこの流れは、モデルの一部（専門家）のみを動的に呼び出すことで、巨大さと速さを両立させました。 DeepSeekは、先行するDeepSeek-V2において、独自の MLA (Multi-head Latent Attention) を導入し、推論時のメモリネックとなるKVキャッシュの問題を劇的に改善しました。V3は、この成功体験をベースに、さらに「訓練の安定性」と「予測精度の極限化」を追求した集大成と言えます。 Fig 1. DeepSeek-V3 Architecture Blueprint Input Tokens MLA Compressed KV MoE Layer Router Prediction (Next Tokens) Figure 1: DeepSeek-V3 Architecture Overview. MLA efficiently compresses memory, while the MoE Router dynamically selects experts. アーキテクチャの核心 Multi-head Latent Attention (MLA) MLAは、アテンション機構における「KVキャッシュ」の爆発を抑える技術です。低ランク圧縮を用いることで、モデルの表現力を維持したまま、キャッシュ量を従来の数分の一に削減します。これにより、長いコンテキスト（最大128K）の処理が可能となります。補助損失なしのロードバランス従来のMoEでは、特定の「専門家（Expert）」に計算が偏るのを防ぐため、補助的な損失関数（Auxiliary Loss）を導入していました。しかし、これは本来の学習目的を阻害する副作用がありました。DeepSeek-V3は、各専門家に「バイアス値」を導入し、動的にルーティングを調整する戦略を世界で初めて大規模に適用しました。これにより、学習の質を落とさずに、計算リソースの均一な利用を実現しています。 // FP8 Quantization Logic Tile Quantization: 1x128 tiles Block Quantization: 128x128 blocks Cost: $5.576M USD (2.788M GPU Hours) FP8混合精度訓練 DeepSeek-V3の訓練における最大の技術的進歩は、 FP8（8ビット浮動小数点数）の全面的な採用です。従来の学習ではBF16やFP16が主流でしたが、DeepSeekは独自の量子化フレームワークを開発しました。タイル単位およびブロック単位の量子化により、演算精度を維持しつつ、メモリ帯域を節約し、H800 GPUの性能を極限まで引き出しました。結果として、 278.8万GPU時間、わずか 557.6万ドルという、競合他社が数億ドルを投じる規模の学習を、桁違いに安価に成し遂げました。マルチトークン予測 (MTP) DeepSeek-V3のもう一つのユニークな特徴は、 Multi-Token Prediction (MTP) です。これは、各位置において次の1つのトークンだけでなく、将来の複数のトークンを同時に予測する仕組みです。 L MTP = (λ / D) * Σ L k MTP この手法により、モデルは文脈の「先読み」が可能になり、表現の計画性が向上します。さらに、推論時にはこのMTPモジュールを「投機的デコーディング」に再利用でき、生成速度を1.8倍に加速させることに成功しています。 * * * 性能比較：世界最高峰の数字 Figure 2: Benchmark comparison across key domains (Knowledge, Math, Code). DeepSeek-V3と主要な競合モデルのベンチマーク比較において、特に数学（90.2）とコード（82.6）で、DeepSeek-V3は他の追随を許さない圧倒的な性能を示しています。 Metric / Model DeepSeek-V3 Llama-3.1 405B GPT-4o Claude 3.5 MMLU (Knowledge) 88.5 88.6 87.2 88.3 MATH-500 (Math) 90.2 73.8 74.6 78.3 HumanEval (Code) 82.6 77.2 80.5 81.7 Cost (Est.) ~$5.6M ~$100M+ N/A N/A "DeepSeek-V3は、オープンソースAIがクローズドモデルの後を追うだけの時代が終わったことを告げる金字塔です。" 現代の応用と未来への展望 DeepSeek-V3の成功は、ChatGPT（OpenAI）やClaude（Anthropic）といった先行者に対し、「効率的なアルゴリズムこそが真の知能を生む」というメッセージを送っています。現在、このモデルはGitHub Copilotのようなコーディング支援や、複雑な数学的問題解決、さらには高度な多言語翻訳タスクにおいて、既に実用レベルの性能を発揮しています。今後は、この高効率なアーキテクチャをベースに、さらにパラメータを拡大した「V4」や、より推論能力に特化したモデルの登場が期待されます。また、FP8訓練の安定性が証明されたことで、他社のモデル開発手法にも大きな影響を与えることは間違いありません。 References DeepSeek-AI (2024). DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model. Vaswani et al. (2017). Attention Is All You Need. AI@Meta (2024). Llama 3.1 Model Card. Gloeckle et al. (2024). Better & Faster Large Language Models via Multi-token Prediction. Wang et al. (2024). Auxiliary-Loss-Free Load Balancing Strategy for Mixture-of-Experts. © 2025 Slideify.app • Generated by Slideify Arxiv