DeepSeek V4-Pro/Flash がアツい：1.6T MoE を Opus 4.7 の1/6 価格で投げ込んできた中国オープンウェイトの一手

はじめに

2026年4月24日、DeepSeek が V4 Preview を発表してウェイトを同時公開しました¹。ラインアップは2本立てで、フラッグシップの V4-Pro が1.6T 総パラメータ／49B アクティブ、軽量側の V4-Flash が284B 総／13B アクティブ。両方とも 1M トークンのコンテキストが標準で、Thinking / Non-Thinking のデュアルモードを備えています¹²。

数字の異常さがいくつかあります。競技コーディング系（LiveCodeBench、Codeforces、Apex Shortlist）の比較表で V4-Pro-Max が単独首位を取り、SWE-Bench Verified では Claude Opus 4.6 と実質同点（80.6 vs 80.8）まで詰めました²。それでいて API 価格は V4-Pro が GPT-5.5/Opus 4.7 比で約65%安、V4-Flash の出力単価に至っては約99%安（$0.28/1M tok vs $30/1M tok）です³⁴。

ただし、最新世代のクローズド（GPT-5.5、Claude Opus 4.7）に対しては HLE や Terminal-Bench 2.0、SWE-Bench Pro で明確に劣後する領域もあり、「全方位フロンティア互角」ではありません⁴。本記事は、性能・比較・比較優位ユースケースの順で、現実的なポジションを整理します。

DeepSeek V4-Pro / V4-Flash 概要 — 1.6T MoE と 1M context が標準

モデル性能：1.6T MoE で競技コーディング世界一、SWE-Bench で Opus 4.6 に並ぶ

まずモデルの基礎仕様を整理します。

モデル	総パラメータ	アクティブ	コンテキスト	推論モード
V4-Pro	1.6T	49B	1M	Non-think / Think / Think Max
V4-Pro-Max	（V4-Pro の最大努力モード）	49B	1M	Think Max のみ
V4-Flash	284B	13B	1M	Non-think / Think

V4-Pro は MoE 構成で、1.6T の知識量を持ちながら 1 トークンあたりの活性化は 49B に抑えています²。Pro と Flash の違いは「Pro=深い推論で品質、Flash=コスト最適で速度」という棲み分けです。

ベンチを見るとアツさが分かります。HuggingFace 公式モデルカード掲載の比較表（V4-Pro-Max vs 旧世代フロンティア）から、コーディング・推論系の主要数値を抜粋します²。

ベンチマーク	V4-Pro Max	Opus-4.6 Max	GPT-5.4 xHigh	Gemini-3.1-Pro	K2.6 Thinking
LiveCodeBench	93.5	88.8	—	91.7	89.6
Codeforces (rating)	3206	—	3168	3052	—
Apex Shortlist	90.2	85.9	78.1	89.1	75.5
SWE-Bench Verified	80.6	80.8	—	80.6	80.2
HMMT 2026 Feb	95.2	96.2	97.7	94.7	92.7
GPQA Diamond	90.1	91.3	93.0	94.3	90.5
MRCR 1M (long ctx)	83.5	92.9	—	76.3	—

注目どころは3つあります。

競技コーディング3冠：LiveCodeBench 93.5、Codeforces レーティング 3206、Apex Shortlist 90.2 はいずれもこの比較表で V4-Pro-Max が単独首位です。Codeforces 3206 は人間トップ層（Grandmaster クラス）の領域で、コード生成側で Gemini 3.1 Pro と GPT-5.4 を抜きました²。
SWE-Bench Verified が Opus 4.6 と実質同点：80.6 vs 80.8 は誤差レベル。Gemini 3.1 Pro とは完全同点です。実リポジトリの GitHub Issue 解決ベンチで、ついに MIT ライセンスのオープンウェイトが80% 帯に入った形です。
長文脈リコールは2位：1M MRCR で Opus 4.6 (92.9) に次ぐ 83.5。Gemini 3.1 Pro の 76.3 を上回り、1M context が「載るだけ」ではなく「リコールできる」ことを示しました。

逆に、純粋な知識量・QA 精度（SimpleQA、HLE、GPQA Diamond）では Gemini 3.1 Pro が圧倒的に強く、V4 はここで差を付けられています。

V4-Pro Max が制した競技コーディング3冠とSWE-Bench Verified の並走

性能の正体：DSA + mHC + 1M コンテキストの経済性

この性能を成立させているのが、DeepSeek が今回投入した3つの構造改良です¹²⁵。

Hybrid Attention（CSA + HCA）：Compressed Sparse Attention と Heavily Compressed Attention の組み合わせ。公式発表上は “DSA (DeepSeek Sparse Attention)” + Token-wise compression のブランドで一括表記されています。1M context での 推論 FLOPs が V3.2 比 27%、KV キャッシュは 10% まで圧縮⁵。
Manifold-Constrained Hyper-Connections (mHC)：1.6T MoE のような巨大ネットワークで残差信号を安定伝播させるための仕組み。学習中の勾配不安定を抑え、トリリオン級 MoE が「安定して収束する」ことを可能にしました。
FP4 + FP8 Mixed Precision：MoE の expert パラメータを FP4、その他を FP8 にする混合精度。32T+ tokens の学習を Muon optimizer で回しつつ、推論時のメモリ帯域も削減⁵。

ここで効いてくるのが 「1M context が標準で、しかも経済的に成立している」 という事実です。GPT-5.5 / Opus 4.7 も 1M context は提供していますが、フル活用すると1リクエスト数ドル単位になり気軽には使えません。V4-Pro は同じ 1M に対して入力単価 $1.74/1M で、しかも KV キャッシュが 1/10 のため運用側の GPU 帯域も軽い、という二重の有利を取りに来ています。

DSA + mHC + 1M context — V3.2比で推論FLOPs 27%・KV cache 10%

オープン陣営での位置取り：Qwen3.6-27B / GLM-5.1 / Kimi K2.6 と何が違う

オープンウェイト勢の中で V4 がどこに立つか。直近2か月のリリースと並べると、戦略の方向が真逆であることが分かります。

モデル	サイズ	戦略の方向	強み
Qwen3.6-27B (4/22)	27B dense	圧倒的に小さく寄せる	ローカル実行、Apache 2.0、SWE-Verified 77.2
GLM-5.1 Thinking	（MoE）	中堅サイズで価格訴求	コスト効率、SWE-Pro 58.4
Kimi K2.6 Thinking	（MoE）	推論モードで品質追求	SWE-Pro 58.6（オープン勢首位）
DeepSeek V4-Pro	1.6T / 49B	規模の暴力 + 経済性両立	競技コーディング3冠、1M context 実用化

Qwen3.6-27B は「ローカル GPU でフラッグシップ級が動く」方向に最適化したのに対し、V4-Pro は 「クラウド API 前提だが、規模で押し切ってクローズドに迫る」 という真逆のアプローチです。両者は同じオープンウェイトでも狙う市場が違っていて、開発者は使い分けることになります。

24GB GPU や Mac で動かしたい → Qwen3.6-27B
API で 1M context をフルに使いたい / 規模が必要 → DeepSeek V4-Pro
SWE-Bench Pro 重視のエージェント → Kimi K2.6 か GLM-5.1
マルチリンガル + 中国語特化 → V4-Pro（Chinese-SimpleQA 84.4）

V4 が単独で勝った領域は 競技コーディング、長文脈、中国語 QA、価格効率 の4つです。

クローズド最新との現実的ギャップ：GPT-5.5 / Opus 4.7 にはまだ届かない領域

ただし、最新世代のクローズドフラッグシップ（GPT-5.5、Claude Opus 4.7、GPT-5.5 Pro）に対しては正直に劣後します。VentureBeat 集計から、現行最新と直接比較した数値です⁴。

ベンチマーク	V4-Pro Max	GPT-5.5	GPT-5.5 Pro	Opus 4.7
Terminal-Bench 2.0	67.9	82.7	—	69.4
SWE-Bench Pro	55.4	58.6	—	64.3
MCP Atlas	73.6	75.3	—	79.1
HLE (no tools)	37.7	41.4	43.1	46.9
HLE (with tools)	48.2	52.2	57.2	54.7
BrowseComp	83.4	84.4	—	79.3

差が目立つのは Terminal-Bench 2.0（GPT-5.5 が +14.8pt）、SWE-Bench Pro（Opus 4.7 が +8.9pt）、HLE（Opus 4.7 が +9.2pt）の3つです。長期エージェント実行・ハード推論・専門知識の領域では、現行最新のクローズドが頭ひとつ抜けています。

ただし BrowseComp（Web ブラウジング・エージェント）では V4 が Opus 4.7 を上回り、GPT-5.5 とは 1pt 差。長時間ループしないシングルクエリ系のエージェントでは、価格差を考えると V4 を選ぶのが合理的、という構造です。

DeepSeek 自身も「ベンチで全勝した」とは言っておらず、CNBC レポートでは Counterpoint アナリストが 「コスト比で見たエージェント能力に強み」 とコメントしています⁶。

V4-Pro Max は最新クローズドにまだ届かない領域があるが、価格差で逆転する用途は多い

1/6〜1/100 の価格破壊

最大の差別化要因は価格です。1M トークン単位で並べます³⁴。

モデル	Input ($)	Output ($)	コンテキスト
V4-Pro	1.74	3.48	1M
V4-Flash	0.14	0.28	1M
GPT-5.5	5.00	30.00	1M
Claude Opus 4.7	5.00	25.00	1M
Gemini 3.1 Pro	2.00	12.00	—

V4-Pro は 入力で65%安、出力で86%安。V4-Flash の出力 $0.28 は GPT-5.5 比で99%以上安く、Mashable 試算では「$5.22 で済む V4 タスクが GPT-5.5 だと $35」というオーダー差になります³。

これが効くのは、以下のような 「品質より試行回数で殴る」 用途です。

大量並列の RAG / 文書要約バッチ
アイデア生成・variant explorations
検索エージェントの中間ステップ（最終ステップだけ高品質モデルに投げる）
開発時のプロトタイピング・ユニットテスト生成

逆に「失敗が高くつく1ショット推論」（製品コードのリリース判断、医療・金融の意思決定）では、最新クローズドの優位性が価格差を正当化します。

V4-Flash の出力単価は GPT-5.5 比 99%安——試行回数で殴る用途には決定打

比較優位を活かす3つのユースケース

ここまでの整理を踏まえ、V4 を「アツい」と感じられる具体的な使い方を3つ。

1. agentic コーディングを V4-Pro で常時駆動

Claude Code / OpenClaw / OpenCode は V4 と公式統合されており、API は OpenAI ChatCompletions と Anthropic API の両方互換です¹。base_url を https://api.deepseek.com に向けて model を deepseek-v4-pro にするだけで、既存の Cline / Claude Code セットアップが V4 駆動になります。

SWE-Bench Verified 80.6 の品質を出力 $3.48/1M tok で回せる、というのは 「常時バックグラウンドでリポジトリを触らせる」 運用が現実的になったということです。Claude Code を Opus 4.7 で常時動かすと月額コストが跳ねますが、V4-Pro なら同等のループを 1/7 程度のコストで回せます。

2. V4-Flash で1M context の RAG パイプラインを大量バッチ

V4-Flash は出力 $0.28/1M tok で 1M context を提供します。これは 「数千件の長文ドキュメントに同じ質問を投げ続ける」 RAG / 分析バッチで決定打になります。

具体例：

法務 / 契約書の差分抽出を全社契約 5000 件にバッチ実行
過去5年分の Slack ログから「特定プロジェクトの意思決定経緯」を全部走らせて再構成
論文 1000 本に対して「特定手法の実装可否」をフル本文で判定

GPT-5.5 でこれをやると6桁ドル単位、V4-Flash なら3桁〜4桁ドル単位に収まります。

3. MIT ライセンス + ウェイト公開で規制業界のオンプレ展開

V4 は MIT License で重みが公開されています²。商用利用も改変も再配布も自由で、これは規制業界（金融・医療・防衛・政府）にとって決定的に重要です。

クラウド API に投げられない機密データを抱える組織でも、V4-Pro のウェイトを社内 GPU クラスタに展開すれば、Opus 4.6 同等の SWE-Bench スコアを社内データだけで回せます。FP4/FP8 mixed precision なので、H200/B200 8 枚クラスタで 1M context まで現実的に走らせられる構成です。

注意点：手放しで称賛できない部分

ここまでアツさを語ってきましたが、冷静に見るべき点もあります。

Preview ステータス：V4 は “Preview” として公開されており、安定版ではありません¹。本番採用前に、自社のスキャフォールドや MCP 統合での再評価が必要です。

最新クローズドとの差：Terminal-Bench 2.0、SWE-Bench Pro、HLE では GPT-5.5 / Opus 4.7 にまだ追いついていません⁴。「フロンティア互角」とまでは言えず、「near-frontier を1/6 で出してきた」 という表現が正確です。

ベンチ評価の前提：HuggingFace 掲載スコアは DeepSeek 内製の評価環境込みです。第三者の独立再現は2026年4月25日時点で限定的なので、自社ユースケースで触ってみるのが堅実です。

deepseek-chat / deepseek-reasoner の廃止：旧モデルは2026-07-24 15:59 UTC で完全廃止予定¹。既存実装は順次マイグレーションが必要です。

まとめ

DeepSeek V4-Pro/Flash のアツいポイントを整理します。

性能のアツさ：

LiveCodeBench 93.5、Codeforces 3206、Apex Shortlist 90.2 で競技コーディング3冠
SWE-Bench Verified 80.6 で Opus 4.6 (80.8) と実質同点
1M MRCR 83.5 で長文脈リコール2位（Gemini 3.1 Pro を上回る）

経済性のアツさ：

V4-Pro は GPT-5.5/Opus 4.7 比で出力 86%安
V4-Flash の出力 $0.28/1M tok は GPT-5.5 比 99%安
DSA で 1M context 推論 FLOPs が V3.2 比 27%、KV cache 10%

運用のアツさ：

MIT License でウェイト公開、商用利用・改変自由
Claude Code / OpenClaw / OpenCode と公式統合
OpenAI ChatCompletions / Anthropic API 互換、base_url 切り替えのみ

現実的な限界：

GPT-5.5 / Opus 4.7 に Terminal-Bench / SWE-Bench Pro / HLE で劣後
Preview ステータス、第三者再現は限定的
知識集約 QA は Gemini 3.1 Pro が依然強い

Qwen3.6-27B が「ローカル実行で Opus 級」を出してきた直後に、DeepSeek が「クラウド API で 1.6T 規模を1/6価格」を投げ込んできた格好です。フロンティア性能を求める層（Opus 4.7 / GPT-5.5）と、コスト効率を求める層（V4-Pro/Flash）の二極化が、2026年春のオープン／クローズド構図を決定づけています。週末に deepseek-v4-flash を Cline か Claude Code に挿して、自分のリポジトリで Opus とのコスト/品質曲線を引いてみるのが一番速い理解の仕方です。