DeepSeek V4-Pro/Flash がアツい:1.6T MoE を Opus 4.7 の1/6 価格で投げ込んできた中国オープンウェイトの一手

はじめに

2026年4月24日、DeepSeek が V4 Preview を発表してウェイトを同時公開しました1。ラインアップは2本立てで、フラッグシップの V4-Pro が1.6T 総パラメータ/49B アクティブ、軽量側の V4-Flash が284B 総/13B アクティブ。両方とも 1M トークンのコンテキストが標準で、Thinking / Non-Thinking のデュアルモードを備えています12

数字の異常さがいくつかあります。競技コーディング系(LiveCodeBench、Codeforces、Apex Shortlist)の比較表で V4-Pro-Max が単独首位を取り、SWE-Bench Verified では Claude Opus 4.6 と実質同点(80.6 vs 80.8)まで詰めました2。それでいて API 価格は V4-Pro が GPT-5.5/Opus 4.7 比で約65%安、V4-Flash の出力単価に至っては約99%安($0.28/1M tok vs $30/1M tok)です34

ただし、最新世代のクローズド(GPT-5.5、Claude Opus 4.7)に対しては HLE や Terminal-Bench 2.0、SWE-Bench Pro で明確に劣後する領域もあり、「全方位フロンティア互角」ではありません4。本記事は、性能・比較・比較優位ユースケースの順で、現実的なポジションを整理します。

DeepSeek V4-Pro / V4-Flash 概要 — 1.6T MoE と 1M context が標準

モデル性能:1.6T MoE で競技コーディング世界一、SWE-Bench で Opus 4.6 に並ぶ

まずモデルの基礎仕様を整理します。

モデル総パラメータアクティブコンテキスト推論モード
V4-Pro1.6T49B1MNon-think / Think / Think Max
V4-Pro-Max(V4-Pro の最大努力モード)49B1MThink Max のみ
V4-Flash284B13B1MNon-think / Think

V4-Pro は MoE 構成で、1.6T の知識量を持ちながら 1 トークンあたりの活性化は 49B に抑えています2。Pro と Flash の違いは「Pro=深い推論で品質、Flash=コスト最適で速度」という棲み分けです。

ベンチを見るとアツさが分かります。HuggingFace 公式モデルカード掲載の比較表(V4-Pro-Max vs 旧世代フロンティア)から、コーディング・推論系の主要数値を抜粋します2

ベンチマークV4-Pro MaxOpus-4.6 MaxGPT-5.4 xHighGemini-3.1-ProK2.6 Thinking
LiveCodeBench93.588.891.789.6
Codeforces (rating)320631683052
Apex Shortlist90.285.978.189.175.5
SWE-Bench Verified80.680.880.680.2
HMMT 2026 Feb95.296.297.794.792.7
GPQA Diamond90.191.393.094.390.5
MRCR 1M (long ctx)83.592.976.3

注目どころは3つあります。

  1. 競技コーディング3冠:LiveCodeBench 93.5、Codeforces レーティング 3206、Apex Shortlist 90.2 はいずれもこの比較表で V4-Pro-Max が単独首位です。Codeforces 3206 は人間トップ層(Grandmaster クラス)の領域で、コード生成側で Gemini 3.1 Pro と GPT-5.4 を抜きました2
  2. SWE-Bench Verified が Opus 4.6 と実質同点:80.6 vs 80.8 は誤差レベル。Gemini 3.1 Pro とは完全同点です。実リポジトリの GitHub Issue 解決ベンチで、ついに MIT ライセンスのオープンウェイトが80% 帯に入った形です。
  3. 長文脈リコールは2位:1M MRCR で Opus 4.6 (92.9) に次ぐ 83.5。Gemini 3.1 Pro の 76.3 を上回り、1M context が「載るだけ」ではなく「リコールできる」ことを示しました。

逆に、純粋な知識量・QA 精度(SimpleQA、HLE、GPQA Diamond)では Gemini 3.1 Pro が圧倒的に強く、V4 はここで差を付けられています。

V4-Pro Max が制した競技コーディング3冠とSWE-Bench Verified の並走

性能の正体:DSA + mHC + 1M コンテキストの経済性

この性能を成立させているのが、DeepSeek が今回投入した3つの構造改良です125

  • Hybrid Attention(CSA + HCA):Compressed Sparse Attention と Heavily Compressed Attention の組み合わせ。公式発表上は “DSA (DeepSeek Sparse Attention)” + Token-wise compression のブランドで一括表記されています。1M context での 推論 FLOPs が V3.2 比 27%、KV キャッシュは 10% まで圧縮5
  • Manifold-Constrained Hyper-Connections (mHC):1.6T MoE のような巨大ネットワークで残差信号を安定伝播させるための仕組み。学習中の勾配不安定を抑え、トリリオン級 MoE が「安定して収束する」ことを可能にしました。
  • FP4 + FP8 Mixed Precision:MoE の expert パラメータを FP4、その他を FP8 にする混合精度。32T+ tokens の学習を Muon optimizer で回しつつ、推論時のメモリ帯域も削減5

ここで効いてくるのが 「1M context が標準で、しかも経済的に成立している」 という事実です。GPT-5.5 / Opus 4.7 も 1M context は提供していますが、フル活用すると1リクエスト数ドル単位になり気軽には使えません。V4-Pro は同じ 1M に対して入力単価 $1.74/1M で、しかも KV キャッシュが 1/10 のため運用側の GPU 帯域も軽い、という二重の有利を取りに来ています。

DSA + mHC + 1M context — V3.2比で推論FLOPs 27%・KV cache 10%

オープン陣営での位置取り:Qwen3.6-27B / GLM-5.1 / Kimi K2.6 と何が違う

オープンウェイト勢の中で V4 がどこに立つか。直近2か月のリリースと並べると、戦略の方向が真逆であることが分かります。

モデルサイズ戦略の方向強み
Qwen3.6-27B (4/22)27B dense圧倒的に小さく寄せるローカル実行、Apache 2.0、SWE-Verified 77.2
GLM-5.1 Thinking(MoE)中堅サイズで価格訴求コスト効率、SWE-Pro 58.4
Kimi K2.6 Thinking(MoE)推論モードで品質追求SWE-Pro 58.6(オープン勢首位)
DeepSeek V4-Pro1.6T / 49B規模の暴力 + 経済性両立競技コーディング3冠、1M context 実用化

Qwen3.6-27B は「ローカル GPU でフラッグシップ級が動く」方向に最適化したのに対し、V4-Pro は 「クラウド API 前提だが、規模で押し切ってクローズドに迫る」 という真逆のアプローチです。両者は同じオープンウェイトでも狙う市場が違っていて、開発者は使い分けることになります。

  • 24GB GPU や Mac で動かしたい → Qwen3.6-27B
  • API で 1M context をフルに使いたい / 規模が必要 → DeepSeek V4-Pro
  • SWE-Bench Pro 重視のエージェント → Kimi K2.6 か GLM-5.1
  • マルチリンガル + 中国語特化 → V4-Pro(Chinese-SimpleQA 84.4)

V4 が単独で勝った領域は 競技コーディング、長文脈、中国語 QA、価格効率 の4つです。

クローズド最新との現実的ギャップ:GPT-5.5 / Opus 4.7 にはまだ届かない領域

ただし、最新世代のクローズドフラッグシップ(GPT-5.5、Claude Opus 4.7、GPT-5.5 Pro)に対しては正直に劣後します。VentureBeat 集計から、現行最新と直接比較した数値です4

ベンチマークV4-Pro MaxGPT-5.5GPT-5.5 ProOpus 4.7
Terminal-Bench 2.067.982.769.4
SWE-Bench Pro55.458.664.3
MCP Atlas73.675.379.1
HLE (no tools)37.741.443.146.9
HLE (with tools)48.252.257.254.7
BrowseComp83.484.479.3

差が目立つのは Terminal-Bench 2.0(GPT-5.5 が +14.8pt)、SWE-Bench Pro(Opus 4.7 が +8.9pt)、HLE(Opus 4.7 が +9.2pt)の3つです。長期エージェント実行・ハード推論・専門知識の領域では、現行最新のクローズドが頭ひとつ抜けています。

ただし BrowseComp(Web ブラウジング・エージェント)では V4 が Opus 4.7 を上回り、GPT-5.5 とは 1pt 差。長時間ループしないシングルクエリ系のエージェントでは、価格差を考えると V4 を選ぶのが合理的、という構造です。

DeepSeek 自身も「ベンチで全勝した」とは言っておらず、CNBC レポートでは Counterpoint アナリストが 「コスト比で見たエージェント能力に強み」 とコメントしています6

V4-Pro Max は最新クローズドにまだ届かない領域があるが、価格差で逆転する用途は多い

1/6〜1/100 の価格破壊

最大の差別化要因は価格です。1M トークン単位で並べます34

モデルInput ($)Output ($)コンテキスト
V4-Pro1.743.481M
V4-Flash0.140.281M
GPT-5.55.0030.001M
Claude Opus 4.75.0025.001M
Gemini 3.1 Pro2.0012.00

V4-Pro は 入力で65%安、出力で86%安。V4-Flash の出力 $0.28 は GPT-5.5 比で99%以上安く、Mashable 試算では「$5.22 で済む V4 タスクが GPT-5.5 だと $35」というオーダー差になります3

これが効くのは、以下のような 「品質より試行回数で殴る」 用途です。

  • 大量並列の RAG / 文書要約バッチ
  • アイデア生成・variant explorations
  • 検索エージェントの中間ステップ(最終ステップだけ高品質モデルに投げる)
  • 開発時のプロトタイピング・ユニットテスト生成

逆に「失敗が高くつく1ショット推論」(製品コードのリリース判断、医療・金融の意思決定)では、最新クローズドの優位性が価格差を正当化します。

V4-Flash の出力単価は GPT-5.5 比 99%安——試行回数で殴る用途には決定打

比較優位を活かす3つのユースケース

ここまでの整理を踏まえ、V4 を「アツい」と感じられる具体的な使い方を3つ。

1. agentic コーディングを V4-Pro で常時駆動

Claude Code / OpenClaw / OpenCode は V4 と公式統合されており、API は OpenAI ChatCompletions と Anthropic API の両方互換です1base_urlhttps://api.deepseek.com に向けて model を deepseek-v4-pro にするだけで、既存の Cline / Claude Code セットアップが V4 駆動になります。

SWE-Bench Verified 80.6 の品質を出力 $3.48/1M tok で回せる、というのは 「常時バックグラウンドでリポジトリを触らせる」 運用が現実的になったということです。Claude Code を Opus 4.7 で常時動かすと月額コストが跳ねますが、V4-Pro なら同等のループを 1/7 程度のコストで回せます。

2. V4-Flash で1M context の RAG パイプラインを大量バッチ

V4-Flash は出力 $0.28/1M tok で 1M context を提供します。これは 「数千件の長文ドキュメントに同じ質問を投げ続ける」 RAG / 分析バッチで決定打になります。

具体例:

  • 法務 / 契約書の差分抽出を全社契約 5000 件にバッチ実行
  • 過去5年分の Slack ログから「特定プロジェクトの意思決定経緯」を全部走らせて再構成
  • 論文 1000 本に対して「特定手法の実装可否」をフル本文で判定

GPT-5.5 でこれをやると6桁ドル単位、V4-Flash なら3桁〜4桁ドル単位に収まります。

3. MIT ライセンス + ウェイト公開で規制業界のオンプレ展開

V4 は MIT License で重みが公開されています2。商用利用も改変も再配布も自由で、これは規制業界(金融・医療・防衛・政府)にとって決定的に重要です。

クラウド API に投げられない機密データを抱える組織でも、V4-Pro のウェイトを社内 GPU クラスタに展開すれば、Opus 4.6 同等の SWE-Bench スコアを社内データだけで回せます。FP4/FP8 mixed precision なので、H200/B200 8 枚クラスタで 1M context まで現実的に走らせられる構成です。

注意点:手放しで称賛できない部分

ここまでアツさを語ってきましたが、冷静に見るべき点もあります。

Preview ステータス:V4 は “Preview” として公開されており、安定版ではありません1。本番採用前に、自社のスキャフォールドや MCP 統合での再評価が必要です。

最新クローズドとの差:Terminal-Bench 2.0、SWE-Bench Pro、HLE では GPT-5.5 / Opus 4.7 にまだ追いついていません4。「フロンティア互角」とまでは言えず、「near-frontier を1/6 で出してきた」 という表現が正確です。

ベンチ評価の前提:HuggingFace 掲載スコアは DeepSeek 内製の評価環境込みです。第三者の独立再現は2026年4月25日時点で限定的なので、自社ユースケースで触ってみるのが堅実です。

deepseek-chat / deepseek-reasoner の廃止:旧モデルは2026-07-24 15:59 UTC で完全廃止予定1。既存実装は順次マイグレーションが必要です。

まとめ

DeepSeek V4-Pro/Flash のアツいポイントを整理します。

性能のアツさ:

  • LiveCodeBench 93.5、Codeforces 3206、Apex Shortlist 90.2 で競技コーディング3冠
  • SWE-Bench Verified 80.6 で Opus 4.6 (80.8) と実質同点
  • 1M MRCR 83.5 で長文脈リコール2位(Gemini 3.1 Pro を上回る)

経済性のアツさ:

  • V4-Pro は GPT-5.5/Opus 4.7 比で出力 86%安
  • V4-Flash の出力 $0.28/1M tok は GPT-5.5 比 99%安
  • DSA で 1M context 推論 FLOPs が V3.2 比 27%、KV cache 10%

運用のアツさ:

  • MIT License でウェイト公開、商用利用・改変自由
  • Claude Code / OpenClaw / OpenCode と公式統合
  • OpenAI ChatCompletions / Anthropic API 互換、base_url 切り替えのみ

現実的な限界:

  • GPT-5.5 / Opus 4.7 に Terminal-Bench / SWE-Bench Pro / HLE で劣後
  • Preview ステータス、第三者再現は限定的
  • 知識集約 QA は Gemini 3.1 Pro が依然強い

Qwen3.6-27B が「ローカル実行で Opus 級」を出してきた直後に、DeepSeek が「クラウド API で 1.6T 規模を1/6価格」を投げ込んできた格好です。フロンティア性能を求める層(Opus 4.7 / GPT-5.5)と、コスト効率を求める層(V4-Pro/Flash)の二極化が、2026年春のオープン/クローズド構図を決定づけています。週末に deepseek-v4-flash を Cline か Claude Code に挿して、自分のリポジトリで Opus とのコスト/品質曲線を引いてみるのが一番速い理解の仕方です。

参考文献

Footnotes

  1. DeepSeek V4 Preview Release - DeepSeek API Docs 2 3 4 5 6

  2. deepseek-ai/DeepSeek-V4-Pro - Hugging Face 2 3 4 5 6 7

  3. DeepSeek V4: Features, Benchmarks, and Comparisons - DataCamp 2 3

  4. DeepSeek-V4 arrives with near state-of-the-art intelligence at 1/6th the cost of Opus 4.7, GPT-5.5 - VentureBeat 2 3 4 5

  5. DeepSeek V4 Pro API - Together AI 2 3

  6. China’s DeepSeek releases preview of long-awaited V4 model as AI race intensifies - CNBC