Qwen3.6-27B がアツい:27B dense でClaude 4.5 Opus に肉薄したオープンウェイトの転換点

はじめに

2026年4月22日、Alibaba Qwen チームが Qwen3.6-27B をリリースしました1。Apache 2.0 ライセンスの dense 27B モデルで、SWE-bench Verified 77.2、Terminal-Bench 2.0 59.3 という、クローズドフラッグシップ級のコーディングスコアを叩き出しています2

この数字、何がアツいのか。Claude 4.5 Opus との差が SWE-bench Verified で 3.7pt、Terminal-Bench 2.0 では完全同点 になっているからです。フロンティアモデルへ毎月課金していた開発者にとって、「ローカル実行に逃げる」選択肢が一気に現実味を帯びました。

しかも、前世代フラッグシップだった Qwen3.5-397B-A17B(MoE、HuggingFace 上 807GB)に対して、Qwen3.6-27B は 55.6GB。14.8 倍小さくなった上で、主要な agentic コーディングベンチを上回っています3

本記事では、この「27B でここまで来た」リリースの何がどうアツいのかを、5 つの切り口で整理します。

Qwen3.6-27B 概要 — 27B dense でフラッグシップ級コーディングを実現

ココがアツい① 27B dense でクローズドフラッグシップに肉薄

まずはベンチマーク。Qwen 公式が出した数字を Claude 4.5 Opus と並べると、コーディング系の差が驚くほど詰まっています。

ベンチマークQwen3.6-27BClaude 4.5 Opus差分
SWE-bench Verified77.280.9-3.7pt
Terminal-Bench 2.059.359.3±0
SWE-bench Pro53.5--
SkillsBench48.2--

特に Terminal-Bench 2.0 で完全同点になったのが象徴的です2。これはターミナル環境でのコマンド実行・ファイル操作を含む agentic ベンチで、実務に近いタスク群で評価されます。「クローズドの Opus と並んだ」と言える唯一のオープンウェイトモデルが、ついに 27B サイズで出てきた ことになります。

SWE-bench Verified の 77.2 という数字も、半年前なら 200B 超のクローズドモデルでなければ届かなかった水準です。Apache 2.0 で重みが落とせる以上、社内データで Fine-tune するハードルも一気に下がります。

Qwen3.6-27B vs Claude 4.5 Opus — コーディングベンチマーク比較

ココがアツい② 14.8倍コンパクトで前世代の397B MoE を超える

次にアツいのが、前世代の Qwen3.5-397B-A17B(MoE)を 27B dense が抜いた という事実です。

ベンチマークQwen3.5-397B-A17B (MoE)Qwen3.6-27B (dense)改善幅
SWE-bench Verified76.277.2+1.0pt
Terminal-Bench 2.052.559.3+6.8pt
SWE-bench Pro50.953.5+2.6pt
SkillsBench30.048.2+18.2pt(+60%)
HuggingFace サイズ807GB55.6GB1/14.5(-93.1%)

SkillsBench の +18.2pt(相対 +60%)が特に異常な伸びで、Qwen チームは「ベンチ最適化ではなく、コミュニティからの実運用フィードバックを優先して設計した」と明言しています3

つまり、業界の流れだった 「MoE で総パラメータを盛る」路線から、「dense + ハイブリッドアテンション + Multi-Token Prediction」路線への転換 が成功事例として提示された格好になります。スパース化で運用コストを上げる前に、設計レベルで効率を取りに行く、という選択肢が現実的なものとして見え始めました。

ココがアツい③ 量子化16.8GBでローカル実行——API課金から逃げられる

3 つ目は実装側のアツさ。Q4_K_M 量子化版なら 16.8GB まで縮みます4。これは、24GB クラスの消費者向け GPU や、64GB 統合メモリの Mac で動かせるサイズです。

Simon Willison がリリース当日に M 系 Mac + llama-server で動かしたレポートでは、生成速度が 約 25 tokens/s、読み込みが 54.32 tokens/s と報告されています4。SVG 生成のような視覚的タスクでも「flagship 級の出力品質」と評価しており、量子化後の品質劣化も実用範囲に収まっているようです。

対応する推論スタックも幅広いです。

  • llama.cpp:GGUF 提供あり、llama-server で Jinja テンプレート対応
  • vLLM / SGLang / KTransformers:本格運用向けの推論サーバ
  • LM Studio:公式モデルカタログから 1 クリック導入
  • Hugging Face:BF16 版・FP8 版(fine-grained FP8、block size 128)の 2 種類が同時公開5

API レート制限やベンダーロックを避けたいチーム、機密コードを外部に投げたくない組織にとって、「とりあえずローカルで Opus 級が動く」状態が Apache 2.0 で手に入った のは決定的な転換点なん(と書きたくなるレベル)です。

Qwen3.6-27B 推論スタックと量子化サイズ

ココがアツい④ Thinking Preservation で長期エージェントが回る

4 つ目は agentic 用途で効くアツさ。Qwen3.6-27B は オープンソース初の Thinking Preservation を搭載しています3

これは、マルチターンのエージェントループで途中の reasoning trace(思考履歴)を破棄せずに保持する仕組みです。20 ステップを超えるような自律実行でも、初期の前提や制約条件を見失いにくくなります。

具体的なメリットが出るのは以下のような場面です。

  • Cline / Roo Code / OpenHands のような長時間ループ系コーディングエージェントとの組み合わせ
  • リポジトリ全体を読んで段階的にリファクタを進めるタスク
  • 仕様書 → 設計 → 実装 → テストを 1 ループで完結させる開発フロー

これまでオープンウェイトモデルは「短いタスクなら強い、長期ループだと前提を忘れる」と言われがちでしたが、Thinking Preservation はその弱点を直接突いた機能追加です。

ココがアツい⑤ アーキテクチャ自体が新しい

最後は技術的なアツさ。Qwen3.6-27B のアーキテクチャはハイブリッド構成で、サブレイヤーの 3/4 を Gated DeltaNet(線形アテンション、O(n) 計算量)、残り 1/4 を従来型 Gated Attention に振り分けています3

これにより以下が同時に成立します。

  • 長文脈での KV キャッシュ消費を抑える:262K ネイティブコンテキスト、YaRN 拡張で 1,010,000 トークン までスケール
  • Multi-Token Prediction を内蔵:speculative decoding を別ドラフトモデルなしで有効化できる
  • マルチモーダル入力:テキストに加えて画像・動画もネイティブで処理(UI スクリーンショットからの実装起こしや、図解付き仕様の取り込みが 1 モデルで完結)

「線形アテンションは品質が落ちるからフルアテンションで」という従来の常識を、比率を 3:1 に振ってベンチで殴る スタイルで覆しに来た構成です。1M トークンの実用コンテキストを持つオープンウェイトモデルが、消費者 GPU で動く規模で出た意味は大きいです。

Gated DeltaNet × Gated Attention 3:1 ハイブリッド構造

注意点:手放しで称賛できない部分

ここまでアツさを語ってきましたが、冷静に見るべき点もあります。

ベンチ評価の前提:Qwen が報告したスコアは、Qwen 内製の agent scaffold(bash + file-edit ツール群)込みの数値です。2026年4月23日時点で、第三者の独立再現はまだ限定的だと報じられています6。導入前には、自社のスキャフォールドや MCP 経由のエージェント構成で再評価する前提で読むべきです。

実機検証の範囲:Simon Willison の手元検証はSVG生成や軽い推論タスクが中心で、リポジトリ規模の agentic コーディングタスクを大規模に検証したものではありません4。「Opus 級の品質が量子化後にも保たれるか」は、自分のユースケースで触って確認するしかありません。

ライセンスと運用:Apache 2.0 は商用利用可ですが、生成物の責任は利用側に残ります。社内で本番投入する際は、出力監査やフォールバック先(Claude / GPT API)の設計を併用するのが堅実です。

開発者として、いま試したい 3 つの使い方

「アツい」を体感したい人向けに、すぐに試せる導入パターンを 3 つ。

  1. LM Studio + Cline で agentic コーディング:LM Studio で qwen/qwen3.6-27b を 1 クリック導入し、Cline の API エンドポイントを localhost に向けるだけ。Apache 2.0 の Opus 級が手元で回ります。
  2. vLLM 立てて社内コードレビュー:FP8 版を vLLM に乗せれば、Hopper 系 GPU 1 枚で 1M コンテキストの社内コードレビュー Bot が組めます。GitHub 連携部分だけ追加すれば PR レビュー自動化が現実的に。
  3. マルチモーダルで UI → コード:スクリーンショットを投げて React/Tailwind 実装を出させる用途。UI スナップショットからの実装起こしが、外部 API なしでローカル完結できる時代になりました。

まとめ

Qwen3.6-27B のアツいポイントを整理します。

性能のアツさ:

  • SWE-bench Verified 77.2、Terminal-Bench 2.0 で Claude 4.5 Opus と同点
  • 14.8 倍小さい dense 27B が前世代 397B MoE を主要ベンチで上回る
  • SkillsBench で +18.2pt(相対 +60%)の異常な改善幅

実装のアツさ:

  • Q4_K_M 量子化版で 16.8GB、消費者 GPU・統合メモリ Mac でも動く
  • llama.cpp / vLLM / SGLang / KTransformers / LM Studio に即対応
  • BF16 / FP8 の両重みが Hugging Face に同時公開

アーキのアツさ:

  • Gated DeltaNet × Gated Attention の 3:1 ハイブリッド構成
  • Multi-Token Prediction 内蔵で speculative decoding 単独運用
  • 262K ネイティブ / 1M YaRN コンテキスト + マルチモーダル入力

注意点:

  • ベンチは Qwen 内製スキャフォールド込み、第三者再現は限定的
  • 実機検証で自社ユースケースを必ず確認

「クローズドフラッグシップとオープンウェイトの差」を語る基準が、このリリースで明確に書き換わりました。少なくとも 「コーディング用途で Apache 2.0 のローカルモデルを試す価値」が、いままでで最大になった のは間違いありません。週末に手元で動かして、Opus との差を自分の目で確かめる絶好のタイミングです。

参考文献

Footnotes

  1. Qwen3.6-27B: Flagship-Level Coding in a 27B Dense Model - Qwen Blog

  2. Qwen3.6-27B: 27B Model Beats 397B on Coding (2026) - Build Fast with AI 2

  3. Alibaba Qwen Team Releases Qwen3.6-27B - MarkTechPost 2 3 4

  4. Qwen3.6-27B: Flagship-Level Coding in a 27B Dense Model - Simon Willison 2 3

  5. Qwen/Qwen3.6-27B - Hugging Face

  6. Qwen3.6-27B VRAM Requirements — Dense 27B That Beats 397B-A17B - Will It Run AI