Qwen3.6-27B がアツい：27B dense でClaude 4.5 Opus に肉薄したオープンウェイトの転換点

はじめに

2026年4月22日、Alibaba Qwen チームが Qwen3.6-27B をリリースしました¹。Apache 2.0 ライセンスの dense 27B モデルで、SWE-bench Verified 77.2、Terminal-Bench 2.0 59.3 という、クローズドフラッグシップ級のコーディングスコアを叩き出しています²。

この数字、何がアツいのか。Claude 4.5 Opus との差が SWE-bench Verified で 3.7pt、Terminal-Bench 2.0 では完全同点 になっているからです。フロンティアモデルへ毎月課金していた開発者にとって、「ローカル実行に逃げる」選択肢が一気に現実味を帯びました。

しかも、前世代フラッグシップだった Qwen3.5-397B-A17B（MoE、HuggingFace 上 807GB）に対して、Qwen3.6-27B は 55.6GB。14.8 倍小さくなった上で、主要な agentic コーディングベンチを上回っています³。

本記事では、この「27B でここまで来た」リリースの何がどうアツいのかを、5 つの切り口で整理します。

Qwen3.6-27B 概要 — 27B dense でフラッグシップ級コーディングを実現

ココがアツい① 27B dense でクローズドフラッグシップに肉薄

まずはベンチマーク。Qwen 公式が出した数字を Claude 4.5 Opus と並べると、コーディング系の差が驚くほど詰まっています。

ベンチマーク	Qwen3.6-27B	Claude 4.5 Opus	差分
SWE-bench Verified	77.2	80.9	-3.7pt
Terminal-Bench 2.0	59.3	59.3	±0
SWE-bench Pro	53.5	-	-
SkillsBench	48.2	-	-

特に Terminal-Bench 2.0 で完全同点になったのが象徴的です²。これはターミナル環境でのコマンド実行・ファイル操作を含む agentic ベンチで、実務に近いタスク群で評価されます。「クローズドの Opus と並んだ」と言える唯一のオープンウェイトモデルが、ついに 27B サイズで出てきた ことになります。

SWE-bench Verified の 77.2 という数字も、半年前なら 200B 超のクローズドモデルでなければ届かなかった水準です。Apache 2.0 で重みが落とせる以上、社内データで Fine-tune するハードルも一気に下がります。

Qwen3.6-27B vs Claude 4.5 Opus — コーディングベンチマーク比較

ココがアツい② 14.8倍コンパクトで前世代の397B MoE を超える

次にアツいのが、前世代の Qwen3.5-397B-A17B（MoE）を 27B dense が抜いた という事実です。

ベンチマーク	Qwen3.5-397B-A17B (MoE)	Qwen3.6-27B (dense)	改善幅
SWE-bench Verified	76.2	77.2	+1.0pt
Terminal-Bench 2.0	52.5	59.3	+6.8pt
SWE-bench Pro	50.9	53.5	+2.6pt
SkillsBench	30.0	48.2	+18.2pt（+60%）
HuggingFace サイズ	807GB	55.6GB	1/14.5（-93.1%）

SkillsBench の +18.2pt（相対 +60%）が特に異常な伸びで、Qwen チームは「ベンチ最適化ではなく、コミュニティからの実運用フィードバックを優先して設計した」と明言しています³。

つまり、業界の流れだった 「MoE で総パラメータを盛る」路線から、「dense + ハイブリッドアテンション + Multi-Token Prediction」路線への転換 が成功事例として提示された格好になります。スパース化で運用コストを上げる前に、設計レベルで効率を取りに行く、という選択肢が現実的なものとして見え始めました。

ココがアツい③ 量子化16.8GBでローカル実行——API課金から逃げられる

3 つ目は実装側のアツさ。Q4_K_M 量子化版なら 16.8GB まで縮みます⁴。これは、24GB クラスの消費者向け GPU や、64GB 統合メモリの Mac で動かせるサイズです。

Simon Willison がリリース当日に M 系 Mac + llama-server で動かしたレポートでは、生成速度が 約 25 tokens/s、読み込みが 54.32 tokens/s と報告されています⁴。SVG 生成のような視覚的タスクでも「flagship 級の出力品質」と評価しており、量子化後の品質劣化も実用範囲に収まっているようです。

対応する推論スタックも幅広いです。

llama.cpp：GGUF 提供あり、llama-server で Jinja テンプレート対応
vLLM / SGLang / KTransformers：本格運用向けの推論サーバ
LM Studio：公式モデルカタログから 1 クリック導入
Hugging Face：BF16 版・FP8 版（fine-grained FP8、block size 128）の 2 種類が同時公開⁵

API レート制限やベンダーロックを避けたいチーム、機密コードを外部に投げたくない組織にとって、「とりあえずローカルで Opus 級が動く」状態が Apache 2.0 で手に入った のは決定的な転換点なん（と書きたくなるレベル）です。

Qwen3.6-27B 推論スタックと量子化サイズ

ココがアツい④ Thinking Preservation で長期エージェントが回る

4 つ目は agentic 用途で効くアツさ。Qwen3.6-27B は オープンソース初の Thinking Preservation を搭載しています³。

これは、マルチターンのエージェントループで途中の reasoning trace（思考履歴）を破棄せずに保持する仕組みです。20 ステップを超えるような自律実行でも、初期の前提や制約条件を見失いにくくなります。

具体的なメリットが出るのは以下のような場面です。

Cline / Roo Code / OpenHands のような長時間ループ系コーディングエージェントとの組み合わせ
リポジトリ全体を読んで段階的にリファクタを進めるタスク
仕様書 → 設計 → 実装 → テストを 1 ループで完結させる開発フロー

これまでオープンウェイトモデルは「短いタスクなら強い、長期ループだと前提を忘れる」と言われがちでしたが、Thinking Preservation はその弱点を直接突いた機能追加です。

ココがアツい⑤ アーキテクチャ自体が新しい

最後は技術的なアツさ。Qwen3.6-27B のアーキテクチャはハイブリッド構成で、サブレイヤーの 3/4 を Gated DeltaNet（線形アテンション、O(n) 計算量）、残り 1/4 を従来型 Gated Attention に振り分けています³。

これにより以下が同時に成立します。

長文脈での KV キャッシュ消費を抑える：262K ネイティブコンテキスト、YaRN 拡張で 1,010,000 トークン までスケール
Multi-Token Prediction を内蔵：speculative decoding を別ドラフトモデルなしで有効化できる
マルチモーダル入力：テキストに加えて画像・動画もネイティブで処理（UI スクリーンショットからの実装起こしや、図解付き仕様の取り込みが 1 モデルで完結）

「線形アテンションは品質が落ちるからフルアテンションで」という従来の常識を、比率を 3:1 に振ってベンチで殴る スタイルで覆しに来た構成です。1M トークンの実用コンテキストを持つオープンウェイトモデルが、消費者 GPU で動く規模で出た意味は大きいです。

Gated DeltaNet × Gated Attention 3:1 ハイブリッド構造

注意点：手放しで称賛できない部分

ここまでアツさを語ってきましたが、冷静に見るべき点もあります。

ベンチ評価の前提：Qwen が報告したスコアは、Qwen 内製の agent scaffold（bash + file-edit ツール群）込みの数値です。2026年4月23日時点で、第三者の独立再現はまだ限定的だと報じられています⁶。導入前には、自社のスキャフォールドや MCP 経由のエージェント構成で再評価する前提で読むべきです。

実機検証の範囲：Simon Willison の手元検証はSVG生成や軽い推論タスクが中心で、リポジトリ規模の agentic コーディングタスクを大規模に検証したものではありません⁴。「Opus 級の品質が量子化後にも保たれるか」は、自分のユースケースで触って確認するしかありません。

ライセンスと運用：Apache 2.0 は商用利用可ですが、生成物の責任は利用側に残ります。社内で本番投入する際は、出力監査やフォールバック先（Claude / GPT API）の設計を併用するのが堅実です。

開発者として、いま試したい 3 つの使い方

「アツい」を体感したい人向けに、すぐに試せる導入パターンを 3 つ。

LM Studio + Cline で agentic コーディング：LM Studio で qwen/qwen3.6-27b を 1 クリック導入し、Cline の API エンドポイントを localhost に向けるだけ。Apache 2.0 の Opus 級が手元で回ります。
vLLM 立てて社内コードレビュー：FP8 版を vLLM に乗せれば、Hopper 系 GPU 1 枚で 1M コンテキストの社内コードレビュー Bot が組めます。GitHub 連携部分だけ追加すれば PR レビュー自動化が現実的に。
マルチモーダルで UI → コード：スクリーンショットを投げて React/Tailwind 実装を出させる用途。UI スナップショットからの実装起こしが、外部 API なしでローカル完結できる時代になりました。

まとめ

Qwen3.6-27B のアツいポイントを整理します。

性能のアツさ：

SWE-bench Verified 77.2、Terminal-Bench 2.0 で Claude 4.5 Opus と同点
14.8 倍小さい dense 27B が前世代 397B MoE を主要ベンチで上回る
SkillsBench で +18.2pt（相対 +60%）の異常な改善幅

実装のアツさ：

Q4_K_M 量子化版で 16.8GB、消費者 GPU・統合メモリ Mac でも動く
llama.cpp / vLLM / SGLang / KTransformers / LM Studio に即対応
BF16 / FP8 の両重みが Hugging Face に同時公開

アーキのアツさ：

Gated DeltaNet × Gated Attention の 3:1 ハイブリッド構成
Multi-Token Prediction 内蔵で speculative decoding 単独運用
262K ネイティブ / 1M YaRN コンテキスト + マルチモーダル入力

注意点：

ベンチは Qwen 内製スキャフォールド込み、第三者再現は限定的
実機検証で自社ユースケースを必ず確認

「クローズドフラッグシップとオープンウェイトの差」を語る基準が、このリリースで明確に書き換わりました。少なくとも 「コーディング用途で Apache 2.0 のローカルモデルを試す価値」が、いままでで最大になった のは間違いありません。週末に手元で動かして、Opus との差を自分の目で確かめる絶好のタイミングです。