ZeroZawa

PHOTON を読んで、手元でミニチュア再現する — 475 倍をスループット×メモリに分解し、チャンク階層を自分で測る

2026-07-12

富士通 PHOTON は「GPU リソース当たり最大 475 倍」を謳いますが、これはスループット÷メモリの合成値です。実スループットは約 44 倍、メモリ削減は約 11 倍とその内訳を分解し、源泉であるチャンク階層構造（bottom-up encoder + top-down decoder）をミニチュアで自作します。Part 5 の nanoGPT 級モデルと3 seedで比較した、小規模な一実験の観察として、PPL・スループット・メモリのどれが再現でき、どれが規模に依存するのかを自分の手元で確かめます。連載「言語モデルの中身」最終回・Part 6。

10,454 文字

21 分

RAG production readiness checklist — 設計レビュー 1 枚で「本番に出せるか」を判定する

2026-07-12

rag

evaluation

production

連載「使える RAG の作り方 — 測って・直して・運用する」全 5 部を、設計レビューでそのまま使える 1 枚に畳んだチェックリスト。採用判断表・受入 gate・運用チェックリストへの導線と、社内 FAQ / 技術文書 QA / 規程・法務系で「評価とログと citation の厳しさがどう変わるか」を案件タイプ別に示す。

1,744 文字

4 分

小さな言語モデルをゼロから学習する — nanoGPT 級を MPS で回し、PPL・速度・メモリを自分で測る

2026-07-09

llm

transformer

python

推論は既存モデルの重みを使い回すだけですが、学習は重みそのものを一から作る作業です。nanoGPT 級（約1,080万パラメータ）の小さな Transformer を TinyShakespeare で実際にゼロから学習し、train/val loss の推移・perplexity・所要時間・ピークメモリを Apple Silicon の MPS で自分で測ります。連載「言語モデルの中身」Part 5。

6,434 文字

13 分

サンプリングは賭けだ — 1 回の正解 vs N 回の多数決、self-consistency で精度を買う代償を実測する

2026-07-08

llm

transformer

python

LLM の生成は確率分布からのサンプリングです。同じ質問を temperature>0 で何度も投げると、毎回同じ答えが返ってくるとは限りません。この「ブレ」を欠陥ではなく資源として使うのが self-consistency（N 回サンプリングして多数決）です。GSM8K の数学文章題で N=1 と N=3,5,10,20 の正答率を bootstrap CI 付きで実測し、精度が上がる分だけ何倍のコストを払っているのかを確かめます。連載「言語モデルの中身」Part 4。

6,291 文字

13 分

KVキャッシュは記憶のコスト — 文脈が伸びるほど decode が重くなる理由を実測する

2026-07-08

llm

transformer

python

Attention（Part 2）を毎ステップ再計算すると、系列が伸びるたびに同じ O(T²) を繰り返すことになります。それを避けるのが KV キャッシュですが、代わりに何を払っているのでしょうか。mlx_lm の内部キャッシュを直接 introspect し、キャッシュサイズが context 長・層数・head 数に線形で膨らむこと、decode の速度が計算量ではなくこのキャッシュを読み出す帯域で決まる(memory-bound)ことを、理論式と実測の一致で確かめます。連載「言語モデルの中身」Part 3。

6,508 文字

14 分

2 3 4 5 6