ZeroZawa
Sonnet 5 と Opus 4.8 を Claude Code で実測比較——コスト差1.67倍は本当に効くのか
Claude Sonnet 5 と Opus 4.8 に、同一のプログラミング課題(隠しテスト37件)と執筆課題を Claude Code 上で実走させ、正答率・トークン・所要時間・反復回数を実測しました。定価$3/$15 vs $5/$25 の1.67倍差が、Opus のトークン効率で実効ではどこまで縮むのかを検証し、タスク別の使い分けと effort・キャッシュ・fast mode によるコスト最適化を、個人開発者向けのベストプラクティスとして整理します。
524 文字
|
3 分

Attention は過去を読み直している — Q/K/V と O(T²) の壁を最小実装で覗く
Transformer の心臓 self-attention を、数式ではなく最小の Python 実装で組み立てます。Q/K/V が何をしているか、なぜ各トークンが他の全トークンを見る構造が系列長の二乗 O(T²) の計算量とメモリを生むのかを、系列長を変えた実測で確かめます。長い文脈ほど重くなる理由と、次回 KV キャッシュが必要になる動機が手元の数字で腹落ちします。連載「言語モデルの中身」Part 2。
817 文字
|
5 分

LLM はトークンを1つずつ予測している — 自己回帰ループを手元で覗く
LLM は文章を一度に書くのではなく、トークンを 1 つずつ予測して繋げています。小型モデルを MLX で手元に動かし、トークン化が文字でも単語でもないことと、「生成時間はトークン数に比例する」ことを実測で確かめます。連載「言語モデルの中身」Part 1。
574 文字
|
3 分

MLX vs ollama を M5 Pro で実測:Mac のローカル LLM、どっちのランタイムが速いか
Apple M5 Pro 48GB で同一モデルを MLX 4bit と ollama (GGUF Q4_K_M) で head-to-head 実測。TTFT・生成 tok/s・ピークメモリを並べ、Mac でローカル LLM を動かすならどちらのランタイムを選ぶべきかに実数で答えます。
774 文字
|
4 分

コーディングLLMを M5 Pro 48GB で実測:「動く」と「使える」を分けるのは context の壁だった
48GB の Mac(M5 Pro)に載るオープンウェイト・コーディングLLM を MLX 4bit で実測。7B は 131K コンテキストでもメモリは余るのに最初の一文字まで 4 分待つ。32B は 65K あたりで GPU メモリ上限(約 38GB)に達して失速。70B は重みは載るが生成の瞬間に Metal が OOM で落ちる。weights が載るかではなく、自分が渡す context 長で壁に当たるかで選ぶ、という実測の話。
425 文字
|
3 分

