gpt-realtime-2 はどこをブレイクスルーしたか — 主要4社リアルタイム音声モデル定量比較

2026 年 5 月 7 日、OpenAI は gpt-realtime-2 を発表した¹。リアルタイム音声 API スタックの世代交代を狙う一手で、開発者・PdM の関心は「結局どれを採用すべきか」に集まっている。本記事では主要 4 社（OpenAI / Google / ElevenLabs / Cartesia）の最新モデルを Big Bench Audio・Full Duplex Bench・レイテンシ・価格・統合機能 の 5 軸で横並び比較し、gpt-realtime-2 のブレイクスルーが「単一ベンチマーク 1 位」ではなく別の場所にあることを定量で示す。

3軸ブレイクスルー俯瞰図

gpt-realtime-2 の発表内容を 1 分で

OpenAI は単一モデルではなく、3 モデルを同時投入した²。

gpt-realtime-2: GPT-5 級 reasoning を備えた音声対話モデル。128K コンテキストと 5 段階 reasoning effort（minimal / low / medium / high / xhigh）を持つ
gpt-realtime-translate: 70+ 入力 → 13 出力言語のリアルタイム翻訳特化。$0.034 / 分
gpt-realtime-whisper: ストリーミング STT、レイテンシ制御可能。$0.017 / 分

gpt-realtime-2 本体の価格は $32 / 1M audio input tokens（cached $0.40）、$64 / 1M audio output tokens で、前世代 gpt-realtime-1.5 から据え置き³。新機能の目玉は 並行ツール呼び出しと 「checking your calendar」のような思考実況 narration で、待ち時間に発話を埋める設計が公式に明文化された²。

比較対象 4 モデルと評価軸

リアルタイム音声 API はもはや単一カテゴリではない。「全領域カバー」と「特定領域特化」に分かれており、横並び比較するなら評価軸を分離する必要がある。

モデル	種別	主な強み
OpenAI gpt-realtime-2	Speech-to-Speech (full)	推論 + 統合性
Google Gemini 3.1 Flash Live	Multimodal native audio	価格 + レイテンシ
ElevenLabs Conversational AI	TTS + Agent runtime	TTS 品質 + 短時間導入
Cartesia Sonic-3	TTS 専門 (SSM)	超低レイテンシ TTS

評価軸は次の 5 つに固定する。

Speech Reasoning — Big Bench Audio（音声入力での推論精度）
Conversational Dynamics — Full Duplex Bench（ターンテイク、ポーズ処理、割り込み復帰）
レイテンシ — TTFA / TTFB
価格 — $/h 換算（input + output）
プロダクション統合 — SIP / MCP / 画像入力 / parallel tool calls

数値はすべて Artificial Analysis のリーダーボードを 2026-05-09 時点で参照⁴。OpenAI 自社報告値とも相互照合してある。

リアルタイム音声 API のカテゴリポジショニング散布図

ベンチマーク横並び — Speech Reasoning と Full Duplex

Speech Reasoning は Step-Audio R1.1 が 1 位

Big Bench Audio（1,000 問の音声推論ベンチ）の上位は次の通りである⁴。

順位	モデル	スコア	プロバイダ
1	Step-Audio R1.1 (Realtime)	98%	StepFun
2	Grok Voice Think Fast 1.0	97%	xAI
3	gpt-realtime-2 (High)	97%	OpenAI
4	Gemini 3.1 Flash Live Preview – High	97%	Google
5	Grok Voice Agent	93%	xAI
7	Gemini 2.5 Flash Native Audio Dialog Thinking	91%	Google
9	GPT Realtime（無印・前世代）	83%	OpenAI
10	GPT-Realtime-1.5	81%	OpenAI

純 Speech Reasoning では Step-Audio R1.1 がトップで、gpt-realtime-2 (High) は 1 ポイント差の 3 位タイ。それでも 前世代 1.5 比 +15.2 ポイント² というジャンプ幅は他社の世代交代を上回る。

Full Duplex Bench は gpt-realtime-2 が単独 1 位

会話流暢性（ターンテイク、ポーズ処理、割り込み復帰の総合スコア）を測る Full Duplex Bench では話が変わる。gpt-realtime-2 (Minimal) が 96.1% で 1 位⁵。Minimal モード（推論最小）でこのスコアを出している点が重要だ。推論に振らなくても会話のリズムは崩れない、という設計が反映されている。

つまり「推論で勝負」と「会話で勝負」は別軸であり、gpt-realtime-2 は 後者で他社を抜いた。

Big Bench Audio Top 8 ランキングバーチャート

レイテンシと価格 — gpt-realtime-2 は単独最速でも最安でもない

レイテンシは Cartesia / ElevenLabs が圧勝

Time-to-First-Audio（最初の音声を返すまでの時間）を見ると、gpt-realtime-2 は決して速いほうではない⁴。

モデル	TTFA	カテゴリ
Gemini 2.5 Flash Native Audio Dialog	0.63 s	Speech-to-Speech
Grok Voice Agent	0.78 s	Speech-to-Speech
Step-Audio R1.1 (Realtime)	1.51 s	Speech-to-Speech
gpt-realtime-2 (Minimal)	1.12 s	Speech-to-Speech
gpt-realtime-2 (High)	2.33 s	Speech-to-Speech
Gemini 3.1 Flash Live Preview (High)	2.98 s	Speech-to-Speech
Cartesia Sonic-2 (TTFB)	~90 ms	TTS 単体
ElevenLabs Flash v2.5	<100 ms	TTS 単体

ここでの注意点は TTS 単体と Speech-to-Speech が桁違いの別物だ という事実である。Cartesia の 90 ms は「すでにある文字列を音声化する時間」で、gpt-realtime-2 の 1.12 s は「音声を聞いて意味を理解し、推論し、応答音声を返すまで」。比較する際は軸を揃える必要がある。

価格は Gemini Live と Step-Audio が安い

1 時間あたりの総コスト（入力 + 出力、Artificial Analysis 換算）⁴:

モデル	$/h 概算
Gemini 3.1 Flash Live (preview)	$1.73
Step-Audio R1.1	$1.75
ElevenLabs Conv AI Standard	$4.80
gpt-realtime-2	$5.76
Grok Voice Agent	~$6.00
ElevenLabs Conv AI Premium	$7.20

gpt-realtime-2 は中位である。Gemini 3.1 Flash Live は preview 中で API 利用が無料⁶、Step-Audio は計測上 1/3 強の価格。コスト最重視なら gpt-realtime-2 は第一候補にならない。

価格 × Big Bench Audio スコア散布図（Pareto frontier）

本当のブレイクスルーは「統合性」だ

ここまでで見えてくるのは、gpt-realtime-2 は単一指標で 1 位を取ったわけではない という事実。Speech Reasoning は Step-Audio に、レイテンシは Cartesia に、価格は Gemini に譲っている。

ではなぜ「ブレイクスルー」と呼ばれるのか。答えは プロダクション統合機能の同時達成 にある。

機能	gpt-realtime-2	Gemini 3.1 Flash Live	ElevenLabs Conv AI	Cartesia
WebRTC	✅	✅	✅	△
WebSocket	✅	✅	✅	✅
SIP（電話直結）	✅	△	△	❌
Remote MCP server	✅	❌	❌	❌
画像添付 in voice turn	✅	✅	△	❌
並行ツール呼び出し	✅	✅	△	N/A
思考実況 narration	✅	△	❌	❌
128K context	✅	（Live API 範囲）	N/A	N/A

これまで「GPT-5 + ElevenLabs Flash + 自前 agent runtime + Twilio SIP」と 4 ベンダ統合 で組んでいた構成が、gpt-realtime-2 単体でほぼ同等以上になった。Remote MCP（任意ツールサーバを URL で繋ぐ）と SIP（電話網直結）の両方を持つのは現状 gpt-realtime-2 だけで、これが乗算的な開発負荷削減を生む。

実例として Zillow の本番ベンチでは call success rate が 69% → 95%（+26 ポイント） に跳ねた⁷。これは単に推論が賢くなった結果ではなく、ツール呼び出しと割り込み復帰と SIP 統合が同時に効いた数値だと OpenAI は説明している。

つまりブレイクスルーの定義は次のようになる。

Big Bench Audio 96.6%（3 位タイ）かつ Full Duplex Bench 96.1%（1 位）かつ SIP + MCP + 128K を同時に満たすモデルは現状 gpt-realtime-2 のみ。

単独最強ではない。同時最強 こそが本質的差別化点である。

開発者・PdM の選び方 — ユースケース別の推奨

「全部 gpt-realtime-2 で良い」というわけではない。ユースケース別に整理すると次のようになる。

ユースケース	第一候補	理由
24h 稼働コールセンター	gpt-realtime-2	SIP 直結 + 推論 + Zillow 実績
コスト重視・PoC	Gemini 3.1 Flash Live (preview)	API 無料、Big Bench Audio も 97%
多言語ライブ翻訳	gpt-realtime-translate	$0.034/min で 70→13 言語独走
超低レイテンシ TTS（読み上げ・通知）	Cartesia Sonic-3 / ElevenLabs Flash	90 ms / sub-100 ms 級
エージェント PoC を 1 週間で立ち上げ	ElevenLabs Conv AI Premium	gpt-4o + Flash v2.5 統合済み runtime

スイッチングコストが低いのは ElevenLabs（LLM 差し替え可能）と Gemini（Google Cloud 上で完結）。ロックインを許容する代わりに統合の楽さを取るのが gpt-realtime-2 だ。設計判断はここで分かれる。

本記事の限界と未解決事項

公開情報の集約として、次の点はカバーできていない。

OpenAI 公式 announcement page は WebFetch で 403。数値は MarkTechPost / DataCamp / latent.space / Artificial Analysis の相互照合で確認している
日本語専用ベンチマーク が 4 社いずれも未公開。日本市場での本番性能は実機検証が必要
Artificial Analysis の計測リージョン・時刻 が一部未明記。本番環境のレイテンシは別途計測必須
Cartesia Sonic-3 の Speech-to-Speech 統合計画は未公開。現状は TTS 専業
Gemini 3.1 Flash Live の本番価格は preview 終了後に再評価必要

まとめ

gpt-realtime-2 のブレイクスルーは「単一指標 1 位」ではなく「reasoning × full-duplex × production stack の 3 条件を一つの API で同時に揃えた」点にある。Step-Audio や Cartesia のような特化モデルが個別軸で勝っていても、プロダクション統合の総合性能で gpt-realtime-2 を超えるモデルは現状存在しない。

次に測るべきは「実機での日本語 latency / 日本語 WER」「本番 SLA でのコスト最適化」「MCP サーバ群の運用負荷」の 3 点だ。voice AI を業務利用する組織にとって、ここから先は自社ワークロードでベンチを取りに行くフェーズに入った。

参考文献

OpenAI Releases Three Realtime Audio Models — MarkTechPost (2026-05-08) — gpt-realtime-2 / translate / whisper の 3 モデル発表まとめ。 ↩
Advancing voice intelligence with new models in the API — OpenAI — 公式 announcement。Big Bench Audio +15.2 pt と仕様の一次出典（直接 fetch 不可、リンク参照）。 ↩ ↩² ↩³
OpenAI API Pricing 2026 — TokenMix — gpt-realtime-2 価格 $32/$64 /M tokens の確認。 ↩
Speech-to-Speech leaderboard — Artificial Analysis — Big Bench Audio ランキング、TTFA、$/h 換算の一次出典（2026-05-09 参照）。 ↩ ↩² ↩³ ↩⁴
AINews: GPT-Realtime-2, -Translate, -Whisper — latent.space — Full Duplex Bench Conversational Dynamics 96.1% の出典。 ↩
Gemini 3.1 Flash Live API Quickstart Guide — LaoZhang AI — Gemini 3.1 Flash Live preview 期間中の無料利用と制限。 ↩
OpenAI launches GPT-Realtime-2 — TheNextWeb / Heyloha Blog — gpt-realtime-2 — Zillow の call success rate 69% → 95% 事例。 ↩