音声テクノロジー

OpenAIが次世代音声モデル「GPT-Realtime-2」を発表。音声推論の評価指標で従来比15.2ポイント向上

2026.05.24

Shuta kobayashi

米AI企業のOpenAIは5月13日、開発者向けAPIにおいて3つの新しい音声AIモデルの提供を開始しました。これにはGPT-5クラスの推論能力を備えたGPT-Realtime-2が含まれます。開発者はこれらのモデル群を用いることで、より自然な応答やリアルタイムの翻訳、高精度な書き起こし機能を備えた音声アプリケーションの構築が可能になります。

OpenAIが次世代音声モデル「GPT-Realtime-2」を発表。音声推論の評価指標で従来比15.2ポイント向上 — 引用元：https://openai.com/ja-JP/

高度な推論とアクションを可能にする「GPT-Realtime-2」

「GPT-Realtime-2」は、ライブでの音声対話に特化して構築されたモデルであり、ユーザーからの要求に対して推論を行いながら会話を継続する能力を備えています。性能評価指標であるBig Bench Audioにおいて、従来の「GPT-Realtime-1.5」を15.2ポイント上回るスコアを記録しました。また、コンテキストウィンドウが32Kから128Kへと大幅に拡張され、より長時間にわたる複雑なタスクの流れやセッションの維持が可能となっています。

開発者は、推論の深さを「最少・低・中・高・最高」までの5段階から選択できるようになり、応答速度を優先する単純な対話から、深い推論を要する複雑な要求まで、用途に合わせて最適化を図ることができます。さらに、複数のツールを同時に呼び出すパラレルツールコール機能や、処理中に「少々お待ちください」といったフレーズを挟む設定も追加されました。

多言語翻訳と低レイテンシな書き起こし機能の拡充

あわせて提供が開始された「GPT-Realtime-Translate」は、70以上の入力言語から13の出力言語へのリアルタイム翻訳に対応します。話し手の発話ペースを維持しながら翻訳を行うため、カスタマーサポートや教育、グローバルなイベントなどでの活用が期待されています。また、ストリーミング書き起こしモデルの「GPT-Realtime-Whisper」は、低レイテンシでの音声テキスト化を実現し、会議のキャプション作成やリアルタイムの要約生成を可能にします。

利用料金は、「GPT-Realtime-2」がオーディオ入力100万トークンあたり32ドル、出力が64ドルです。翻訳モデルは1分あたり0.034ドル、書き起こしモデルは1分あたり0.017ドルで提供されます。ZillowやDeutsche Telekomなどの企業がすでに導入に向けた取り組みを開始しており、不動産検索の補助や多言語による顧客サポートなどの用途で試験運用が進められています。

OpenAIは、安全性の確保としてリアルタイムのセッションに対する分類器の運用や、企業向けのプライバシー保護措置も継続して提供します。

OpenAIとは

OpenAIは、2015年に米国サンフランシスコで設立された人工知能の研究・開発を行う企業です。「人類全体に利益をもたらす汎用人工知能（AGI）の構築」をミッションに掲げています。2019年に営利部門を設立し、現在は出資者への利益還元を制限する「利益制限（capped-profit）」型として運営されています。対話型AIのChatGPTやGPTシリーズ、動画生成AIのSoraなどを開発しており、マイクロソフトと多額の出資を含む戦略的提携関係にあります。

参照元：Advancing voice intelligence with new models in the API