OpenAIは8月28日、「gpt-realtime」と「Realtime API」をアップデートしました。低遅延で自然な音声対話を実現する機能が強化され、実際のサービスで、音声エージェントの本格的な利用が期待されます。

低遅延化と新機能で進化する音声エージェント
OpenAIがアップデートした「gpt-realtime」は、低遅延で自然な応答が可能になっています。これまでの音声処理は音声認識や合成を段階的に行う方式が主流でしたが、新たな仕組みでは単一のモデルで処理を行うことでリアルタイムでのやり取りに対応しています。
「Realtime API」にも複数の新機能が導入されています。リモートメディア処理サーバーとの連携により、外部システムとの接続が可能となりました。さらに、画像入力への対応やSIP通話機能の追加により、音声エージェントが扱える情報(マルチモーダル性)と接続先(通話ネットワーク)が拡張されています。これにより、音声応答に加えて幅広いインタラクションに対応できるようになりました。
新ボイス追加で高まる実用性
今回のアップデートでは、音声生成の表現力も改善されました。特に、免責事項の読み上げや数字列の正確な発音などが向上しています。新しい音声ボイス「Cedar」と「Marin」も追加され、会話のトーンに応じた選択が可能になりました。
低遅延かつ自然な音声対話により、音声エージェントの利用は一層現実的になっています。リアルタイムで応答できる特性は、さまざまな利用シーンで役立つ更新となりました。
gpt-realtimeとは
gpt-realtimeは、OpenAIが提供する低遅延の音声対話モデルです。従来の音声処理が音声認識と音声合成を組み合わせる多段方式だったのに対し、単一のモデルで処理を行うため、より素早く自然な会話を実現します。リアルタイム応答に最適化されており、本番環境の音声エージェントとして利用できる点が特徴です。
参照元:Triton Digital Unveils Feed Drops Feature To Help Cross-Promote Podcasts



SIP対応ってことは、企業の電話対応にもすぐ使えそうだね。