Googleは3月26日、最新の音声モデルである「Gemini 3.1 Flash Live」を発表しました。このモデルは低い遅延と高い推論能力を備えており、より自然なリズムでのリアルタイムな対話が可能です。

開発者と企業に向けた高度な推論能力とタスク実行の向上
「Gemini 3.1 Flash Live」は、音声優先の環境で複雑なタスクを遂行できるよう信頼性が向上しました。開発者向けの指標であるComplexFuncBench Audioでは、多段階の機能呼び出しにおいて90.8%のスコアを記録しています。
また、現実の対話で生じる割り込みや言い淀みを想定したAudio MultiChallengeでも、思考機能を有効にすることで36.1%の数値を達成しました。Valeria Wu氏らは、本モデルが速度と自然なリズムを必要とする次世代の音声エージェントの構築に適していると述べています。
リアルタイム対話における音響的な理解とユーザー体験の進化
音響的なニュアンスの理解も改善されました。音の高低や速さの認識能力が以前のモデルより向上しており、ユーザーの不満や混乱に対して動的に応答を調整できます。
本モデルは「Gemini Enterprise for Customer Experience」で提供され、Verizonなどの企業からは自然な会話体験に関する評価を得ています。一般向けには「Gemini Live」などを通じて展開され、従来と比べて応答速度が向上したほか、会話の文脈を維持できる時間が2倍に延長されています。
多言語へのグローバル展開とSynthIDによる安全性の確保
新モデルのリリースに伴い、200以上の国と地域で「Search Live」のグローバル展開が開始されました。多言語対応により、ユーザーは好みの言語でリアルタイムな対話を行えます。
安全面では電子透かし技術であるSynthIDを採用しました。生成された音声に知覚不可能な透かしを直接織り込むことで、AI生成コンテンツの確実な検出を可能にしています。これにより、信頼性を確保しながら誤情報の拡散防止を支援する仕組みを構築しています。
Geminiとは
Googleによって開発された、テキスト、画像、音声、動画、プログラムのコードなど、多様な種類の情報を理解・操作できるように訓練されたモデルです。複数の情報を同時に処理できる「マルチモーダル」という特徴を持ち、複雑な推論能力と高い性能を備えています。
参照元:Gemini 3.1 Flash Live: Making audio AI more natural and reliable



Geminiが進化しすぎて、来年どうなっちゃうんだろ。