NTTテクノクロスは9月16日、AIを活用したリアルタイム音声変換ソフトウェア「SynoraVoice(シノラボイス)」を正式にリリースしました。話者の声を好みの声色や話し方へ瞬時に変換し、自然な会話を実現します。

音声変換技術の課題に対応
音声認識や音声合成の技術は進歩しているものの、音声変換の領域については、処理の遅延や不自然さが課題とされてきました。
今回NTTテクノクロスが提供するSynoraVoiceは、NTTコミュニケーション科学基礎研究所が研究を進めてきた技術を応用し、会話を妨げないリアルタイム処理と自然な音質を両立しています。
SynoraVoiceには以下の機能が搭載されています。
-
リアルタイム処理:会話の流れを途切れさせない低遅延の音声変換
-
複数の音声モデル:男性4種類・女性4種類の計8種類を標準搭載
-
柔軟な提供形態:独立したアプリケーションとして利用できるほか、既存システムに組み込み可能なライブラリとしても提供
また、標準モデルに加えて独自の音声モデルを追加できる拡張性も備えています。

活用シーンと今後の展望
NTTテクノクロスの発表では、メタバースやVTuber配信でのキャラクター・アバターの声、イベントや商業施設での案内・演出、公共施設や交通機関での聞き取りやすい放送など、多岐にわたる活用例が示されました。さらに、コールセンター業務では、声色調整による顧客応対の質向上や、オペレーターの心理的負担軽減も想定されています。
SynoraVoiceは法人向けライセンスで提供され、価格は利用形態や音声モデル数によって変動します。今後は音声モデルの拡充や機能追加が進み、エンターテインメントや業務支援、公共領域といった幅広い分野での利用が期待されます。
リアルタイム音声変換とは
リアルタイム音声変換は、人が話した声を瞬時に別の声質や話し方へ変換する技術を指します。従来の録音後に加工する方式とは異なり、会話の進行に遅れを生じさせずに変換できる点が特徴です。声色やトーンを切り替えられるため、エンターテインメントや配信、コールセンター業務、公共放送などでの活用が進められています。
参照元:リアルタイム音声変換ソフトウェア「SynoraVoice」を提供開始



声のバリエーションが選べるって、服を着替える感覚に近いかも。