Livetoon、日本語のAI音声でリアルタイム水準の音声合成モデルを開発

Livetoonは7月15日、最高クラスの音声合成モデルを新たに開発したと発表しました。

Livetoon、日本語音声合成の新境地を開拓!感情豊かな「超リアルタイム」AI音声がビジネスを変える
引用元:Livetoon、最高クラス(最高精度・最速)の音声合成モデルを開発

Livetoonが実現した「リアルタイム水準」のAI音声:日本語特化で遅延を克服

Livetoonが独自開発した次世代TTS(Text-to-Speech)モデル「Livetoon TTS」では、テキスト解析からボコーダまで全工程をフルスクラッチで開発することで、従来の課題であった処理速度と精度を飛躍的に向上。特に短文で120ミリ秒、長文で760ミリ秒という超低遅延となっており「人の会話と区別できない体感速度」を実現しています。

Livetoon、日本語音声合成の新境地を開拓!感情豊かな「超リアルタイム」AI音声がビジネスを変える
引用元:Livetoon、最高クラス(最高精度・最速)の音声合成モデルを開発

感情と魂が宿る「本物の声」:緻密な日本語表現でエンゲージメントを深化

さらに、わずか15分の音声データから最短1分で忠実なクローンボイスを生成できる技術は、企業独自のブランドボイスやIPキャラクターの音声展開を迅速化し、ユーザーとの深いエンゲージメントを築くツールとして活用できます。

日本語の「壁」を突破する高精度と広がる活用:新しい音声標準へ

Livetoon TTSは、日本語音声合成の最大の課題である「漢字の読み」の壁を打ち破り、エンターテイメント領域で91.5%、ビジネス領域で90.0%という正解率となっています。

本技術は、カスタマーサポート、医療、電話応答など、即時性と正確さが求められる多様なtoB領域での活用が期待されています。Livetoonは「日本語音声の新しい標準」として、API提供も視野に入れ、幅広い企業への導入を進める方針ということです。

Livetoon、日本語音声合成の新境地を開拓!感情豊かな「超リアルタイム」AI音声がビジネスを変える
引用元:Livetoon、最高クラス(最高精度・最速)の音声合成モデルを開発

TTSモデルとは

TTSモデル(Text-to-Speechモデル)は、入力されたテキストを人間のような自然な音声に変換するAI技術です。近年、ディープラーニングの発展により、その品質は飛躍的に向上しています。

参照元:Livetoon、最高クラス(最高精度・最速)の音声合成モデルを開発

AMI(エイミー)

AI音声って、人間が考えて喋る速度をすぐに超えてきそうでコワイ。