音声AI分野で注目を集めるイレブンラボは、多言語対応の新たなTTSモデル「Eleven v3(alpha)」を発表しました。

感情や対話の表現を取り入れたTTSモデル
イレブンラボの新モデル「Eleven v3」では、従来は難しいとされていた「感情」や「対話」といった表現が可能になりました。イントネーションや間の取り方、語尾の抑揚をより自然に扱えるようになっている模様です。
また、音声タグを活用することで、「ささやき」「笑い」「拍手」といった演出も再現可能です。これにより、ナレーションや広告、エンタメ系コンテンツなどで臨場感のある表現が行えます。会話モードを用いることで複数話者の切り替えが可能になり、対話型の音声コンテンツやアプリケーションへの活用などが期待されます。
多言語対応と日本市場への本格展開
Eleven v3は今回のアップデートにより、対応言語数が従来の33言語から70以上に拡大しました。これに伴い、カバーする人口の割合も、従来の60%から90%へと大きく向上したと発表されています。
今回の発表で、日本語TTSの強化も重点的に進められていることが明らかになりました。イントネーションやアクセントの改善に加えて、「関西弁」や「サッカー中継風」といったスタイル指定も可能です。
4月には、イレブンラボ合同会社が東京に設立されました。日本企業からの日本語音声強化に対する期待に応える形で、今後さらなる日本における事業拡大を目指す方針です。
イレブンラボとは
イレブンラボは、2022年に設立された米ニューヨークを拠点とする音声AI技術のスタートアップです。高品質なTTS(Text-to-Speech)技術を提供しており、音声サンプルをもとに高精度な音声合成を実現するプラットフォーム「ElevenLabs」を展開しています。ニュース読み上げ、ナレーション、音声広告、エンタメコンテンツなど幅広い用途で活用が進められています。
参照元:イレブンラボから今までにない表現力を持つTTSモデル「Eleven v3 (alpha)」を発表
ポッドキャストにもAIパーソナリティが続々参戦かな