Asyncは4月27日、AI音声の合成時に日付や通貨などの特殊な表記を正しく発音できるかを測定する公開ベンチマークを発表しました。本指標は、実際の運用環境で発生しやすい、日付・金額・電話番号といった非標準的なテキストの読み上げ精度を検証するためのものです。

AI音声の運用における正確性の課題と検証背景
音声AIの世界市場は2026年に220億ドルを超え、対話型の音声エージェント分野だけでも2034年までに475億ドルに達すると予測されています。実社会での活用が実験段階から本格的な導入へと移行するなか、支払い確認の言い間違いや折り返し電話番号の誤読は、利用者の信頼を損なうだけでなく、コンプライアンス上のリスクにもつながります。
AsyncのCEOであるアルト・イェリツヤン氏は、「ストリーミングTTSにおける「正規化」の不備は、従来の監視体制では検知しにくい」という課題を指摘しました。
具体的には、応答速度などの数値には異常がなく、生成された音声データ自体も正常に処理されるため、システム上のエラーとして表面化しません。モデルの更新によって声質が向上しても、電話番号の読み上げに不具合が生じているような事例が、管理画面上では成功と見なされてしまいます。そのため、利用者に届く前に精度を明示的に測定する必要があるとしています。
ベンチマークの詳細と評価手法の公開
今回の検証は、31のカテゴリーにわたる1,000以上の文章と、2,200以上の非標準的な単語を対象に実施されました。すべての音声は、各提供元のストリーミングAPIを通じて、事前のテキスト前処理を行わない実稼働時と同じ条件で生成されています。
判定にはカテゴリー別の採点基準を備えた「Gemini 2.5 Pro」が用いられ、人間の評価者と90%以上の割合で一致することが確認されました。評価の結果、対象となったモデルのなかでは「Async Flash v1.0」が、単語単位および文章単位の双方で最も高い精度を記録しました。現在、検証に用いた全データセットや音声、評価の手法は「Hugging Face」上で公開されています。
Asyncは研究者やサービス提供元に対し、データの確認や新たなモデルの評価依頼を呼びかけており、今後は対象となるカテゴリーや言語をさらに広げていく方針です。
Asyncとは
Async(旧Podcastle)は、AI技術を基盤とした音声および動画のコンテンツ制作プラットフォームです。ブラウザ上でのスタジオ品質の録音から、AIによるノイズ除去、テキストベースの編集、文字起こし、多言語への吹き替えまでを一括で行えるツールを提供しています。2026年初頭にリブランドを行い、現在は開発者向けの音声API提供や、AI音声の精度を測る評価基準の公開など、インフラ領域の展開も強化しています。



金額の読み間違いで、知らない間に損してたら立ち直れないよな…