「ACL 2026」にSpiralAIの論文が採択。日本語音声AIの文脈依存による発音課題を解消へ

AI関連サービスを手がけるSpiralAIは4月22日、自然言語処理分野の国際会議「ACL 2026」の本会議に、同社リサーチャーの小峠陸登氏と代表の佐々木雄一氏による論文が採択されたと発表しました。本論文は、日本語の文脈に応じて発音が変化する課題に対し、トークン単位での最適化を行う音声AIの新手法を提案したものです。

「ACL 2026」にSpiralAIの論文が採択。日本語音声AIの文脈依存による発音課題を解消へ
引用元:SpiralAI、自然言語処理分野のトップカンファレンス「ACL 2026」の本会議にて論文採択

「ACL 2026」本会議に採択された論文の概要

SpiralAIによると、採択されたのは自然言語処理分野の国際会議「ACL 2026」の本会議(Main Conference Short Paper)です。論文タイトルは「Data-efficient Targeted Token-level Preference Optimization for LLM-based Text-to-Speech」で、著者は小峠陸登氏と佐々木雄一氏です。発表は7月2日から7月7日にかけて、米国サンディエゴで行われる予定です。

同会議は自然言語処理分野における主要な国際会議の一つで、2026年は12,148件の論文投稿に対し、採択率は19%とされています。今回採択された論文は、その査読において採択論文の上位50%に位置づけられる高い評価を受けたとのことです。

日本語の文脈依存発音に対応する新手法「TKTO」

同論文では、大規模言語モデル(LLM)ベースの音声合成の性能向上を目的とした新手法「TKTO」を提案しています。SpiralAIによると、近年は音声合成技術が進展している一方、日本語では 辛い(からい/つらい) のように文脈によって発音が変化する単語があり、従来の手法では十分な精度に達しないという課題がありました。

このたび同社が提案した手法では、従来の発話単位ではなく、言葉を細分化したトークン単位での選好最適化が行われています。従来手法で必要だった良否ペアデータを不要とし、最大6倍のデータ活用を可能にすることで、効率的な学習を実現したと説明しています。

実験結果と既存プロダクトでの活用状況

同社による実験では、特定の語の発音精度が39%向上し、文字誤り率(CER)は54%削減したとしています。SpiralAIは、さまざまな日本語の読み方、アクセント、イントネーションの改善のため、15万回以上の注釈付け(アノテーション)および学習を実施したと発表しました。

これらの成果は、音声合成プラットフォーム「Kotodama」や、会話型AIアプリ「梵そよぎAI – 0rigin -」を含む同社プロダクトで活用しているということです。SpiralAIは今後も、高精度な音声合成や音声対話に向けた研究開発を進めるとしています。

SpiralAIとは

SpiralAIは、東京都千代田区に本社を置くAI関連サービスを手がけるベンチャー企業です。大規模言語モデル(LLM)などの生成AI技術を活用し、音声対話や音声合成、キャラクターAIに関するサービスの開発を行っています。公開情報では、音声合成プラットフォーム「Kotodama(コトダマ)」や、会話型AIアプリ『梵そよぎAI – 0rigin -』などを展開しています。

参照元:SpiralAI、自然言語処理分野のトップカンファレンス「ACL 2026」の本会議にて論文採択

AMI(エイミー)

からい、つらい問題はAIをも悩ませるのか。