PKSHAと奈良先端大、少量音声データで感情表現を制御する次世代音声合成技術の共同研究を開始

AIベンチャーのPKSHA Technologyは、奈良先端科学技術大学院大学(NAIST)と、次世代の音声合成技術に関する共同研究を開始しました。限られた音声データからでも自然で豊かな発話表現を生成できる基盤の確立を目指し、研究開発を進めます。

PKSHAと奈良先端大、少量音声データで感情表現を制御する次世代音声合成技術の共同研究を開始
引用:PKSHA Technology、奈良先端科学技術大学院大学(NAIST)と次世代の音声合成技術に関する共同研究を開始

話者らしさを保ち、ニュアンスや感情を柔軟に制御

今回の共同研究では、話者らしさを損なうことなく、感情や話し方のニュアンスを柔軟にコントロールする音声生成手法の確立が大きなテーマです。これまでの音声合成技術では、豊かな表現力や感情の起伏を再現するために、大量の音声データを必要とするケースが少なくありませんでした。

しかし、本研究が目指すのは「少量の音声データ」による高精度な制御です。これにより対話AIやアバター、音声エージェントにおいて、多様で豊かな音声コミュニケーションの実現を目指します。

実績あるAI実装力と、最先端の音声処理研究が融合

共同研究の背景には、双方の強みを掛け合わせることで、技術開発から実用化までのスピードを加速させる狙いがあります。PKSHAは、これまで自然言語処理や音声認識・音声合成・音声解析、深層学習などのアルゴリズムソリューションを数多く手がけ、企業のコンタクトセンターをはじめとする実務環境へのAI実装を推進してきました。日本語音声合成における自然な発話生成に寄与するアクセント推定技術の研究開発や、その成果のオープンソース化に取り組んでいます。

一方のNAISTは、情報科学領域において、音声の生成・認識・対話を研究するHuman-AI Interaction Lab(HAI Lab)を中心に、音声情報処理に関する研究を推進しています。音声の表現モデリングや話者特性と発話表現の関係性の分析などに取り組み、国内外の学術会議で研究成果を発表しています。

社会実装を見据えたPKSHAのモデル最適化や運用ノウハウと、NAISTが持つ音声処理の基礎研究力が融合することで、新たな音声合成技術の創出と実用化の加速を目指します。

音声合成技術とは

音声合成技術とは、テキストなどの情報から人の声を人工的に生成する技術です。近年は生成AIの発展により、話者の声質や感情、話し方の特徴を再現する高品質な音声生成技術の研究開発が進んでいます。

参照元:PKSHA Technology、奈良先端科学技術大学院大学(NAIST)と次世代の音声合成技術に関する共同研究を開始

AMI(エイミー)

研究段階から社会実装を見据えている点も気になるね。