NHKがAIと顔認識技術で解説台本を自動生成。Eテレのクラシック番組向けに新たな音声制作システムを開発

NHKは、2025年12月31日にEテレで放送されたクラシック番組『N響「第9」演奏会』に合わせ、AIを活用した解説音声の配信実験を実施しました。

このシステムは、画像から文章を生成するAIである視覚言語モデルや顔認識技術を用いて解説台本を作成し、番組の雰囲気に適した専用の合成音声で配信するものです。放送後のアンケートでは、利用者の約8割が満足したと回答しました。

NHKがAIと顔認識技術で解説台本を自動生成。Eテレのクラシック番組向けに新たな音声制作システムを開発
引用元:Eテレ“N響「第9」演奏会”における解説音声配信実験

AIと顔認識を活用した解説台本の作成

今回の配信実験では、視覚に障害のある方を含む視聴者へ情報を届けるため、映像解析技術を用いたシステムが活用されました。制作工程では、画像から文章を生成するAIである視覚言語モデルによる映像の説明テキスト作成に加え、顔認識技術で指揮者の登場シーンなどの人物名を特定しています。作成されたテキストは人の手による確認と修正を経て、最終的な解説台本となりました。

音声合成にはアナウンサーの声を学習したカスタムボイス音声合成モデルを採用し、番組の雰囲気に適した落ち着いた発話を実現しています。放送時はクラウドサーバーを介し、台本に合わせたタイミングで音声を配信。視聴者は手元の携帯端末でテレビ放送と同時に解説を聴取し、画面上の文字情報を音声で補完できる仕組みです。

受信アプリの多機能化とモニターによる評価

専用の受信アプリには、話者や速度の選択機能に加え、曲目や指揮者名を任意に確認できるリクエスト発話機能が備わっています。12月31日の放送当日には、視覚に障害のある方を含む46名が自宅で本システムを利用しました。事後のアンケートでは、利用者の約8割から満足したとの回答が得られています。

解説音声の品質についても、「音楽になじんでいた」といった高い評価が寄せられました。スポーツ中継向けに開発された本システムを音楽番組へ適用したことで、視覚情報を音声化する有効性が示されました。今後は実験結果を反映し、解説音声制作・配信システムの実運用に向けた研究開発が継続される予定です。

NHKとは

日本放送協会(NHK)は、放送法に基づき設立された日本の公共放送を担う特殊法人です。政府や特定団体から独立した運営を行うため、視聴者が支払う受信料を主な財源としています。国内向けにはテレビ(総合、Eテレ)やラジオ(第1、第2、FM)を、国外向けには多言語による国際放送を展開しています。放送法により、公共の福祉のために豊かで質の良い番組を放送し、放送文化の向上に寄与することが義務づけられています。

参照元:Eテレ“N響「第9」演奏会”における解説音声配信実験

AMI(エイミー)

これならクラシック聴いても眠くならないな。