Meta、テキストや映像から特定の音だけを取り出す新技術「SAM Audio」を発表。音声編集の利便性と効率化を追求

SNS事業などを展開するMetaは、混ざり合った音源から特定の音だけを分離できる統合モデル「SAM Audio」を発表しました。これは、画像や動画の切り出し機能である「Segment Anything Model(SAM)」の技術を音声領域に応用したものです。

Meta、テキストや映像から特定の音だけを取り出す新技術「SAM Audio」を発表。音声編集の利便性と効率化を追求
引用元:Introducing SAM Audio: The First Unified Multimodal Model for Audio Separation

直感的な操作で「音の切り出し」を実現

従来の音声分離技術は、楽器や声など、特定の対象ごとに個別のモデルを用意する必要がありました。これに対しSAM Audioは、人間が自然に音を識別する方法に近い、複数の操作方法をサポートする初の統合モデルとして設計されています。

複雑な背景音から目的の音のみを抽出できることから、音声編集や音声処理における利便性の向上が見込まれています。

本モデルで可能になる主な分離方法は以下の通りです。

  • テキストプロンプトによる分離:「犬の吠え声」や「歌声」といった言葉で指示を出し、該当する音のみを抽出します。
  • 視覚的プロンプトによる分離:動画内で音を発している楽器や人物を指定することで、その音源を特定して分離します。
  • 時間指定による分離:特定の音が鳴っている時間の区間を指定し、ノイズなどの除去や特定の音の抽出を行います。

これらの機能は、音声と映像を時間軸で精密に同期させる技術エンジン「Perception Encoder Audiovisual(PE-AV)」によって支えられています。これにより、ノイズの多い複雑な音響環境でも、映像内の対象物と音を正確に結びつけることが可能になります。

評価基準の確立に向けた「SAM Audio-Bench」と「Judge」も同時公開

Metaは、モデルの発表と併せて、音声分離の性能を客観的に評価するためのフレームワークも公開しました。

ひとつは、実用性を重視したベンチマーク「SAM Audio-Bench」です。これは、音声・音楽・効果音といった幅広い領域を網羅し、テキストや視覚情報など異なる入力方法における性能を統一された基準で測定します。

もうひとつは、AIが分離した音の品質を自動判定する「SAM Audio Judge」です。これは人間が音を聞いた際の感覚をモデル化したもので、精度や忠実度など9つの項目で評価を行います。従来、比較対象となる「正解の音(リファレンストラック)」がない環境では評価が困難でしたが、このモデルにより、実際の利用シーンに即した品質判定が可能になるとされています。

Metaの今後の展望と課題

Metaによると、SAM Audioは音声・音楽・環境音のあらゆるカテゴリーにおいて、従来の特化型モデルと同等以上の性能を発揮しており、リアルタイムよりも高速な処理効率を実現しているとのことです。

同社はこの技術を、バックグラウンドノイズの除去や音声のクリーンアップといったクリエイティブツールの機能向上に役立てる方針です。また、補聴器メーカーのStarkeyや、障がいを持つ起業家を支援する2gether-Internationalとの提携を通じ、アクセシビリティ分野での活用も進めています。

一方で、合唱の中から特定の声を抽出するといった、非常に似通った音を完璧に分離するには、依然として課題が残っています。しかし、専門的な音声編集をより身近にする技術として、今後の進展に注目です。

Meta(メタ・プラットフォームズ)とは

Metaは、Facebookが2021年に社名変更したIT大手で、Facebook、Instagram、WhatsAppなどのSNSを運営する傍ら、メタバース(インターネット上の仮想空間)の構築を事業の中心に据え、VR(仮想現実)やAR(拡張現実)技術を使った没入型体験の提供を目指しています。広告収入を主な収益源としつつ、その資金でメタバース関連技術の開発に注力し、次世代のソーシャル・プラットフォームを築くことを目指しています。

参照元:Introducing SAM Audio: The First Unified Multimodal Model for Audio Separation

AMI(エイミー)

ガヤガヤしてるところで電話しなきゃいけない時に、自分の声だけ切り取って届けてくれたらめちゃくちゃ助かるよな。