AIを前提に設計されたソフトウェア開発に取り組む甘党AIは、日本語のモノラル音源に特化した話者分離モデル「Sepamato(セパマト)」の開発完了を発表しました。日本語音声データセットを用いた評価で、従来の公開モデル比2倍以上の音源分離精度(SI-SNRi)を実現しており、同社が提供する会話分析サービス「Rokavox」への実装やAPI提供を予定しています。

日本語音声に最適化された話者分離モデル
Sepamatoは、日本語音声に最適化して設計された話者分離モデルです。従来の英語話者中心の学習モデルでは対応が難しかった日本語モノラル音源においても、高精度で話者ごとの音声を抽出できる点が特徴です。評価には日本語音声データセットが用いられ、従来の公開モデル比でSI-SNRiが2倍以上改善したことが確認されています。
本モデルは、オンプレミス環境にも対応しており、既存システムへの柔軟な組み込みが可能です。また、特定話者や特定語彙への追加学習にも対応しており、利用シーンに応じた拡張が行えます。甘党AIは、今後自社サービス「Rokavox」への組み込みを進める方針を示しています。

放送・接客・AI開発まで広がる活用領域
Sepamatoは、放送・音声制作、接客、音声認識システムなど、幅広い分野での活用が想定されています。音声制作の現場では、話者ごとに音声を分離することで、字幕生成や翻訳作業の効率化を支援できます。接客業では、従業員と顧客の音声を分離して分析することで、応対データの利活用がしやすくなります。
また、議事録作成や音声認識システムの前処理として利用することで、書き起こし精度の向上が見込まれます。さらに、音声対話型AIの学習データ作成にも応用可能です。話者ごとの音声抽出を自動化することで、データ整備やアノテーション工程の省力化が期待されています。
甘党AIとは
甘党AIは、「AIネイティブなソフトウェアを世界へ」というビジョンを掲げる会津大学発ベンチャー企業です。2025年設立で、福島県会津若松市を拠点に、AIモデルやアプリケーションの開発を手がけています。音声処理や会話解析といった分野にも取り組み、AIを前提に設計されたソフトウェアの社会実装を目指しています。
参照元:甘党AI、日本語モノラル音源に最適化した話者分離モデル「Sepamato」を開発



音声の混線、AIが一番冷静に捌いていく気がする...。