マイクロソフトAI(以下MAI)が、音声生成モデル「MAI-Voice-1」と基盤モデル「MAI-1-preview」を発表しました。

高速の音声生成モデル「MAI-Voice-1」がリリース
MAI-Voice-1は、表現力が高く、自然な音声生成が実現できる点が強みです。このモデルは、一人だけでなく、複数人が話す場面にも対応しています。また特徴のひとつとして、音声生成の効率性が挙げられます。MAI-Voice-1は、高速な音声生成が可能で、単一GPUで1分間の音声を1秒未満で生成できる点がメリットです。
現在、同モデルはCopilotの「Copilot Daily」および「Podcasts」で利用可能です。さらに、ユーザーが体験できる「Copilot Labs」でも公開されています。ここでは、簡単なプロンプトから「選択式アドベンチャー」ストーリーを作成したり、オーダーメイドのガイド付き瞑想を試したりすることができます。
基盤モデル「MAI-1-preview」が公開テストを開始
またMAIは、基盤モデル「MAI-1-preview」の公開テストを、AIモデルの性能をユーザーが評価・比較できるプラットフォーム「LMArena」上で開始しました。
MAI-1-previewは、システム全体を通して学習された、自社開発の混合エキスパート(MoE)モデルです。約15,000台のNVIDIA H100 GPUを用いて事前学習と後処理学習が行われています。
本モデルは今後数週間でCopilotの特定のテキスト利用場面で展開される予定です。また、ユーザーフィードバックに基づき、改良も進められます。MAIは、今後数ヶ月でさらなる技術革新と、多様なユーザー意図やユースケースに対応する専門モデル群の統合を進めていくとしています。
Copilotとは
Copilotはマイクロソフトが提供する、会話型の生成AIアシスタントです。WordやExcel、OutlookなどのOffice製品や、Windows、GitHubといったサービスに組み込まれており、文章作成やデータ分析、メール整理、プログラミング支援などを行います。
参照元:Two in-house models in support of our mission



数ヶ月どころか、日に日に新しいモデルが発表されていくな…。