音声AI企業のElevenLabsは11月、リアルタイム文字起こしモデル「Scribe v2 Realtime」を発表しました。日本語の単語誤り率4.2%という、GPT-4oやGeminiなどの生成AIを超えた精度が本サービスの特徴です。

高精度な日本語認識が特徴の「Scribe v2 Realtime」
このモデルは日本語を含む90以上の言語に対応しており、150ミリ秒未満という極めて低い遅延でリアルタイムの文字起こしを実現しています。
特に日本語認識においては卓越した性能を発揮し、従来の音声認識技術が抱えていた課題を大きく改善するものとして期待されています。
GPT-4oやGeminiを凌ぐ誤答率の低さ
公式ベンチマークによると、日本語の単語誤り率(WER)において「Scribe v2 Realtime」はわずか4.2%を記録しました。これは、主要な競合モデルであるGPT-4o(5.3%)やGemini 2.5 Flash(7.1%)を凌駕する数値であり、業界最高水準の精度を誇ります。
Scribe v2 Realtimenの主な機能は以下の通りです。
- 超低遅延 & ストリーミング対応: ミリ秒単位での文字起こしを実現。音声データをすべて受け取ってから処理するのではなく、細切れの部分音声もリアルタイムで送受信しながら実現。
- ネガティブレイテンシー: 次の単語や句読点を予測し、よりスムーズな応答が可能に。
- テキストコンディショニング: 接続障害が発生しても、前回の文脈を引き継いで文字起こしを再開。
- 音声アクティビティ検出 (VAD): 無音検出に基づき、音声を自動的にセグメント化。
- カスタムボキャブラリー: 専門用語や固有名詞を登録し、特定分野の認識精度を向上。
- 多様な音声フォーマット: PCM(8kHz~48kHz)やμ-lawエンコーディングなど、幅広い形式に対応。
- 柔軟な制御: 文字起こしセグメントを確定するタイミングを任意に制御できる手動コミットコントロール。
- 多言語対応: 日本語を含む90以上の言語をサポート。
- エンタープライズグレードのコンプライアンス: SOC 2、PCI DSS Level 1、ISO 27001、HIPAA、GDPRに準拠。ゼロリテンション(データ保持なし)モード、EUおよびインドでのデータ保管オプションも提供。
同日に「日本音声AI学習データ認証サービス機構(AILAS)」の取得を発表

また同社は、一般社団法人「日本音声AI学習データ認証サービス機構(AILAS)」による事業認証登録ラベルを、日本で初めて取得したことも発表しました。この認証は、AI音声技術の開発において実演家の権利保護やデータの適正な利用を目的としたものです。
外資系企業として初の加盟に続き、今回の認証取得によって、技術力だけでなく「権利保護」や「信頼性」においても業界をリードする姿勢を明確に示しています。
ElevenLabs(イレブンラボ)とは
ElevenLabsは、2022年に設立された米国・英国拠点の音声AI企業で、高精度な音声合成(TTS)および音声複製技術を提供しています。特徴は、自然で感情表現に優れた音声の生成と、多言語対応、音声吹き替え、音声分離などの機能です。同社の技術はコンテンツ制作、教育、メディアなど多分野で活用されており、2024年時点で評価額は30億ドル超と急成長を遂げています。著作権や倫理面への対応も進められています。
参照元:イレブンラボ、リアルタイム文字起こしの新時代を切り拓く「Scribe v2 Realtime」を発表CoeFont、最新AI音声モデル「CoeFont v3 Fuji」の一般公開を開始!/「日本音声AI学習データ認証サービス機構(AILAS)」による事業認証登録ラベル 日本のAI関連企業とともに日本で初めて取得



0.15秒で文字起こしって、人間より早い可能性あるね。