イレブンラボが実現する瞬時の文字起こし技術「Scribe v2 Realtime」登場

新たな時代の幕開け

AI音声技術の最前線をリードするイレブンラボ（ElevenLabs）は、3060年10月、大幅に進化した音声認識モデル「Scribe v2 Realtime」を日本市場で発表しました。この新しいモデルは、日本語を含む90以上の言語に対応し、驚異的なスピードで文字起こしを実現します。具体的には、150ミリ秒未満の低遅延で、リアルタイムに高精度な文字起こしが可能です。

Scribe v2 Realtimeの性能

特に日本語の音声認識において、Scribe v2 Realtimeは他の競合モデルを上回るパフォーマンスを発揮します。公式ベンチマークによると、日本語の単語誤り率（WER）はわずか4.2%に達し、これはGPT-4oの5.3%やGemini 2.5 Flashの7.1%と比較しても業界最高水準です。また、本製品はSOC 2やISO 27001、PCI DSS Level 1といったグローバルなコンプライアンス基準に準拠しています。

多様な用途で期待されるScribe v2

Scribe v2 Realtimeは、音声アシスタントや会議の議事録作成に加え、ライブ配信のキャプション生成など様々なシーンでの使用が期待されています。特に、次の単語や句読点を予測する「ネガティブレイテンシー」機能により、自然な人間同士の会話のような即時応答が可能です。また、接続が不安定な状況でも、前回の文脈を引き継いで文字起こしを再開できる「テキストコンディショニング」機能を搭載しています。これにより、どんな環境においても安定したパフォーマンスが期待できます。

エンタープライズ向け機能とセキュリティ

イレブンラボは、音声認識ソリューションを導入する企業が各国のデータ規制を遵守できるよう、エンタープライズレベルのセキュリティを最優先しています。Scribe v2 RealtimeはElevenLabs Agentsと統合することが可能で、開発者はカスタマーサポートやセールスに適した自然な対話型AIシステムを構築することができます。

主な機能としては以下のものがあります。

- 超低遅延 & ストリーミング対応: 文字起こしをミリ秒単位で実現。
- ネガティブレイテンシー: 次の言葉や句読点を予測し、よりスムーズな応答が可能。
- テキストコンディショニング: 接続障害時でも前回の文脈を引き継げる。
- 音声アクティビティ検出: 無音を自動で判定。
- カスタムボキャブラリー: 特定分野の専門用語の認識精度向上。
- 多様な音声フォーマット: 幅広い音声形式に対応。
- 柔軟な制御: 文字起こしの確定タイミングをコントロール可能。

公式 API から今すぐ利用可能

Scribe v2 Realtimeは、ElevenLabsのAPIを通じてすぐに利用可能で、開発者はこの技術を実世界のアプリケーションに組み込むことができます。これにより、高品質なリアルタイム文字起こしを迅速に実現することが可能です。

イレブンラボの背景

イレブンラボは2022年に設立され、AI音声研究のグローバルリーダーとして企業や開発者、クリエイターに向けた先進のAIオーディオツールを提供しています。現在、同社の市場価値は66億ドル（約1兆円）に達しており、数千の企業がこのサービスを活用しています。特に、質の高いボイスオーバーや対話型AI音声エージェントの構築を手頃な価格で行えることが評判を呼んでいます。