mocomocoが音声認識AIに新機能！話者分離機能の搭載で会話録音が一新

mocomocoが革新！音声認識AIに話者分離機能を追加

mocomoco株式会社は、高性能音声認識AI「mocoVoice API」に新たに話者分離機能を組み込みました。この機能によって、複数人が参加する会話や会議の音声データを、話者ごとに個別に分離して書き起こすことが可能になります。これにより、従来の書き起こしよりも正確で効率的な情報の整理が期待されます。

新機能の特徴

高性能な話者分離

この新しい機能では、複数人の発言を「誰が」「何を」話したかを明確に把握できます。これにより、特にビジネスシーンにおいては、議事録作成やミーティングの記録が飛躍的に向上します。

高速な処理速度

話者分離の機能が追加されても、書き起こし時間は最速1時間の音声をわずか3分で処理できる特性を保持しています。長時間の会議や討論でも、素早く結果が得られる点が魅力的です。

多言語対応

mocoVoice APIは、日本語と英語が混在する会話も高精度で話者分離できます。これによって、国際的なビジネスシーンでもスムーズな情報共有が実現します。

利用シーンの例

- グループディスカッションの議事録作成：参加者の意見を個別に記録することで、情報の整理が容易に。
- 取引先とのミーティング記録：複数社のやり取りを見える化し、後のフォローアップが効率的に。
- イベントでの書き起こし：多数のスピーカーがいる場合でも、それぞれの発言を整理して正確に記録します。

mocoVoice APIについて

mocoVoice APIは音声認識技術の最前線に立つOpenAI Whisperを基にしており、mocomoco独自の辞書アルゴリズムや高速化技術も融合しています。このAPIは、以下のような特長を持っています。

- 圧倒的な処理速度：1時間の音声を最速3分で書き起こすことが可能です。
- 独自の辞書機能：専門用語や固有名詞も正確に認識し、日英両言語での登録も容易です。
- ChatGPTによる校正：認識したテキストを自動で校正し、文法的に正確で読みやすい形に整形します。
- マルチメディア対応：音声だけでなく、動画ファイルからの音声抽出・認識も可能。
- コードスイッチ対応：日本語と英語が混在する場合でも、スムーズに認識と書き起こしが行えます。

料金プラン

話者分離機能は全てのプランに追加料金なしで利用可能です。詳しい料金については、こちらをご覧ください。

開発の背景

会議や対話において「誰が何を話したか」を正確に把握することは、従来の書き起こしでは困難でした。これが作業負担の増大を引き起こし、情報の正確性に影響を与える原因となっていました。この課題を解決すべく、mocomocoは高速かつ正確に話者を分離できる「mocoVoice API」の話者分離機能を開発しました。