AI音声認識エンジンの最新動向と利用実態に迫るレポート

AI音声認識エンジンの利用動向レポート

近年、AI技術の発展により音声認識エンジンが多くの業界で導入されています。特に、株式会社東京アーカイブセンターが提供するAI文字起こしサービスは、多くの企業やライター、大学などの幅広い利用者に支持されています。今回は、同社が行ったAI音声認識エンジンに関する詳細なレポートを通じて、その利用状況や実態に迫ります。

調査概要

この調査は、2020年9月から2021年5月の期間において、AI文字起こしサービスを利用した10,783件のデータを集計したものです。対象となる音声認識エンジンは、Google Cloud Speech-to-Text、Microsoft Azure Speech to Text、AmiVoice Cloud Platformの3種類です。特に、AmiVoiceは日本のみで対応している点が特徴です。

利用言語の割合

調査結果のひとつでは、9カ国語に対応している中で、日本語が圧倒的に97.4%の受付割合を占めています。残りの言語も英語や韓国語、スペイン語が続き、やはり日本国内では日本語が主流であることが明らかになりました。

日本語の音声認識エンジンの選択

日本語の受付を見た場合、どの音声認識エンジンが最も多く利用されているかを分析すると、AmiVoice Cloud Platformが85.8%という高い割合を誇ります。続いてGoogle Cloud、Azureがそれぞれ8.6%、5.6%と続き、前者のエンジンは日本語の精度が高いと評価されています。サービスの利用者は、冒頭の60秒を無料で試すことから、自分に合ったエンジンを選ぶ傾向が見受けられます。

依頼音声／動画の平均時間

利用者が依頼する音声や動画の平均時間は37.5分であることが分かりました。最大120分まで受付可能なため、短い音声を多数アップロードするケースや長時間の会議内容の文字起こしを依頼するケースが多く見られます。

リピート率の検証

このサービスを何度も利用しているリピートユーザーは31.2%に留まります。これは新規ユーザーが多いことから、低いリピート率に繋がっている可能性が考えられますが、音声認識の結果に対する満足度が低いことも否めないでしょう。

利用される音源の種類

調査では、依頼される音源の91.8%が音声ファイルで、8.2%が動画ファイルであることが確認されました。音声ファイルの中でも、mp3形式やiPhoneの録音形式であるm4aが主に利用されています。

今後の展望

東京アーカイブセンターは、今後も安心して利用できる利便性の高いAI文字起こしサービスを提供する理念のもと、さらなる技術革新を進めていく所存です。先進技術が社会に与える恩恵を広く届けることが、同社の使命です。

このレポートからも分かるように、AI音声認識技術はますます進化し、ビジネスや教育など多岐に亘る分野で活用されています。今後もその動向は注目されるでしょう。

会社情報

会社名

株式会社東京アーカイブセンター

住所

東京都豊島区南池袋3-13-15東伸ビル6F

電話番号

03-5956-5212