AI開発を加速する新音声データセット「OTS」の登場

新音声データセット「OTS」の登場

音声認識AIの開発が進むなか、新たに登場した音声データセット「OTS」は、機密情報を含むリアルな会話データを活用することで、AI開発を加速させます。これにより、音声データの収集・加工にかかる時間とコストが大幅に削減され、必要な対話カテゴリのAI開発に迅速に取り組むことが可能となりました。

OTSデータセットの特長

OTSデータセットは、従来の自然な会話データに加え、フルネームや住所、電話番号などの機密情報を意図的に組み込んでいます。これにより、実務レベルのした207時間のコールセンターの音声データを収録しており、さまざまな複雑な対話パターンを学習することができます。また、アノテーションタグが付与されているため、AIモデルの開発時に追加の作業なくすぐに使用することができます。

自然な会話に潜む機密情報

データは、自然な会話の流れのなかに機密情報が登場するように設計されているため、実運用に近い状況でのトレーニングが行えます。特に、コンタクトセンターでの本人確認業務に最適化されているため、実務に則した対話パターンを数多く収めています。また、このOTSデータは著作権を含む権利関係が整理されているため、商用利用にも安心して使えます。

収録内容の詳細

「audioコーパスデータセット」では、多様なビジネスシーンに即した音声データを収録しています。商談やコールセンターにおける対話、対談、面談など、実際のビジネス環境でのリアルな対話を網羅的に収め、高精度な話者分離によって複数の話者を分けて録音しています。これにより、機械学習における効果的なトレーニングが可能となります。また、台本のない自然発話によるクロストークの収録も行っており、実際の環境に近い条件での学習を支援します。

テキストデータならではの高品質

テキストデータについては、逐語的な書き起こしが施されており、相槌や言い間違いも忠実に反映しています。さらに、6つのタグによる高度なアノテーションも行われ、発話単位でのタイムスタンプ付けが可能です。この構造により、特定の音声事象だけを抽出して学習できる柔軟性が実現されています。

市場ニーズに応えるデータセット

音声認識AIを開発する企業や開発者は、速やかに高品質な学習用データが必要ですが、市場には商用利用可能な「権利フリー」なデータセットが不足しています。OTSデータセットのリリースにより、個人情報に厳しい管理が求められる音声データを、手軽にかつ安心して取得できるようになります。

このOTCデータセットは、実務レベルの音声データを必要とする方々、特にAI開発において特定のシーン対応が求められている企業に最適です。また、権利関係がクリアな音声資産を求めるマネージャーにとっても魅力的な選択肢となるでしょう。