Visual Bankが提供する日本語2話者対話音声データセットが登場

Visual Bankの新しいデータセット「Qlean Dataset」

Visual Bank株式会社（東京都港区）から、傘下の株式会社アマナイメージズを通じて新たに「日本語2話者LR分離済みプライベート対話音声・トランスクリプト」が提供開始されました。このデータセットは、約500時間にわたる日本語の対話音声をステレオLR分離形式で収録しており、話者ごとの音声を個別に取り出せる特徴を持っています。

2話者対話音声データセットの特徴

本データセットは、日本人87組の話者からなる対話を収録しており、性別や年齢の多様性に配慮されています。具体的には、趣味や特技、価値観についての自然対話が収録されており、収録はWEB会議形式で行われました。このように自発的発話が中心であるため、スクリプト読み上げではないより自然な音声特性を持っています。

データ形式はMP3で、サンプリング周波数48kHz、ビットレート192kbps、ステレオで提供されます。各対話に対するトランスクリプトも付与されているため、音声認識技術やモデルのファインチューニングにも適した内容となっています。

利用用途と利点

このデータセットは、商用利用や研究利用、さらには生成AI学習にも対応しています。例えば、話者ダイアライゼーションモデルの開発に活用することができ、特にLR分離された音声は、各種ダイアライゼーションシステムの評価に非常に便利です。また、ASR（Automatic Speech Recognition）モデルの対話ドメイン適応にも利用でき、トランスクリプトがあることで、モデルの精度を向上させるためのデータを提供します。

音声とテキストを統合的に扱う音声基盤モデルの事前学習にもこのデータセットは有効です。特に500時間という豊富なデータ量は、モデルの学習において非常に大きな強みとなるでしょう。

収録に関するカスタム対応

さらに、特定の年齢層や性別構成、対話トピックに基づいたカスタム収録や特定ドメイン（医療や金融など）を想定した対話データの追加収集にも対応しています。これは、より専門的な用途に応じたデータセットを必要としている開発者にとって大きなメリットとなります。

Qlean Datasetに関する概要

Qlean Datasetは、商用利用が許可されたAI学習用データソリューションであり、音声や画像、動画、3Dデータ、テキストなど、多様な形式に対応しています。これにより、法的リスクなく高品質なデータを調達できる環境を提供しています。ビジュアルバンクが運営するこのプラットフォームは、国内外のデータホルダーやメディアとの連携により、業界特化かつトレンドを捉えたデータラインナップを増やし続けています。

詳しくは、Qlean Datasetの公式サイトをご覧ください: Qlean Datasetサイト

Visual Bankが目指すのは「すべてのデータの可能性を解き放つ」というビジョンであり、その一環として様々なデータソリューションを充実させていく計画です。今後本データセットの活用が進むことで、AI業界の発展に寄与することが期待されます。