スポーツAIデータ登場
2026-01-16 11:44:34

スポーツをテーマにしたAI学習用データ、Qlean Datasetが新たに登場!

新たなQlean Dataset:日本語・2話者・スポーツテーマトーク音声データ



Visual Bank株式会社は、傘下の株式会社アマナイメージズを通じて、AI学習用データソリューション「Qlean Dataset」の新しいデータセットを発表しました。その名も「日本語・2話者・スポーツテーマトーク音声コーパスとトランスクリプト」。このデータセットは、音声認識、自然言語処理、及びAIによる言語モデルの研究や開発に特化したものです。

スポーツテーマに特化した対話データ



この新しいデータセットには、日本人の男女2名がスポーツに関する様々なトピックについて自由に対話する音声データと、その発言内容を忠実に文字起こししたトランスクリプトが含まれます。たとえば、スポーツの経験や競技の分析、試合のレビュー、さらには戦術や成績に関する意見交換など、幅広い内容が含まれています。収録には台本が使用されず、話者は自由なテンポで対話を進めるため、実際の会話の流れをリアルに再現しています。

データフォーマットと収録内容



このデータセットは、音声データとして.wavや.mp3、テキストデータとして.txt、.json、.csv形式で提供されます。総収録時間は約200時間で、各音声は5分から60分までの長さです。録音した音声は44.1kHzの音質で保存されており、実用的な音声認識や対話処理の研究に最適です。

収録内容の一例としては、以下のシーンが含まれています:
  • - 2名がスポーツ経験を共有し合う様子
  • - 試合の振り返りや競技についての解説
  • - 自由な対話の中で自然に発展するテーマ

これにより、スポーツに関連する多様な話題がリアルな対話形式で提供されます。

研究や産業への適用



本データセットは、研究用途としての応用も広がっています。たとえば、対話型音声認識モデルの評価や分析に利用することで、発話の交代や重なりを含む条件下での認識精度を検証できます。また、スポーツに関する意見交換が自然に繰り広げられる様子を用いて、意図推定や談話構造の解析を行うことも可能です。

さらに、産業用途としては、スポーツ情報提供やユーザーとの対話を目的とした音声インターフェース開発に役立ちます。このように、データを基にした音声インターフェースが、実際の会話に近い形で動作できることを確認するためのモデル検証が行えます。

Qlean Datasetの魅力



Visual BankによるQlean Datasetは、商用利用可能なAI学習データソリューションで、研究から商業開発まで幅広く対応しています。このデータが提供するのは、単なるデータだけでなく、その背景にある法的なリスク回避や権利処理も含めた安全なAI開発環境の構築です。データの調達や整備の手間を軽減することで、研究者や開発者が自由にその可能性を探求できる環境を提供しています。

この新しいスポーツテーマの対話データセットは、AI開発の現場でのニーズやトレンドを的確に捉え、データの提供を通じて業界内でのさらなる革新を促進します。

詳しくは、Qlean Datasetの公式サイトをご覧ください。


画像1

画像2

画像3

画像4

画像5

画像6

画像7

画像8

画像9

画像10

会社情報

会社名
Visual Bank株式会社
住所
東京都港区南青山7-1-7C-Cube南青山ビル6F
電話番号
0120-410-225

トピックス(その他)

【記事の利用について】

タイトルと記事文章は、記事のあるページにリンクを張っていただければ、無料で利用できます。
※画像は、利用できませんのでご注意ください。

【リンクついて】

リンクフリーです。