Visual Bank株式会社(東京都港区)は、傘下の株式会社アマナイメージズを通じて、AI学習用データソリューション「Qlean Dataset」を始めました。この新しいデータセットは、ビジネスと自己啓発、趣味実用に関連するテーマに基づいた朗読音声コーパスとそのトランスクリプトを提供します。データセットは、日本語を話す一人の話者によって朗読された音声データと、それに対応するテキスト情報から構成されています。
このデータセットの特徴は、単なる音声の読み上げではなく、知識や概念を明確に表現した構造的な発話データである点です。具体的には、業務の解説や考え方の整理、手順の説明を含む長文の音声を収録しており、内容を理解するための基盤を提供しています。このような音声データは、文脈の理解や情報整理を含む高度な音声処理の検証に役立ちます。話者の発話が安定しているため、音声とテキストの対応関係が理解しやすく、AIモデルの検証にも非常に適しています。
音声データは、mp3形式で収録されており、長さは30秒から160分まで様々です。サンプリングレートは44.1kHz及び48kHzに対応しており、高品質な音声データを享受できます。特に、ビジネス書や自己啓発書などを題材にした朗読を通じて、知識の伝達を促進することができます。
さらに、各音声データにはトランスクリプトが付属しているため、音声認識精度の評価だけでなく、音声入力を基にした意味理解や要約生成、応答生成など、さまざまなAIモデルの学習や検証に活用できます。これにより、特定の話者による統一された発話データを使用して、話者の依存性を排除したモデル挙動の確認が可能です。
このデータセットは、Visual Bankが提供する「AIデータレシピ」の一環であり、研究向けから商用AI開発まで対応した権利処理が行われています。商用AI開発の現場において、基盤モデルの学習や実装フェーズを強力にサポートするため、GENIAC採択企業としての地位を活かし、実務的な日本語音声とテキストのデータ提供に力を入れています。
「日本語・1話者・ビジネス・自己啓発・趣味実用テーマの朗読音声コーパスとトランスクリプト」の概要は次の通りです。データ形態は音声とテキストであり、被写体は日本人女性の話者によるものです。音声データの収録シーンは、ビジネス書や自己啓発書を朗読する様子や、手順を説明する場面を含んでいます。また、研究用途や産業用途にも応じた具体的なユースケースも提案されています。
このように、Visual Bankが提案するQlean Datasetは、AI開発の新たな時代を切り開くための強力なツールとなることでしょう。AI技術の進展には、安定したデータ供給が不可欠であり、Qlean Datasetはそのニーズに応える存在です。