新しいAI資源『日本語・1話者・講談音声コーパスとトランスクリプト』の提供開始
Visual Bank株式会社(東京都港区)が、AI学習用データソリューション『Qlean Dataset』を通じて新たなデータセット『日本語・1話者・講談の音声コーパスとトランスクリプト』を発表しました。本データは音声・言語系のAI開発や研究用途に特化しており、特に自動音声認識(ASR)や音声理解、言語モデルの研究に役立つものです。
このデータセットは、伝統的な日本の話芸である講談の語りを録音したもので、1名の話者による物語の音声と、その内容を文字起こしした日本語トランスクリプトが含まれています。講談特有の抑揚や間、および話す速度の変化が「自然発話」として収録されており、読み上げ音声や対話音声とは異なる、日本語による物語の特異点も含まれています。
講談の特性とデータセットの特長
この講談音声データセットは、物語を語る際に情景描写、キャラクターの声色、緊張感の演出などが含まれているため、音声信号とテキストの確認を行う環境として最適です。データは、異なる長さの音声が組み合わされており、文脈保持や音声セグメンテーションの研究などに活用できる豊かな資料となっています。
特に注目すべきは、講談における「語り」の技術です。物語の進行に応じた語りの変化を理解することで、AIモデルがどのように自然言語を認識・処理するかを実際の条件で解析できる点がメリットです。これらの要素は従来の音声データとは異なり、研究者が日本語特有の発話特性を詳しく分析するのに役立つでしょう。
ユースケースの広がり
このデータセットは、研究用途として以下のように活用される可能性があります。
- - 日本語音声認識モデルの精度検証:講談特有の抑揚や間を活用し、従来の読み上げ音声とは異なる自然発話条件下での精度解析。
- - 音声とテキスト表現の関係を探る研究:音声信号とテキストを結び付け、日本語における語りの表現構造や韻律が言語理解に与える影響を調査。
また、産業用途としては、以下の点が挙げられます。
- - 長尺音声の処理テスト:AIプロダクト開発において、長時間の音声データを用いた機能検証(分割処理、要約機能など)。
- - 日本語音声言語モデルの事前学習および評価:特有の語り口を含むデータとして、音声言語モデルの開発に寄与することが期待されます。
Qlean Datasetの利点
『Qlean Dataset』は、多様なデータ形式に対応し、商用利用にも適したデータを提供しています。そのため、調査および商業用途の両面において、データ利用を安全に行うための環境を整備しています。また、迅速な納品やカスタムデータの用意にも対応しており、継続的なデータパートナーとの提携によって、最新トレンドに基づくデータラインナップも充実させています。
このように、Visual BankはAI開発の現場におけるデータのニーズを把握し、今後も音声・言語領域における日本語データの整備に貢献していく方針です。興味がある方は、ぜひ
Qlean Datasetの公式サイトを訪れてみてください。
Visual Bank株式会社は国の研究開発プログラム「GENIAC」にも参画し、AI開発支援を強化しています。代表取締役CEOである永井真之氏が先頭に立ち、今後の活動に注目が集まります。