Visual Bankが新たに提供する日本語朗読音声データセットの特徴

Visual Bank、新たな音声コーパスを発表

Visual Bank株式会社は、音声技術の研究と開発に向けた新しいデータセット「日本語・1話者・文学朗読音声データセット」をリリースしました。このデータセットは、日本の文学や小説を中心に構成され、特定の日本人話者が全編を朗読した音声と、それに対応するトランスクリプトが含まれています。

データセットの特徴

本データセットの特筆すべき点は、作品の情景描写や地の文を一定のテンポで読み上げる独自の朗読スタイルを保っていることです。音声は、穏やかな口調から文学的な感情の微妙な変化までを同時に捉えており、長文においても一貫性を持った発話を実現しています。これにより、文脈に応じた高度な音声生成技術のテストにも最適です。

データはmp3形式の音声データと、テキストの形式としてtxt、json、csvが用意されており、様々な用途に合わせて利用可能です。収録時間は30秒から160分まで多岐にわたるため、研究や商業の両方で幅広く活用できます。

ユースケース

このデータセットは、研究と産業の両方において多様なユースケースが考えられます。

1. 研究用途

主に音声合成（TTS）のプロジェクトにおいて、長尺文脈における韻律制御の研究に利用されます。数十分以上の長文に対して、話者の一貫性を保ちながら出だしや抑揚を自然に生成するモデルの精度を確認できます。

2. 産業用途

この音声データは、オーディオブックやナレーション生成AIの開発に活用され、文学作品の構文を正確に読み上げる能力を持つナレーションAIを育成するための学習データとなります。その結果、聴取者に人間の朗読に近い自然な体験を提供します。

また、文学表現に特化した自動音声認識（ASR）モデルの最適化にも利用可能です。特有の語彙や文語体が含まれる文書を正確に認識し、テキスト化するために必要なデータを提供します。

Qlean Datasetとは

「Qlean Dataset」自体は、Visual Bankの子会社であるアマナイメージズが提供するAI学習用データソリューションです。商業利用が可能であり、画像、動画、音声、3D、テキストなど幅広いデータ形式に対応しています。国際的なデータホルダーやメディアと協力しながら、最新のデータラインナップである「AIデータレシピ」を継続的に拡充していく計画です。

まとめ

Visual Bankは、今後も高品質な音声データを提供し、生成AIや音声系AIの研究開発を支援することで、業界の最新トレンドに対応していく方針です。AI開発のための有用なデータを求める研究者や企業には貴重な資源となるでしょう。興味のある方は、ぜひ公式サイトをチェックしてみてください。

Qlean Datasetの公式サイトはこちら