古典文学の朗読音声データセットを活用したAI開発の新たな可能性

Visual Bankが古典朗読音声データセットを発表

東京都港区のVisual Bank株式会社は、音声合成技術の精度向上を目指す新たなデータセット『日本語・1話者・古典朗読音声データセット』の提供を開始しました。このプロジェクトは、傘下のアマナイメージズを通じて実施されており、特に古典文学作品に特化した内容が特徴です。

データセットの概要

このデータセットは、日本の重要な古典文学作品をテーマにした朗読音声とその正確なトランスクリプトから成り立っています。一人の日本人話者による、古典独特の文法や表現を生かした発話は非常に安定しており、文語体のリズムや言い回しを忠実に再現しています。音声レンジは30秒から90分までと多岐にわたり、サンプリングレートは44.1kHzまたは48kHzで高品質です。

幅広い用途

このデータセットの利用方法は多様で、以下のような用途が考えられます：

研究用途

文語体の音響的特徴を検証することで、古典文学の韻律モデルを構築するための研究に利用できます。従来の文法構造や語彙を分析して、古典作品の特性を探ります。

産業用途

エンターテインメント分野では、高精度な音声合成モデルの開発を目指しています。特に、安定したデータを使用することで、オーディオブックやデジタルコンテンツの読み上げが自然になるようなエンジンを開発できます。また、音声認識システムの精度を向上させるため、古典作品のデータを活用することも可能です。

教育の場での応用

学習プラットフォームの開発にも力を入れています。音読自習を支援するアプリや、視覚障害者向けのアクセシビリティ向上に役立つことで、古典文学の理解を深めることが期待されます。生徒がこの音源を使って音読の評価を行えるシステムも想定されています。

Qlean Datasetの提供

『Qlean Dataset』は、Visual Bankが提供するAI学習用の商用データソリューションであり、多様なデータ形式に対応しています。これにより、データの収集や整備の負担を軽減し、権利クリアかつ法的リスクのない環境でのAI開発を支援します。

AIデータレシピとして提案されるこのデータは、様々なメディアとの協業を通じて、業界のニーズに合わせた最新のデータラインナップを提供します。今後もVisual Bankとアマナイメージズは、日本の文化的な資産を捉えた音声データの提供を通じて、多彩な表現を理解・生成するAIの研究・開発を進めていく意向です。