日本語音声AIモデル
2025-03-10 14:09:17

日本語音声AI研究の新たな扉を開く「いざなみ」と「くしなだ」

新たな日本語音声AI基盤モデルの発表



産業技術総合研究所(産総研)が、これまでにない規模で日本語音声データを活用した2つの新しい音声基盤モデル、「いざなみ」と「くしなだ」を公開しました。これにより、高性能な音声AIを少ないデータで構築できる可能性が広がっています。

モデルの特徴



「いざなみ」と「くしなだ」の概要


「いざなみ」は、ユーザーが自らのデータを使って容易にモデルを改良することが可能です。一方で「くしなだ」は、特に音声感情認識や音声認識において高い性能を誇ります。どちらも、日本の神話から名付けられており、今後の音声AIの進化に寄与することが期待されています。

豊かなデータの収集


今回のモデルは、約6万時間という過去最大規模の日本語音声データを元に構築されています。この膨大なデータは、自然な会話の音声や表情豊かな表現を含み、従来のモデルに比べて大きな進歩を遂げました。特に、感情表現が豊かな会話データを使用することで、少量の教師データからでも高性能な音声AIを実現できるようになりました。

音声AIの社会的背景



音声AI技術は、スマートスピーカーや会議の文字起こしなど、幅広い分野で利用されています。しかし、感情を含む会話の音声データは不足しており、これが従来の音声AIの性能を制限していました。「いざなみ」と「くしなだ」は、こうした課題を解決するために開発されました。従来の方法では、音声データの収集が困難であったため、音声基盤モデルは注目されるようになりました。

研究の経緯



産総研はこれまでにも音声データの量を増やす努力をしており、約5千時間のデータを用いて日本語の音声認識を向上させる研究を行ってきました。今回新たに12倍の音声データを収集し、「いざなみ」と「くしなだ」の開発に成功しました。これにより、音声認識の精度も大幅に改善され、演技感情音声の識別においても高い正解率を達成しました。

今後の展望



今後は、地域や世代による音声AIの性能向上に取り組み、日本語方言の音声認識にも挑戦します。「くしなだ」はすでに方言による認識の実験を行った結果、現在公開されている他のモデルと同程度の性能を実現していますが、さらなる改良が求められています。

産総研は、企業や大学等との連携を通じて「いざなみ」と「くしなだ」の普及を進め、高性能な音声AIをより多くの場面で実用化することを目指しています。

このように、産総研の新しい音声基盤モデルは、音声AIの未来を切り開くための重要なステップとなるでしょう。これからの発展に目が離せません。


画像1

画像2

画像3

会社情報

会社名
産総研
住所
電話番号

関連リンク

サードペディア百科事典: 日本語音声AI いざなみ くしなだ

Wiki3: 日本語音声AI いざなみ くしなだ

トピックス(IT)

【記事の利用について】

タイトルと記事文章は、記事のあるページにリンクを張っていただければ、無料で利用できます。
※画像は、利用できませんのでご注意ください。

【リンクついて】

リンクフリーです。