#生成AI #デジタル庁 #AI学習データ

デジタル庁が推進するAI学習データ変換の新たな取り組みとは

デジタル庁の新たな取り組みに迫る

デジタル社会の実現を目指すデジタル庁は、未来のデジタル・トランスフォーメーション（DX）を進めるための計画を掲げています。その一環として、政府が保有するデータをAI学習データへと変換する調査研究を実施しました。この取り組みは、生成AIの活用を促進することで、日本の大規模言語モデル（LLM）を強化することを目的としています。

AI学習データへの変換について

近年、生成AIの技術が急速に発展しています。その中で、AIの性能を左右するのはAI学習に用いるデータの量と質です。デジタル庁は、内閣府の総合科学技術・イノベーション会議と連携し、学習データがどのように生成され、提供されるべきかを検討しました。

調査では、政府等が保有する法令や統計データなどがAI学習にどのように利用可能かを評価しましたが、多くの場合、データ形式がPDFなどでは直接的に活用できないことが課題として浮上しています。そこで、データをAI学習用に変換するための最新技術の動向も考慮に入れつつ、ニーズ調査を実施しました。

高優先度データセットの確立

調査研究では、AI能力が向上するために特に重要とされる「評価用データ」の作成が最優先とされ、いくつかの高優先度データセットが用意されました。これには、以下のような評価が行われました：

- 法解釈が適切に行えるかを評価するための問題データセット
- 実務的な作文能力を検証するためのデータセット
- 複数の図表を解釈する力を測るためのデータセット
- 日本語特有の印刷形式を理解するためのデータセット

これらのデータセットを通じて、AIがどれほどの知識や能力を持っているのかを客観的に評価するための基準が整えられました。

今後の展望

本調査研究を踏まえ、デジタル庁は政府が保有しているデータを生成AIの発展に資する形で提供する具体的な戦略を再定義していく方針です。今後、より多くのユーザーがそのデータを利用できる環境を整えていくため、広報活動や知識の共有も重要な要素となります。

この取り組みは、AI時代における新たなデータ活用のモデルとして、日本全体のDX推進に寄与することでしょう。