デジタル庁の新たな取り組みに迫る
デジタル社会の実現を目指すデジタル庁は、未来のデジタル・トランスフォーメーション(DX)を進めるための計画を掲げています。その一環として、政府が保有するデータをAI学習データへと変換する調査研究を実施しました。この取り組みは、生成AIの活用を促進することで、日本の大規模言語モデル(LLM)を強化することを目的としています。
AI学習データへの変換について
近年、生成AIの技術が急速に発展しています。その中で、AIの性能を左右するのはAI学習に用いるデータの量と質です。デジタル庁は、内閣府の総合科学技術・イノベーション会議と連携し、学習データがどのように生成され、提供されるべきかを検討しました。
調査では、政府等が保有する法令や統計データなどがAI学習にどのように利用可能かを評価しましたが、多くの場合、データ形式がPDFなどでは直接的に活用できないことが課題として浮上しています。そこで、データをAI学習用に変換するための最新技術の動向も考慮に入れつつ、ニーズ調査を実施しました。
最新技術の活用とその重要性
デジタル庁は、AI学習のために利用可能なデータセットを整備するために、以下のような取り組みを行いました:
- - 政府保有データを、AIが学習しやすい形式に変換する技術を導入し、試行的なデータ提供を開始
- - 日本固有の背景や情報に適応するデータの公開が求められるとの認識を深め、持続的なデータ公開のためのプロセスを策定
これにより、効率的に質の高いデータを提供し、政府の情報を活用するユーザーのニーズを正確に把握することも目指しています。
高優先度データセットの確立
調査研究では、AI能力が向上するために特に重要とされる「評価用データ」の作成が最優先とされ、いくつかの高優先度データセットが用意されました。これには、以下のような評価が行われました:
- - 法解釈が適切に行えるかを評価するための問題データセット
- - 実務的な作文能力を検証するためのデータセット
- - 複数の図表を解釈する力を測るためのデータセット
- - 日本語特有の印刷形式を理解するためのデータセット
これらのデータセットを通じて、AIがどれほどの知識や能力を持っているのかを客観的に評価するための基準が整えられました。
今後の展望
本調査研究を踏まえ、デジタル庁は政府が保有しているデータを生成AIの発展に資する形で提供する具体的な戦略を再定義していく方針です。今後、より多くのユーザーがそのデータを利用できる環境を整えていくため、広報活動や知識の共有も重要な要素となります。
この取り組みは、AI時代における新たなデータ活用のモデルとして、日本全体のDX推進に寄与することでしょう。