NTT Comが新たに発表した「rokadoc」
NTTコミュニケーションズ株式会社が、法人向けの新たなデータ活用技術「rokadoc」のパブリックベータ版を2025年2月19日に公開しました。この技術は、生成AIを導入する際の障壁となっている非構造化データを、高精度な構造化データに変換することを目的としています。今や企業が保有する膨大なデータの活用が求められるなか、特に非構造化データ(PDFやHTML、各種文書など)は、生成AIが正しく理解するのが難しく、効率的なデータ活用が妨げられてきました。こうした背景から「rokadoc」は開発され、企業が生成AIを活用する上で信頼性のあるデータを提供することを目指しています。
背景と目的
近年、生成AIを利用した自動化やデータ解析が進んでおり、企業にとってもその活用は避けて通れない道となっています。しかし、大部分の企業データは非構造化されており、生成AIがその情報を正確に処理できないことが多いため、期待する結果を得ることが難しいのが現状です。NTT Comは、企業が保有するデータを最大限に活用できるよう、「rokadoc」を通じてこの課題解決に挑んでいます。
「rokadoc」の特徴
「rokadoc」の技術は、以下の特長により構成されています:
1.
画像情報のテキスト化: ドキュメントには画像が含まれることが多く、これまでの技術ではその解釈が難しいケースがありましたが、「rokadoc」では独自のレイアウト解析技術を用いて、画像から自動的に説明文を生成します。
2.
複雑な表構造の解析: 企業で使われる表データは様々な形式を取り得ますが、「rokadoc」はこれらに対応し、合成セルや罫線の有無にかかわらず、構造化されたデータとして出力します。
3.
RAGとの併用: 生成AI技術の一つであるRAG(Retrieval-Augmented Generation)は、外部情報を活用して推論を向上させる技術ですが、「rokadoc」を併用することで、その効果を最大限に引き出すことが可能です。
現在の利用方法と今後の展開
ユーザーは、公式サイト(
rokadoc公式サイト)より登録後、パブリックベータ版を無料で利用できるシステムを提供しています。今後、NTT Comはユーザーからのフィードバックをもとに「rokadoc」の精度向上を図り、将来的には統合ソリューションのリリースを視野に入れた展開を進める計画です。
結論
「rokadoc」は、企業が生成AIを効果的に活用するための新たなツールとして注目を集めています。データ活用の効率化を促進し、企業のデジタルトランスフォーメーションを加速することで、より良い社会の実現に貢献することを目指しています。今後の技術発展に期待が寄せられています。