株式会社Insight Edgeが開発した最新の文書解析ライブラリ「Exparso」
株式会社Insight Edge(本社:東京都千代田区、代表:小坂順一)は、最新のドキュメント解析ライブラリ「Exparso」をオープンソースソフトウェア(OSS)として公開しました。このライブラリは、LLM(大規模言語モデル)を利用し、PDFやOfficeファイル、画像といった多様な非構造データを解析するための高機能ツールです。
LLMの力で資料解析を進化させる「Exparso」
「Exparso」は、マルチモーダルLLMを基盤にしており、様々なドキュメント形式に対応しています。このライブラリは、情報抽出の精度を高めるために、RAG(Retrieval Augmented Generation)を活用し、情報の検索性を向上させています。
当社がこのライブラリを開発した背景には、LLMを活用したテキストデータ解析が急速に広がっていることがあります。その中で、図表やフローチャート、手書き文字が含まれるドキュメントからの情報抽出は、従来難易度の高い作業でした。そこで、Exparsoが描くビジョンは、属人性を排除しつつ、プロジェクト全体にわたるサービスの質を均一化し、持続可能な価値を提供することです。
Exparsoの主な機能と特長
「Exparso」は以下のような特長を持っています:
- - 対応ドキュメント形式: PDF、Word、PowerPoint、JPEG、PNG、Excelなど、多彩なフォーマットに対応。
- - 高度な内容理解: 文書の種類をページ単位で判別し、適切なプロンプトを生成。図表やグラフの内容も意味として解析可能。
- - 拡張性のある設計: 今後、HTMLや動画ファイルへの対応も予定しており、さらなる解析対象を増やす計画があります。
- - 大容量ファイルにも対応: トークン制限を超える大規模なファイルも、適切に分割・処理し、コンテキストを保ったまま正確な情報抽出を実現。
- - 柔軟なLLM連携: LangChainに対応し、さまざまなLLMと連携ができる点も魅力的です。
活用されるユースケース
「Exparso」の利点は、社内文書のナレッジ抽出や技術文書の解析、さらには手書き帳票からの自動データ入力支援と多岐にわたります。これにより、社内の情報整理を効率化し、迅速に必要な情報にアクセスできる環境が整います。
取得方法と今後の展望
興味ある方は、
GitHubリポジトリより「Exparso」をダウンロードすることができます。なお、Officeファイル解析には、LibreOfficeのインストールが必要です。
社内での検証では、高度な情報解析機能が高い性能を示しており、今後もその機能の改良やドキュメント形式の拡充を図っていく方針です。また、OSSコミュニティとの連携を通じて得られる知見を活用し、さらなる進化を目指すとのこと。
まとめ
「Exparso」は、デジタルトランスフォーメーションを進めるための強力なツールとなり、多くの業種や分野での業務効率化に貢献することが期待されています。今後の展開に注目です。
会社概要
株式会社Insight Edgeは、2019年に設立され、住友商事グループのデジタルトランスフォーメーションを支える専門企業です。データ分析やシステム開発をワンストップで行い、ITエンジニアが集まっています。
お問い合わせ
詳しい情報は、以下のメールアドレスまでお気軽にどうぞ。