ナレッジグラフへの変革を実現するToposoidの新機能
Linked Ideal合同会社が開発したナレッジベース構築プラットフォーム「Toposoid」は、2025年7月29日(火)にバージョン0.6をオープンソースとして公開しました。この新しいバージョンでは、PDFドキュメントを一括でナレッジグラフに変換する機能が追加され、特にビジネス界や教育分野での活用が期待されています。
新機能の概要と特長
昨今、情報の整理と活用が求められる中、Toposoidはユーザーからの要望に応える形でPDFドキュメントのナレッジベースへの登録機能を新たに搭載しました。この機能により、PDFファイル内のテキストや画像、表のデータを上手に処理し、ナレッジグラフとして視覚化することができるようになります。対応している言語は日本語と英語の二つで、幅広い用途での使用が可能です。
特に注目すべきは、文書内のタイトル抽出や画像・表のラベル付け、目次の作成、参考文献の分離など多岐にわたる機能です。この全ての処理は、Adobe社のPDF Extract APIを使用して行われており、特に高度なPDF解析技術を活用しています。これにより、文章と画像、さらには表データの関係性をしっかりと把握し、構造的で整然とした情報をナレッジベースに格納することが可能です。さらに、分かりやすい単位での内容保存と検索に関しても特許出願がされています。
複雑な課題への挑戦
一方で、新機能には未対応の課題も存在します。
- - 縦書きのPDF
- - LaTeXなどで描画された数式
- - 特殊なフォントの処理
- - 句点やピリオドなしの文章分割
- - PowerPointを元資料としたPDFでの文章分割
- - 複数ファイルの一括登録
これらの課題に対しては、今後のバージョンでの対応を目指して進めているとのことです。
AIガバナンスを意識した取り組み
今の時代、生成AIの活用が進んでいる中で、Linked Ideal社は生成AIのデータ品質向上に注力しています。Toposoidのバージョンアップは、その一環として位置づけられており、今後はRAG(Retrieval-Augmented Generation)としても利用可能な機能改善を行う予定です。さらに、生成AIにおける推論手法の革新にも注視しており、独自の技術を用いて演繹的推論と帰納的推論の協調を図る設計を進めています。
ライセンスの変更について
今回の機能追加に伴い、ToposoidのライセンスがApache-2.0からGNU Affero General Public License v3.0またはそれ以降の商用ライセンスへと変更されました。この変更により、商用化への道も視野に入れたものになっています。
まとめ
Toposoidの機能強化は、ナレッジベースの構築と生成AIとの連携を目指す上での大きな一歩です。今後も改善や機能追加が期待されており、AIによる効果的な情報管理が実現されることを大いに期待しています。詳細やお問合せは、
公式サイト等をチェックしてください。