国産LLM開発を加速! モルフォAIソリューションズが学術論文用AI-OCR開発を受託
株式会社モルフォAIソリューションズ(以下、モルフォAIS)は、国立情報学研究所から日本語学術論文に特化したAI-OCR(光学文字認識)の開発を受託しました。
モルフォAISは、AIの事業化を担うモルフォグループの一員として、2023年から日本語LLM(大規模言語モデル)の学習データを生成するためのAI-OCR出力サービスを提供しています。今回の受託により、国立情報学研究所が推進する国産LLMの開発に貢献していく予定です。
国産LLM構築に向けた取り組み
国立情報学研究所は、2024年4月1日に「大規模言語モデル研究開発センター」を開設し、1750億パラメータ規模の国産LLM構築に向けた研究開発を進めています。
同センターでは、日本語学術論文PDFからのテキストデータ抽出を重要な課題として取り組んでおり、その実現には、レイアウト解析や構造解析といった前処理が不可欠です。しかし、既存のツールは英語論文を前提に開発されているものが多く、日本語論文に特化した汎用性の高いツールが必要とされていました。
モルフォAISのAI-OCRが担う役割
モルフォAISは、国立情報学研究所からの委託を受け、日本語学術論文に特有のレイアウトに対応し、本文領域のテキスト抽出を可能とするAI-OCRの開発を行います。
同社のAI-OCRは、日本語の文書に含まれる多様なレイアウトや文字種に対応し、読み順を含めた高精度なテキスト生成を実現しています。これにより、国産LLM構築に必要な良質な日本語テキストデータを大量に生成することが可能となり、日本語LLMの精度向上に大きく貢献する期待が寄せられています。
モルフォAISのAI-OCR出力サービス
モルフォAISが提供するAI-OCR出力サービスは、市販のOCRでは読み順を含めた正確な日本語の抽出が難しいという課題を解決するために開発されました。
同サービスは、スキャン画像データから多様かつ正確な日本語を生成することで、日本語LLMの学習データ作成を支援し、様々な機関で活用されています。
今後の展望
今回の開発を通じて、モルフォAISはAI-OCR技術のさらなる進化と、日本語LLMの開発促進に貢献していく予定です。今後も同社は、先進的なAI技術を活用し、社会課題の解決に貢献していくことを目指しています。