LegalOn Technologiesが発表した新ベンチマークデータセット「LegalRikai」
日本の企業法務に特化した大規模言語モデル(LLM)の性能を正確に評価するため、株式会社LegalOn Technologiesが「LegalRikai: Open Benchmark」を公開しました。これは、日本の法規制に基づいており、法改正の説明、契約書の修正、取引先要望の反映、契約書に潜むリスクの検出といった複雑なタスクを評価できる仕組みです。
LegalRikaiの意義
近年、法務におけるAIの利用が進み、企業は自らの法務活動を効率化する手段としてAIを導入するようになっています。しかし、どれだけAIが実務に適しているか、また弁護士に匹敵する精度での対応が可能かは常に疑問視されていました。この問題を解決するため、LegalOnは2025年3月11日に神算的な評価基準を設けた「LegalRikai」を開発。
「LegalRikai: Open Benchmark」は、AIによる法務業務の能力を多角的に評価できるもので、具体的には以下の4つのタスクを実施できます:
1.
法改正の説明能力:法改正の意図や企業への影響を把握し、社内への説明を行う能力を検証。
2.
契約書修正:古い法令に基づいた契約書を現行法令にあわせて修正する能力を評価。
3.
要望の反映:クライアントからの意見や要望を契約書に正確に反映するスキルを検証。
4.
リスク検出と修正提案:契約書内に潜むリスクを特定し、そのリスクを軽減するための修正案を考案する能力を評価。
主要LLMの性能評価
このデータセットを用いて、GPT-5、Gemini-2.5-pro、Claude Opus 4.1の3つの主要なLLMを評価しました。それぞれのモデルの特性が明らかになり、特に目を引く結果は以下の通りです。
- - Gemini-2.5-pro:契約書修正タスクにおいて、正確性や網羅性に優れたパフォーマンスを発揮。
- - Claude Opus 4.1:特有の言い回しや契約書の体裁維持において高得点を獲得したものの、時折不必要な変更を行った。
- - GPT-5:両者の中間的な性能で、専門用語の使用では全モデルが満点を記録。
この評価は、法務実務の分野での利用時に、純粋な総合スコアだけでなく、具体的な指示やタスク特性も考慮する必要があることを示しています。
今後の展望
今後もLegalOn Technologiesは「LegalRikai: Open Benchmark」を通じて、法務AIの研究と開発を加速させる考えです。企業はこのフレームワークを利用し、より高品質なAIを開発・導入することが期待されています。この取り組みにより、日本の法務の効率化と透明性向上が実現されるでしょう。
企業概要
LegalOn Technologiesは2017年に設立した企業で、AI技術を駆使したリーガルサービスを展開しています。現在は7,500社を超える企業に導入されており、さらなる成長を期して間もなくコーポレート業務全体へと事業領域を拡大する予定です。公式サイトでは、最新の情報が随時更新されています。