新世代AIモデル「GPT-5」が契約業務を変える!
契約業務に特化したAIモデルの性能比較が、株式会社LegalOn Technologiesによって行われました。2025年8月7日にOpenAI社がリリースした最新モデル「GPT-5」と、前モデル「GPT-4.1」の性能の違いがどれほど重要かを解説します。
ベンチマークデータセットによる性能検証
LegalOn Technologiesは独自に開発したベンチマークデータセットを使い、契約業務における重要なタスクの性能を比較しました。英語から始め、特に問題発見、修正案の作成、質問への回答などに焦点を当てました。
英語の性能評価
「Contract Review Benchmark」という独自のデータセットを用いて、英語での性能を比較しました。具体的なタスクとしては、対話型タスク、修正案、問題点発見があり、それらにおいて「GPT-5」は顕著な改善を見せました。
- - 質問への回答や要約などの対話型タスク では、「GPT-4.1」が78%の性能であったのに対し、「GPT-5」は90%に達しました。
- - 契約内容の修正案作成においても、GPT-5は約6%の性能向上を見せました。
- - 契約の問題点発見では、ほぼ横ばいでわずかに性能が低下したとのことです。
日本語性能評価の継続
日本語に関しては、現在も検証が進行中で、結果が出次第発表される予定です。この点が、今後の契約業務においてどれほどの影響をもたらすのか注目が集まります。
LegalRikaiによる日本の法規制に基づく検証
LegalOn Technologiesが独自に開発した「LegalRikai」というベンチマークデータセットも活用し、契約業務の三つの主要タスクについても検証がなされました。このタスクには、条文分類、条文修正、レビュー対象条文特定が含まれています。
各タスクの性能比較
- - 条文分類: GPT-5は不適切回答の件数を大幅に減少させ、約10ポイントの向上が観察されました。これは、「GPT-4.1」が2000件超だったのに対し、「GPT-5」では190件に抑えられていることからも明らかです。
- - 条文修正: リスクの検出と修正提案が求められるこのタスクでも、GPT-5が約10ポイント上回る性能を発揮ましたが、自然さに関してはGPT-4.1が優位性を示しています。
- - レビュー対象条文特定: こちらは両モデルがほぼ同等の結果でしたが、GPT-5が既に堅牢な判断基準を持っているため、新たな判断パターンに対する応答が乏しかった可能性があります。
さらなる開発に向けて
今後、LegalOn Technologiesは最新のAIモデルの比較検証を継続し、業務の効率化に貢献していく方針です。GPT-5のプロンプトチューニングを含む詳細な分析や、他のモデルとの包括的な比較も進める予定で、AIによる契約業務の未来に期待が高まります。
会社情報
株式会社LegalOn Technologiesは、2017年に設立され、AI技術を利用したリーガルAIサービスの開発に注力している企業です。これからも顧客のビジネスをさらに支えるための最新技術の導入を進めていくことでしょう。