ホリエモンAI学校が生成AIのリーガルレビュー性能を検証

ホリエモンAI学校による生成AIのリーガルレビュー性能検証

最近、ホリエモンAI学校株式会社が、Claude for Legal、ChatGPT、Geminiという三つの生成AIによる契約書レビューの結果を、弁護士によるブラインド評価を通じて発表しました。これは、新宿区に本社を置く同社が、法務AIの実用性を検証する試みの一環です。国内の法務業務において、AIツールがどの程度効果的かという点に関心が寄せられています。

1. 実験の背景

ホリエモンAI学校が行った今回の実験は、法務AIの実績を確認し、特に日本市場での日常的な法務レビューへの活用を探ることを目的としています。海外ではClaude Opusとその法務プラグインであるClaude for Legalが高い評価を受けていますが、日本の企業が使用できるかどうかは別の話です。そこで、著名な三つのAIツールを使用して、同じ契約書のレビューを依頼しました。

2. 実験手法

評価のために、ホリエモンAI学校が過去に利用した契約書を基にした架空の契約書を用意しました。AIには「契約書をレビューして、word形式でダウンロードさせて」という簡潔な指示だけを出しました。そして、出力されたワードファイルを弁護士に渡し、ブラインド評価を依頼しました。評価基準は、100点満点でのレビュー成果物の質です。

3. 実験結果

実験の結果次のような評価が出ました：

AIツールのレビュー成果物

1. Gemini: 最速で成果物を出しましたが、ファイルをダウンロードするのに苦労しました。評価スコアは相手会社視点でのチェックが主だったため、相応の点数を得られませんでした。
2. ChatGPT: Geminiに遅れたものの、レビューを成功させましたが、精度には不安が残りました。
3. Claude for Legal: 出力が最も詳細だったものの、設定の不足からスコアが低くなりました。

弁護士のブラインド評価結果

- 第3位: Gemini: 評価スコアは0点〜30点で、実務的には非常に低い評価に。相手会社の視点でレビューしたため、誤った解釈があったことも影響。
- 第2位: ChatGPT: 50点。プロンプトの不備が評価に影響したとされ、正確な反応が不足。
- 第1位: Claude for Legal: 60点。詳細な結果を出力したが、プロンプト設定の不備が下げ要因となった。

4. 今後の指針

今回の実験結果から、AIによる契約書レビューにはいくつかのポイントが浮かび上がりました。

プロンプトの重要性

AIの性能を最大限引き出すためには、入力するプロンプトや前提情報の精度を向上させる必要があります。ホリエモンAI学校の利用規約のような情報を前提として活用すれば、改善が見込まれます。

レビュー結果の判断

AIが生成したレビュー結果を適切に理解し実務に活かすためには、弁護士や法務の専門担当者による確認が不可欠です。専門知識を持つ人がいることで、AIの出力を効果的に活用することが可能になります。

交渉における判断

AIが提案する修正を実際の交渉に落とし込む際には、リスクと実務上の制約を考慮する必要があります。特に、相手方が求めた修正を拒否する場合、どの点で妥協するかの判断が求められます。

5. 結論

Claude for Legalは、適切な前提情報を読み込ませることで、日本においても実務レベルでの活用が期待されます。ホリエモンAI学校では、実際に Claude Cowork & Code の体験イベントやオンライン講座を設けており、AI技術を法務に活かしたい方のサポートを行っています。

興味のある企業や法務関係者は、お気軽にお問い合わせください。

【ホリエモンAI学校】
ウェブサイト: https://horiemon.ai/