日本初のRAG性能評価「Allganize RAG Leaderboard」公開
企業の生産性を革新するAIソリューションを提供する
Allganize Japan株式会社は、本日日本語RAG(Retrieval Augmented Generation)の性能を評価した
「Allganize RAG Leaderboard」を公開しました。RAGとは、社内のドキュメントや特定情報から信頼のおけるデータを検索し、情報を抽出してLLM(Large Language Model)が回答を生成する技術です。この技術は、企業内での生成AIやLLMの活用、さらにはハルシネーションの低減にも重要な役割を果たします。
RAG Leaderboardの目的
企業においてRAGを導入することで、業務の効率化や生産性向上が期待されています。しかし、RAGの実装は各社で異なるため、得られる成果にはバラツキが見られます。特に、日本企業が取り扱う文書は図表が多く含まれ、複雑な内容を扱うため、適切な回答を導くことが難しいとされています。そこでAllganizeは、企業が簡単に評価できるように、RAGソリューションの性能を集約したLeaderboardを作成しました。
RAG Leaderboardの詳細
Leaderbordは、Hugging Faceというプラットフォームで公開されています。また、主要なRAGソリューションの日本語性能を比較できる独自の評価指標を設け、企業に必要な情報を提供しています。その評価には、特定のドキュメントや質問、回答データセットが使用されます。
RAGソリューションの評価要素
Leaderbordでは、以下の3つの要素を評価の基準としています。
1.
Parser:文書から情報を抽出し、わかりやすいフォーマットに整形。
2.
Retriever:企業が保有するデータから該当情報を抽出。
3.
Generation:Retrieverから引き出した情報に基づき、LLMが正確な回答を生成。
業種ごとの性能評価
公開されたLeaderboardでは、金融、情報通信、製造、公共、流通・小売の5つの業種について、特に図表を含むドキュメントのRAG性能を評価しました。各業種ごとに12から14のドキュメントを使用し、独自に設定した60の質問に対してRAGの反応を分析しました。これは、実際の業務で扱う文書とおおむね一致する形式で評価されており、普遍的な活用が可能です。
自動性能評価の導入
Allganizeは、客観性を保つために、あらかじめ準備した正解用の回答と、LLM Evalという測定ツール4種類を用いた自動性能評価を採用しています。これにより、各RAGソリューションの正確性を数値で示すことができ、企業はどのソリューションが自社に最適かを選定しやすくなります。
RAGソリューションのラインナップ
以下のRAGソリューションが評価対象となりました。
- - Alli(Allganizeの提供するRAGソリューション)
- - LangChain
- - OpenAI Assistant
- - Cohere
今後、評価対象はさらに拡充される予定です。
RAG Leaderboardの閲覧
Allganize RAG Leaderboardは、Hugging Faceで公開中です。検証に使われたデータセットや各RAGソリューションへのリンクも提供されていますので、誰でも同様の検証を行うことが可能です。こちらからアクセスできます:
Allganize RAG Leaderboard
企業の支援活動
Allganizeは、企業のお客様のAI活用を全力でサポートしており、特に業務効率化を目指す企業に絶大な効果を発揮します。自身の技術を武器にし、様々な業界における生成AIの活用を促進し続けています。
関連イベントの開催
Allganizeは2024年9月20日に、RAGソリューションとLeaderboardについて紹介するイベントを開催します。ますます注目を集める生成AI技術を体験できる貴重な機会です。
イベント詳細:https://www.allganize.ai/ja/events/20240920event
企業情報
Allganizeは、日本、米国、韓国に拠点を持つ企業であり、グローバルな視野で活動しています。設立は2019年で、代表取締役は佐藤康雄氏です。企業のビジョンは「AIによって全てのビジネスのワークフローを自動化し、最適化する」ことです。
公式サイト:
Allganize
最新の技術やソリューションに触れ、企業の業務を一新するための第一歩を踏み出しましょう。