ARCHが提供するAIエージェント向けベンチマーク「LLMSnare」のカスタマイズ評価受付開始

ARCH株式会社が進める特化型AIエージェント評価

ARCH株式会社は、AIエージェント向けの新たな評価ツール「LLMSnare」を発表し、企業向けのカスタム評価に関する相談を受け付けることを決定しました。この取り組みは、AIエージェントに最適な大規模言語モデル（LLM）を、業務ケースごとに評価し、企業が抱える具体的な問題に対する解決策を提供することを目指しています。

LLMSnareとは

LLMSnareは、実際の業務環境におけるAIエージェントの行動を評価するツールです。従来のベンチマークが最終的な出力の正しさだけを評価していたのに対し、LLMSnareでは、文脈の読解、ツール利用の効果、誤誘導からの回復能力など、多面的な観点からAIのパフォーマンスを測ります。これにより、モデルの選定が企業の現実に即したものになります。

企業向けカスタム評価の必要性

昨今、商用LLMやオープンモデル、さまざまなクラウドサービスを利用する企業が増えています。しかし、すべてのモデルが自社の業務に適しているわけではありません。例えば、問い合わせ分類、社内文書確認など、各業務には特有の要求があり、一般的なモデルのランキングだけで評価することは不十分です。

LLMSnareは、この業務特有の評価を行うための土台を提供します。各企業の業務に合わせたカスタムケースを設計し、その条件に基づいて評価を実施することで、モデルが実際に業務に適しているかどうかを明らかにします。

ARCHの取り組みと評価基準

ARCHはLLMSnareを用いて、企業ごとの業務ケースに適した評価基準を設計することを重視しています。具体的な評価内容としては、企業内ルールや文書に基づいた採点ルールの設計、モデル選定に関わる履歴の記録、評価結果の監査記録等が含まれます。これにより、1つの最適なモデルを見つけ出すのではなく、業務が求める条件に応じて適切なモデルを選定できるようになります。

継続的な評価とフレキシビリティ

LLMSnareを用いた評価の重要な点は、企業が新たな業務ケースやモデル更新に対して、柔軟に対応できる点です。継続的な評価を通じて、モデルの性能変化を監視し、必要に応じて再評価を行うことができます。これにより、AIエージェントを業務へ適切に接続し、実行することが可能になります。

代表者の想い

ARCH株式会社のCEOであるYonglong Wei氏は、「AIエージェントに使用するモデルを選定する際には、名前や一般的な順位だけでは不十分です。必要な文書を確認し、正しいツールを使用し、誤った指示から戻れるかどうかがまず重要です。LLMSnareを通じて、企業が最適なモデルを選ぶための結果に基づく利用が可能になります」と述べています。

相談受付

ARCHでは、LLMSnareを使用した企業向けカスタムベンチマークケースの設計についての相談を受け付けています。特に、初期段階では公開前レビューや社内文書確認など、評価条件が定義しやすい業務からの導入を想定しています。詳細な評価条件設定やモデル評価については、公式のリンクから相談が可能です。

LLMSnare Arena

カスタム評価に関する相談

このようにARCHの新たな試みは、企業が実際の業務でAIエージェントを効果的に活用するための重要な一歩となるでしょう。