大規模言語モデルの評価を革新する「Lens for LLMs」の商用サービスが開始

株式会社Citadel AI、商用版「Lens for LLMs」を発表

東京都渋谷区に本社を置く株式会社Citadel AIは、最新の大規模言語モデル(LLM)の評価ツール「Lens for LLMs」の商用版の提供を開始しました。このツールは生成AIの品質を自動的に評価し、その結果をリアルタイムでモニタリングできる画期的なプロダクトです。自社サービスの利用を通じて、企業が安全かつ効率的に生成AIを導入できる環境を整えます。

自動評価と目視評価の融合

商用版「Lens for LLMs」は、自動評価メトリクスと目視評価を融合させた独自の技術を採用しています。このアプローチにより、生成AIを導入する企業にとって、リスクを自動で見える化し、モニタリングすることが可能になります。特に、チャットボットや他の生成AIアプリケーションを提供する際に伴うセキュリティリスクに対応するための機能が強化されています。

自動レッドチーム機能の強化

多くの企業が生成AIを導入する中、対外的に公開する場合のリスク管理が求められています。商用版では、安全性を確保するために新しく導入された21種類の自動レッドチーム機能を搭載しており、企業は自社の生成AI環境をより安心して活用できるようになりました。

- 自動メトリクス: セキュリティリスク評価を行い、異常を検出する機能。
- 敵対的データセット生成: 複数の異なるトラブルシナリオを想定したデータの生成。
- データ拡張機能: LLMの堅牢性をテストするための多様な手法を提供。

このような機能により、安全で堅牢な生成AIの活用が促進されます。

カスタムメトリクスの導入

「Lens for LLMs」には、既定のメトリクスに加えて、企業が独自にカスタマイズできるカスタムメトリクスの提供も開始されました。企業は特定の用途に即した評価基準を設定し、生成AIのパフォーマンスを細かく評価することが可能です。例えば、質問の関連性や有害性の評価などが挙げられます。この柔軟性が、各企業のニーズに応じた評価を実現します。

ヒューマン・イン・ザ・ループ機能の強化

自動評価だけでなく、人手による評価機能も拡充されています。これにより、現場のPDCAサイクルを反映させることが可能となり、システムの信頼性をさらに高めます。営業部門や事業部門からのフィードバックを受けて、アノテーションを通じた評価が行える機能が新たに追加されています。

モニタリング機能によるパフォーマンスの可視化

新たなモニタリング機能を通じて、バージョンごとのパフォーマンス変化を視覚的に把握しやすくなります。これは、迅速な品質評価を可能にし、企業が継続的に品質を改善できる環境を提供します。

Citadel AIのビジョン

「信頼できるAI」の社会実装を目指すCitadel AIは、ハイリスクAIに関する課題と向き合いながら、グローバルスタートアップとして業界の最前線を歩んでいます。今回の商用版「Lens for LLMs」により、企業はリスクを軽減し、安全なAI活用に向けた一歩を踏み出すことができるでしょう。

この新しいツールにより、企業が生成AIを自信を持って活用できる時代の到来が期待されます。