Nejumi LLMリーダーボード3
2024-07-01 21:43:08

進化するLLM日本語能力評価: Nejumi LLMリーダーボード3が公開!安全性評価など、更なる多角化でAIガバナンスに対応

日本最大級のLLM日本語能力比較サイト「Nejumi LLMリーダーボード」がバージョンアップ!安全性評価など、更なる多角化でAIガバナンスに対応



Weights & Biases Japan株式会社(以下、W&B Japan)は、2023年7月より運営してきた日本最大級のLLM日本語能力比較サイト、「Nejumi LLMリーダーボード」をバージョンアップし、「Nejumi LLMリーダーボード3」を公開しました。

今回のアップデートでは、評価ベンチマークの大幅な再構築により、用途別にLLMの性能を評価できるようになりました。加えて、AIガバナンスにおいて注目の高まる安全性評価が追加された点が大きな特徴です。安全性評価では、「制御性」「毒性」「偏見」など、人間の価値観と一致した出力を行えるか(アラインメント)を評価するフレームワークを導入しました。

より詳細な評価で、LLMの真価を明らかに



従来の「汎用的言語能力」に加え、「アラインメント」という新たな評価軸を導入したことで、LLMの性能をより多角的に評価できるようになりました。具体的には、日本語のアラインメント評価では、LCTGやJBBQ、JcommonseMoralityなど、公開されている最新データセットを最大限に取り入れ、LLMの倫理性や信頼性を検証しています。

また、実際のユースケースを想定したタクソノミーの整理を行い、結果を集計することで、LLMの潜在的な能力をより明確に示せるようになっています。さらに、従来のZero-shotに加えてFew-shotプロンプトによる評価を導入することで、LLMの学習方法の違いがスコアに与える影響をより正確に把握できるようになりました。

企業でのプライベート評価も容易に



今回のアップデートでは、vLLMを活用することで、評価プロセスの高速化を実現しました。さらに、推論インターフェースの統一により、様々なモデルの結果追加が容易になり、企業でのプライベート利用も促進されています。

インタラクティブな分析機能で、LLMの理解を深める



公開リーダーボードでは、WandB製品の強みを活かして、よりインタラクティブに評価結果を表示し、その場で分析することが可能です。例えば、理解能力と生成能力のバランスを評価したり、二つのモデルの違いがどのような事例で発生するのかを分析したりすることが可能です。

今後の展望



Nejumi LLMリーダーボードは、今後もLLM技術の進化に合わせて、評価項目や分析機能を充実させていく予定です。AIガバナンスの重要性が高まる中、Nejumi LLMリーダーボードは、LLMの開発・利用を促進し、AI技術の社会実装を支援していく重要な役割を担っていくことが期待されます。



画像1

画像2

画像3

トピックス(IT)

【記事の利用について】

タイトルと記事文章は、記事のあるページにリンクを張っていただければ、無料で利用できます。
※画像は、利用できませんのでご注意ください。

【リンクついて】

リンクフリーです。