AIの進化を測る新たな指標「ALE-Bench」の誕生

AtCoder株式会社とSakana AI株式会社が共同で開発した「ALE-Bench」は、AIによる最適化アルゴリズムの実力を測定する革新的なベンチマークです。この新しい標準は、組合せ最適化問題に特化しており、AIの性能を客観的に評価するための新たな枠組みを提供します。

ALE-Bench開発の背景

組合せ最適化問題は、物流や生産計画、電力供給など、様々な産業で重要な役割を果たしています。これまで、各種の制約条件に基づいて最適解を求めるために、高度な専門知識を持つエンジニアが必要とされていました。彼らは長い時間をかけて、最適化アルゴリズムの設計・開発に取り組んでいましたが、AIの導入によりこのプロセスが効率化される可能性があります。

AIは果たして、必要とされる「創造性」や「継続的思考」、「知見の蓄積」を模倣することができるのでしょうか。そのためには、AIの能力を正しく評価できるベンチマークが不可欠です。そこで誕生したのがALE-Benchです。

ALE-Benchの概要

ALE-Benchは、AtCoderの「AtCoder Heuristic Contest」（AHC）において出題された多様な組合せ最適化問題から構成されています。計40問の問題が含まれており、それぞれが創造性や高度な推論能力を必要とします。

これにより、AIは人間の参加者と同じ条件下で評価されることが可能になります。また問題文は自然言語で記述されており、視覚化ツールやコード実行環境、評価ソフトウェアも提供され、AIの能力を公平に比較することができるようになっています。

ALE-Benchの役割

ALE-Benchには二つの主要な役割があります。一つは、AIによる組合せ最適化問題の性能評価手段を提供することです。従来のベンチマークは、正解/不正解を判定する形式が多く、解の良し悪しを競う課題には対応していませんでした。ALE-Benchはこのギャップを克服する重要なツールとして期待されています。

もう一つは、AIが最適化アルゴリズムを開発する際に必要とされる「創造性」や「継続的思考」、「試行錯誤による知見の蓄積」を客観的に測定できる枠組みを提供する点です。これによりAIの高度な推論能力が数値化されて評価されることになります。

AIエージェント「ALE-Agent」による検証

ALE-Benchの開発に際し、Sakana AIは「ALE-Agent」というAIエージェントを開発しました。このエージェントはAHC046とAHC047という実際のコンテストに参加し、約1000人の人間参加者との競争に挑みました。AHC046では154位（上位16％）、AHC047では21位（上位2％）という結果を収め、その能力の高さを証明しました。