カラクリが国産CUAモデル『KARAKURI VL2』を開発、操作性能が飛躍的に向上

カラクリが国産CUAモデル『KARAKURI VL2』を開発

カラクリ株式会社は、経済産業省の生成AI開発支援プログラム「GENIAC」第3期の成果として、国産のCUA（Computer Use Agent）モデル『KARAKURI VL2』を発表しました。このモデルは続々と進化を遂げており、特に画像編集やメール操作において従来のモデルを凌ぐ性能を示しています。

『KARAKURI VL2』の特長

『KARAKURI VL2』は8Bパラメータを持つ視覚言語モデルであり、特に自社開発の日本語PC操作ベンチマーク『OSWorld-JP v0.2』を使用して評価されています。この評価によると、合計100タスクにおいて、総合スコアはClaude Sonnet 4.6には及ばないものの、画像編集（GIMP）やメール操作（Thunderbird）のカテゴリではそのスコアを超える成果を上げています。

特に注目すべきは、複数アプリケーションの横断操作（multi_apps）で、ベースモデルと比較して約2.8倍という大きなスコア向上を達成していることです。

オープンソースとしての提供

本プロジェクトでは、学習済みモデルに加えて評価に使用したベンチマークもオープンソースとして公開しました。第三者による再現性の確保や、国内におけるCUA研究の共通評価基盤の確立に向けて、強い意義を持つ取り組みです。学習用コードも近日中に公開予定です。

- 学習済みモデル: KARAKURI VL2
- ベンチマーク: OSWorld-JP

ベンチマーク結果の詳細

モデルの性能を評価した結果、以下のような結果が得られました。特にgimp（画像編集）やthunderbird（メール）のカテゴリでスコアが高く、業務特化型のモデルとしての強みを見せています。

カテゴリ	タスク数	KARAKURI VL2	Claude Sonnet 4.6
-	-	-	-
TOTAL	100	0.331	0.593
gimp（画像編集）	7	0.476	0.238
thunderbird（メール）	4	0.917	0.750

この結果から、KARAKURI VL2は業務特化型の軽量モデルとして、従来のモデルに比べて特定の業務領域において圧倒的な精度を示すことが確認されました。

技術的アプローチ

KARAKURI VL2の開発にはさまざまな技術的なアプローチが含まれています。

1. ローカル環境での運用: 8Bパラメータの軽量設計により、企業のインフラ上で動作させることができ、機密データを外部に送信することなく安全にPC操作を自動化できます。

2. 業務特化学習: ネット上には存在しない業務の操作パターンを合成データとして生成し、特定業務における精度を向上させています。

3. 教育基盤: AWS Trainiumを利用した大規模な学習基盤により、モデルの開発は画期的な取り組みとなっています。

今後の展開

カラクリは今後、KARAKURI VL2を基にしたAIエージェントアプリケーションの各種サービスを展開予定です。カスタマーサポートの分野から始まり、より多くのアプリケーション間での操作自動化が目指されています。また、ベンチマークも継続的に更新し、国内CUA研究の進展を支える標準的な評価基盤の構築に注力します。

このように、カラクリ株式会社のKARAKURI VL2は、国産技術の粋を集めた最新の成果物であり、国内のAI研究と技術の発展に大きな影響を与えることが期待されます。