株式会社ロビンソン・コンサルティングが新たに開発したAI技術「VisionCore」と「TaskMind」
株式会社ロビンソン・コンサルティングは、独自開発の画面認識およびタスク実行のAIモデル「VisionCore」と「TaskMind」を統合したVision Language Model(VLM)を発表しました。この新技術は、特にSIer(システムインテグレーター)やRPA(ロボティックプロセスオートメーション)事業者向けに提供されることを目的としています。業務の効率化が求められる現代において、同社の技術は自動化の新たな可能性を切り拓くものとなるでしょう。
VisionCoreとTaskMindの新しいアプローチ
本VLMは、複雑なグラフィカルユーザーインターフェース(GUI)における操作手順を人間のように理解し、自律的にマウスやキーボードを使って業務を遂行するための技術です。具体的に2つの要素から成り立っています。まず、
VisionCoreは画面上の要素をリアルタイムに認識する視覚認識モデルです。これにより、ボタンやリンクなど、さまざまな操作対象を実際のビジュアルに基づいて特定することができます。加えて、視覚的な文脈を理解する能力も備えています。
次に、
TaskMindは、業務の文脈やユーザーからの指示を理解し、操作手順を策定するタスク推論モデルです。これは、過去の実行履歴や画面の状態を参照しながら操作の計画を柔軟に生成できる特徴があります。特徴的なのは、自然言語から即時に操作シナリオを構築できる点です。
強化学習による能力向上
ロビンソン・コンサルティングでは、VLM全体の高精度化を図るために
強化学習を活用しています。ユーザーの操作に対する成功や失敗をフィードバックとして学習することで、未知の業務フローや画面に対しても柔軟に対応できるように設計されています。その中でもTaskMindは、自己強化ループにより、同じ指示に対して最適な手順を選択する能力を持ち、進化を続けます。
比較と業界内の優位性
同社のVLMは、業界標準と比較しても高い性能を誇ります。特に、複雑な業務UIや日本語環境への適応力において、汎用VLMであるGPT-4oと比較しても高いタスク遂行精度を見せています。特に5ステップ以上のGUI操作や、複数条件の判断が求められる業務において、実運用を前提とした高い実行成功率が期待されています。
主な提供内容
ロビンソン・コンサルティングは、パートナー向けに以下の提供を行います。
- - VisionCore/TaskMindモデルAPI
- - エージェント開発支援SDK
- - カスタマイズ・チューニング支援
- - 技術共有・共同開発プログラム
適用シーンと今後の展望
この新技術の適用範囲は広く、特に業務自動化の分野で非常に効果的です。RPAの補完として人手操作が必要な業務の完全自動化や、業務ツールのUIテスト、自動検証など多岐にわたります。今後、同社は画面自動操作だけでなく、業務の文脈を理解し最適な行動を自動選択できる高性能な自律エージェントの開発を目指していくとしています。
ロビンソン・コンサルティングは国内外のSIerやRPA企業と提携し、業務自動化の未来を共に推進していく計画です。これにより、業務現場における“実行インテリジェンス”を支える強力な基盤を築いていくことでしょう。
会社情報
- - 会社名:株式会社ロビンソン・コンサルティング
- - 所在地:東京都文京区後楽2-3-21 住友不動産飯田橋ビル GROWTH 文京飯田橋 3階 Room7
- - 代表者:ロビンソン コスモ
- - 事業内容:生成AI・業務自動化・VLMエージェント開発
- - URL:https://deepagent.jp/
お問い合わせ先