AI分野の革新:GeoProg3Dの誕生
立教大学大学院人工知能科学研究科の安木駿介氏と瀧雅人准教授が主導する研究チームが、国際大会ICCV 2025(International Conference on Computer Vision 2025)で、新たに開発したAIフレームワーク「GeoProg3D」に関する論文を発表する運びとなりました。この会議は、パターン認識とコンピュータービジョン分野における最高峰の権威を誇ります。
研究の背景と重要性
近年、デジタルツイン技術の進展により、都市の3Dモデルを高精細に再現することが可能となりました。これにより、都市の計画や自動運転のシミュレーションにおける応用が広がっています。しかし、これらの3Dデータを人間が直感的に操作することは難しく、効果的な情報検索が課題でした。これまでの技術は主に小規模な環境に焦点を当てており、コントロールや質問応答が限定的であったためです。
GeoProg3Dの革新性
「GeoProg3D」は、広大な都市スケールでの3Dデータを扱う新しいAIフレームワークとして設計されました。この技術は、以下の三つの要素から成り立っています。
1.
GCLF(地理情報と連携した都市スケール3D言語場)
GeoProg3Dは、広範な3Dデータを効率的に管理するために、階層構造をもつメモリ効率の良い表現を導入しています。ユーザーは自然言語を用いて3D空間内の情報を検索できるようになります。
2.
大規模言語モデルによるビジュアルプログラミング
質問を理解するための「頭脳」として、大規模な言語モデル(LLM)が活用されています。これにより、質問を解決するためのプログラムが自動生成され、より効果的なサポートが実現されます。
3.
地理空間視覚API群と評価データセット
特専門的な視覚タスクを処理するためのAPIが開発され、合計952の質問応答ペアを含む評価データセット「GeoEval3D」が構築されました。
このようにして、GeoProg3Dは複雑な構成的推論を可能にし、従来のモデルよりも高い性能を実現しました。
期待される応用
この新技術は、都市計画、災害シミュレーション、さらに次世代のナビゲーションシステムへと応用が期待されます。また、メタバースやデジタルツイン分野でも強化されたインタラクションを提供する可能性があります。今後の研究では、より複雑な問いに対応できるよう、プログラム生成の精度向上が目指されています。
研究チームと今後の展望
この成果は、安木氏と瀧准教授を中心とした多くの研究者の協力によって実現したものであり、AI分野の発展に寄与するものと期待されます。立教大学の瀧雅人研究室は、AI技術の基礎から応用まで広く研究を行い、今後もさまざまな成果を発表することでしょう。
論文情報
- - タイトル: GeoProg3D: Compositional Visual Reasoning for City-Scale 3D Language Fields
- - 著者: Shunsuke Yasuki, Taiki Miyanishi, Nakamasa Inoue, Shuhei Kurita, Koya Sakamoto, Daichi Azuma, Masato Taki, Yutaka Matsuo
- - リンク: 論文はこちら
このように、「GeoProg3D」は、AIと人間が3D空間を共に解析し、操作していく未来を見据えた重要な一歩であるといえます。