進化するAI技術: 複数物体を理解する新たなモデルの開発

国立研究開発法人産業技術総合研究所（産総研）の人工知能研究センターが、複数物体の幾何的関係性を理解し、説明可能な点群言語モデル「Multi-3DLLM」を開発しました。これは、部品同士の比較や接合関係を理解し、言語で説明する能力を持つ新たなAI技術です。

研究の背景

近年、製造現場でのAI技術導入が進む中、従来の視覚言語モデルは、主に単一物体の認識に留まっていました。これに対し、AIが複数物体を同時に理解し、それらの幾何的関係性を捉えることができれば、設計や製造のプロセスは大きく改善されると期待されています。特に、部品の接合や形状比較といった工程は、自動化が求められるカギとなります。

独自データセット「MO3D」の構築

本研究では、約7万件の三次元点群データに基づく独自のデータセット「MO3D」を構築しました。このデータセットは、複数物体の形状の違いや接合関係を問い直すための質問応答形式で設計されています。MO3Dを用いて、AIモデルが部品同士の幾何的関係性を高精度で理解し、言語で表現できるようにすることが目標です。

Multi-3DLLMの特徴と成果

「Multi-3DLLM」は、入力された三次元点群データから特徴を抽出し、部品間の関係性を説明できるモデルです。研究の評価実験では、このモデルが従来の視覚言語モデルに比べて約1.8倍の質問正答率向上を実現しました。具体的には、MO3Dを用いた部品比較の課題において、既存のモデルが11.7%の正答率であるのに対し、Multi-3DLLMは33.8%を達成しました。これは、複数物体の幾何的関係性の理解を高めた結果です。

製造現場への応用

この技術の導入により、製造業ではロボットによる部品選別や組立支援、さらには3D設計ソフトにおける形状比較が効率化されることが期待されています。今後、設計作業が効率的に行えることは、製品開発の迅速化にもつながります。例えば、従来は専門家の判断を必要としていた複雑な部品の接合判断も、AIが担うことで省力化が図られます。

今後の展望

今後の研究では、さらなるデータセットの拡張や、より複雑な関係性を持つ物体間の理解に向けたモデルの開発が進む予定です。製造現場での実用化が進むことで、AIが人の判断を支援し、効率化を促進することが期待されています。また、MO3Dの公開により、フィジカルAIの研究分野の発展も見込まれています。

発表予定

本研究成果は、2026年6月に米国デンバーで開催されるIEEE/CVF Conference on Computer Vision and Pattern Recognitionにおいて発表される予定です。関心のある方は、GitHubにて公開される予定の「Multi-3DLLM」と「MO3D」にも注目です。

AI技術の進化と製造業への普及が、今後の社会にどのような影響を与えていくのか、これからの展開に注目が集まります。