パナソニック生成AIが世界2位
2024-07-16 13:02:36

パナソニック コネクト、画像認識世界最高峰の学会で生成AIマルチエージェントシステムが世界2位を獲得!

パナソニック コネクトの生成AIが、動画理解で世界2位!



画像認識の世界最高峰の学会であるCVPR2024で、パナソニック コネクトが開発した生成AIマルチエージェントシステムが、コンペ「Ego4D EgoSchema Challenge」にて世界で2位の評価を獲得しました。

このコンペでは、3分間の動画を見て、「映像の中の人物が何をしようとしているのかを推測してください」といった質問に対して、AIが最適な回答を5つの選択肢から選ぶ「Video Question Answering(VideoQA)」タスクに挑戦します。パナソニック コネクトは、開発したシステムで71%の正解率を達成し、世界で2位にランクインしました。

動画の内容を理解して質問に答える、高度な技術



静止画認識とは異なり、動画の内容を理解して質問に答えるには、長時間の動画の中で時間の経過とともに変化する様々な動きの中から、重要な行動とその目的を認識して判断する必要があります。さらに、言語で表現された質問文と回答文を解釈することも必要で、動画と言語の相互理解を行う高度な技術開発が求められます。

パナソニック コネクトは、2021年の同学会で受賞歴のある動画を用いた行動予測タスクの研究開発経験を生かし、VideoQAタスクに挑戦しました。

AIマルチエージェントシステムによる、動画と言語の相互理解



今回のAIマルチエージェントシステムは、動画と自然言語処理技術を融合することで、動画の内容を過去の経緯を理解して推測し、判断することが可能になります。これにより、従来の画像認識技術では不可能だった、人物の行動の意図や目的を理解できるようになり、様々な分野への応用が期待されます。

例えば、工場の製造工程における非効率な作業を把握し、工程の見直しを行うことで、製造現場の改善に役立てられます。

今後の展望



パナソニック コネクトは、今後もサプライチェーン、製造、物流、流通の現場でのAIマルチエージェントシステムの活用を視野に、さらなる開発に取り組んでいく予定です。

関連記事



パナソニック、「EPIC-KITCHENS-100 2021 Challenges」コンテスト動作予測部門で、準優勝(2021年7月9日発表)
Egocentric Live 4D Perception (Ego4D)
視覚と言語情報を同時に扱うAIマルチエージェントシステム ソースコード(GitHub)
視覚と言語情報を同時に扱うAIマルチエージェントシステム テクニカルレポート(arXIV)
パナソニック コネクト株式会社 ウェブサイト
パナソニック コネクト Newsroom
* パナソニック コネクト DEI(Diversity, Equity & Inclusion)


画像1

画像2

会社情報

会社名
パナソニックグループ
住所
大阪府門真市大字門真1006番地
電話番号
06-6908-1121

トピックス(IT)

【記事の利用について】

タイトルと記事文章は、記事のあるページにリンクを張っていただければ、無料で利用できます。
※画像は、利用できませんのでご注意ください。

【リンクついて】

リンクフリーです。