電通総研が新たに追加したマルチモーダルRAG
2024年11月8日より、株式会社電通総研(本社:東京都港区)が展開する企業向け生成AIソリューション「Know Narrator(ノウナレーター)」に、マルチモーダルRAG(Retrieval-Augmented Generation)機能が追加されます。このテクノロジーの進化は、企業の業務効率化と情報の精度向上に寄与することが期待されています。
マルチモーダルRAGとは?
マルチモーダルRAGは、従来のRAG技術を更に高度化させたもので、テキストだけでなく、図やグラフ、写真といった様々な形式の情報を参照し、それに基づいて回答を構築する能力を持っています。これにより、情報の捉え方がかつてないほど広がり、アルゴリズムの知識のバリエーションが増すことになります。
これまでの課題を解決
従来のRAG技術では、図やグラフなどの視覚情報を理解することができず、これが一つの大きな課題となっていました。この結果、テキスト情報だけでは文脈を正確に把握することが難しく、回答の精度に欠けることが多かったのです。新たに搭載されたマルチモーダルRAGにより、これまで議論の枠外だった視覚データを加味した回答生成が可能となります。これにより、情報の精度と実用性が飛躍的に向上することが見込まれています。
新機能の具体的なユースケース
以下のように、マルチモーダルRAGはさまざまな場面で実際に利用されることが考えられています。
1.
社内申請方法の検索: 社内の申請手続きに関する質問を受けた際に、システムがマニュアル内のワークフロー図を把握し、次に取るべきアクションや、申請者に関する具体的な回答を引き出します。
2.
CAE等の解析データの解釈: 製造業界で使用されるCAEなどの解析データを解析し、関連するグラフや画像も徹底的に理解することで、より詳細で的確な回答を提供可能になります。
3.
調査レポートの内容考察: 調査結果のグラフも読み取ることができるため、レポート全体を整理して、重要なポイントを抽出し、見解をまとめることが可能です。
今後の展望
電通総研は、2024年内に複雑な思考過程を経て回答を生成する「o1-preview」を「Know Narrator」に組み込む計画も進行中です。企業の生産性向上やDX推進に向け、引き続きAIの研究開発を促進し、ユーザビリティの向上に努めるとのことです。この一連の取り組みは、企業のみならず、広く社会全体の効率化にもつながるでしょう。
電通総研は「HUMANOLOGY for the future~人とテクノロジーで、その先をつくる。~」をビジョンに掲げ、企業や官庁との協力を通じてテクノロジーによる解決手法を模索し続けています。マルチモーダルRAGの導入は、そのビジョンを実現するための重要なステップであると言えるでしょう。
未来の社会に向けたこの革新が、企業や生活者に与える影響は計り知れず、多くの期待が寄せられます。電通総研は今後もテクノロジーを駆使し、有意義な変化を社会に提供することで、さらなる進化を目指しています。