日本語マルチモーダルAIが進化する時代
AI inside株式会社は、経済産業省とNEDOが主導する一大プロジェクト「Generative AI Accelerator Challenge (GENIAC)」の第3期において、新たに「日本語Full-Duplex-SpeechマルチモーダルLLMの研究開発」が採択されました。この事業は、音声・画像・テキストをスムーズに理解し、自然な対話ができるAIモデルの開発を目指しています。これは、企業のDX(デジタルトランスフォーメーション)を進めるための重要な一歩となるでしょう。
GENIAC事業の概要
GENIACプロジェクトは、日本国内における生成AIの開発力を高める目的で、経済産業省が推し進めています。このプロジェクトでは、運用実績のあるAI基盤モデルを活用して、企業や政府機関における生成AIの実装を促進します。
AI insideは、第2期での採択に続き、今回のテーマに取り組むことで、より効果的なAIエージェント「DX Suite」の構築を進めます。このAIエージェントは、日常業務の自動化を促し、企業の効率化に貢献します。
研究開発の目的と特徴
本事業では、日本語に特化したマルチモーダル生成AIモデルの開発に取り組むことが発表されています。ここで目指しているのは、以下の3つの特徴です。
1. Full-Duplex音声対話
人間の対話と同じ速度、つまり0.2msという迅速な応答を可能にする商用モデルの実現を目指します。ユーザーからの質問に対して即座に応答が返ることで、より自然でスムーズな会話体験が提供されます。
2. マルチモーダル対応
このモデルは音声に加え、画像やテキストを横断して理解し、ビジネスシーンでも役立つ情報提供ができます。資料や図表を参照しながら、適切な応答ができる高度なAIを目指しています。
3. 小型モデルでも高性能
大型のモデルが持つ高精度さと、小型モデルの迅速さを統合した設計によって、相手の意図を的確に読み取ることが実現されます。これにより、ビジネス現場での運用も容易になりそうです。
社会実装と効率化への貢献
開発後は、自治体窓口や医療・介護現場、コンタクトセンターといった音声データが多く発生するシーンでの活用が期待されます。具体的には、商談の内容を自動で構造化したり、医療現場での記録をスムーズに行ったりすることが可能になります。こうした取り組みは業務の効率化を図り、それにより人手不足の現状を補うことに寄与するでしょう。
AIの進化に向けたコメント
このプロジェクトに関して、AI insideの代表、渡久地 拓は次のようにコメントしています。「AIは今や業務を効率化するツールでだけではなく、人と共に考える存在へと進化しています。私たちはこれを実現するための挑戦に取り組むと同時に、信頼できるデータとアーキテクチャ構築の重要性を理解しています。」
また、技術的な挑戦について執行役員CTOの井上 拓真も語ります。「私たちが挑戦するこのモデルでは、Full-Duplexを利用し、喋ることと聞くことを同時に実現することを目指しています。業務現場で無理なく使用できる自然な会話体験を提供します。」
結論
AI insideは今後も、人間とAIがより自然に協力し、共存できるための技術開発を進めていく方針です。このプロジェクトを通じて、次世代のAI技術の進化と、日本国内での生成AIの発展に貢献することでしょう。日本の社会にとって、新たな未来を切り開くための重要なステップがここにあります。