AI insideが全二重型音声対話モデルを開発
AI inside株式会社は、対話と業務処理を同時に進められる全二重型の音声対話モデルを発表しました。本モデルは、経済産業省とNEDOのプロジェクトGENIACに基づいた成果であり、業務完了時間を劇的に短縮することに成功しています。
全二重型音声対話の革新
この全二重型音声対話モデルの最大の特徴は、人が話している最中にその意図を読み取り、即座に応答や業務処理を開始できることです。従来のシステムでは、話が終わるまで処理を待っていましたが、本モデルはその壁を打破しました。例えば、雑談の中で会話が盛り上がると応答内容をリアルタイムで調整し、仕事の相談時には笑い声などの非言語的な表現も加えます。さらに、旅行の相談では、自然なあいづちを行うことで落ち着いたやり取りを維持します。
画像理解による情報認識
本モデルは、画像、音声、テキストを統合的に処理する能力を持っており、特に画像の内容を日本語で的確に説明することができる点が強調されています。具体的には、競合するQwen3-8B-VLと比較して約6.1倍の精度で画像を理解し、業務プロセスを効率化します。このようにして、業務に関連する画像情報を音声指示で処理し、迅速に実行に移すことが可能です。
開発手法と拡張性
本研究では、既存の日本語理解能力を生かしつつ、必要な部分のみを追加学習させる手法が採用されています。これはモデル全体をゼロから構築するのではなく、機能を向上させる設計だからこそ実現できるもので、市場のニーズに迅速に適応できます。この拡張性は、エッジコンピュータ「AI inside Cube」などに応用可能であり、様々なプロダクトへの組み込みも視野に入れています。
業務完遂AIの実証実験
AI insideは、自社のAIエージェント基盤において、音声指示と帳票情報を組み合わせた業務実行の実証を行いました。その結果、従来人手で行っていた業務の完了時間を最大96%も短縮できることが確認されています。この実証により、AIが業務プロセスを自律的に完遂できる可能性が示されています。
今後の展望
開発された音声対話モデルは、商用バージョンへのアップデートが予定されており、より多くのサービスへの展開が考えられています。また、AI insideは「No more tools, work with buddy」という理念に基づき、AIを単なるツールとしてではなく、人と共に考え、判断を支える存在へと進化させることを目指しています。
AI inside株式会社について
AI inside株式会社は、生成AIや自律型AIの研究開発に特化した企業であり、政府機関から民間企業までの7万以上のユーザーへの導入実績を持っています。主力製品の「DX Suite」は、データ入力を効率化し、生産性向上を推進します。これらの取り組みを通じて、同社は人とAIの協働を目指し、業務効率化を図る「VALUE SHIFT」を実現する青写真を描いています。
詳しくは、
AI insideの公式ウェブサイトをご覧ください。