D-IDが発表した新世代AIアバター「V4 Expressive Visual Agents」の魅力とは

D-IDの新たな挑戦

2026年3月16日、ニューヨークからのニュースで、AIアバターソリューションを手掛けるD-IDが最新モデル「V4 Expressive Visual Agents」を発表しました。この新しいAIアバターは、大規模言語モデル（LLM）との連携により、リアルタイムの会話と長尺の動画コンテンツの生成が可能となっています。

V4 Expressive Visual Agentsの特長

「V4 Expressive Visual Agents」は、新しい拡散モデルを基盤としており、実在の俳優の演技データをもとにより自然な表現を学習しています。これにより、生成速度は向上し、対話応答の遅延は0.5秒未満、そして最大4K解像度での高精度なリップシンクが実現されるのです。これにより企業は、質の高い、表情豊かで自然なコミュニケーションを実現するシステムを手に入れることができます。

今回のモデルは特に低遅延配信に焦点を当てているため、リアルタイムの対話が可能で、研修モジュールや説明動画、多言語教育コンテンツにも適しています。D-IDはこれまでに、従来モデルを使用して80万体以上のビジュアルエージェントと3億以上の非対話型アバターを生成してきました。新モデルは、月額5.90ドルからのプランで利用できます。

表情がもたらす影響

調査によると、人間らしい表情の要素は、知識の伝達や理解度の向上に貢献するとしています。そのため、企業は新たにこの技術をオンボーディングや研修、顧客エンゲージメント、社内コミュニケーションと様々な場面で活用しています。

「V4 Expressive Visual Agents」は、選択した感情トーンに応じてリアルタイムで表現を変えることができる初の高品質アバターです。これにより、メッセージのトーンと意図を整合させ、コミュニケーションの効率も高まります。また、このアバターはAIシステムのビジュアルインターフェース層として設計され、ユーザーとの双方向のコミュニケーションを可能にします。

感情認識とインタラクション

さらに、「V4 Expressive Visual Agents」には、話し相手の感情を認識するためのカメラレイヤーが追加されています。これにより、非言語的手がかりがリアルタイムでアバターの表現に反映され、より感情豊かな対話が実現します。さまざまなビジュアル要素を会話中に表示することもでき、よりインタラクティブな体験が提供されます。

D-IDのアバターは、従来のショートフォーム動画生成ツールとは異なり、数分から数時間の長さの動画を一貫して制作できます。これにより、教育や訓練、説明動画制作でも高い費用対効果を発揮することが可能で、D-IDのコストは1チャットあたり数セントに抑えられています。

D-IDの未来

D-ID共同創業者兼CEOのGil Perry氏は、「私たちは静止画を話すポートレートから大きく進化してきた」と語っています。新しい「V4」は、AIアバターの忠実度とパフォーマンスにおける新たな基準を設け、企業向けの効率性とセキュリティを兼ね備えています。

2025年9月以降、D-IDはsimpleshowを買収し、研修および説明動画のエコシステムに自社技術を統合し、その過程で年間経常収益（ARR）が250％成長しました。この成功は、インタラクティブなAI動画に対する企業の需要が高まる中で達成された成果です。