株式会社Livetoonが音声合成技術の新時代を切り開く!
株式会社Livetoonは、次世代TTS(Text-to-Speech)モデル「Livetoon TTS」の開発により、音声合成の世界に革命を起こそうとしています。本モデルは、最高の精度と迅速な処理能力を備え、AIとの会話をより自然なものにすることを目指しています。この新たな技術は、現状の最高峰モデルをも超える品質を提供し、業界に大きな影響を与えることでしょう。
120ミリ秒の超低遅延でリアルタイムの会話を実現
Livetoon TTSは、推論速度においても過去の技術とは一線を画します。NVIDIA T4環境下で、短文(20文字)の読み上げではわずか120ミリ秒、長文(200文字)でも760ミリ秒を達成しました。この速度は、他社モデルの約2倍に相当し、まるで人間同士の会話のような自然さを実現しています。
100ミリ秒以下の遅延は、「人の会話と区別できない速さ」と認識されており、Livetoonの目指す目標の一つである「リアルタイム水準」での対話が可能です。これにより、利用者はAIとの会話に、まるで人と話しているかのような感覚を持つことができます。
英語ではなく、日本語特化のアプローチ
テキストの読み上げにおいて、感情やニュアンスを込めることもLivetoonが重視しているポイントです。特に日本語の繊細なイントネーションや感情表現の再現は、他社の技術と比較しても圧倒的な表現力を誇ります。喜びを感じる声や、真剣なトーン、言葉と言葉の間に生まれる微細な「間」まで、すべてをコントロールする技術は、Livetoonが独自に開発したものです。
このモデルは、わずか15分の音声データを基にその人に似た声を最短1分で生成できる高速再現技術も持ち合わせており、個別のニーズにも応じやすい設計がされています。
日本語音声合成の「壁」を突破
日本語の音声合成において最も厄介な問題は、漢字の読み方や固有名詞の発音の難しさです。「生年月日」を誤って読んだり、人気のアニメキャラクター名を正しく発音できないケースが多々ありました。こういった「日本語の壁」に真正面から挑んできたのがLivetoonです。
実際に行った比較検証では、Livetoon TTSは他の高性能モデルに対し、エンターテイメントやビジネス領域で圧倒的な成功率を記録しました。特に固有名詞が多いシーンにおいては、ドメスティック市場での正確性を一段と高める結果となりました。
フルスクラッチ開発による優れた性能
Livetoon TTSは、その完成度を可能にした要因として、全てをフルスクラッチ開発した点が挙げられます。テキスト解析から音響モデル、ボコーダーまで、すべてを日本語に特化し、それぞれのプロセスで最高水準を達成することで、他社が模倣できない性能を持つモデルへと仕上げました。
幅広い活用に向けて
この技術は、AIキャラクターとの会話が楽しめる「kaiwa」や、顧客サポートの自動応答、医療現場での対話支援など、様々なビジネスシーンでの応用が期待されています。また、自社サービスや既存のシステムに柔軟に組み込むことができるAPIも用意する予定です。
Livetoonの代表である木下恭佑氏は、「AIが今よりも日常に溶け込む存在になる」と述べ、AIと人間が同じテーブルで会話を交わす未来を見据えています。この技術が多くの場面で役立つことを信じ、さらに開発を進める姿勢を貫くことでしょう。
今後、TTSモデルの技術を多くの企業や団体に展開し、自然な音声が求められるあらゆる分野で、新たな価値を提供する準備を行っています。Livetoonの技術は、私たちの会話体験をさらに豊かにしてくれることでしょう。私たちが目指す未来は、AIと人間の垣根を取り払い、共に楽しめる社会の実現です。