最大10,000ドル獲得の多言語会話音声モデルコンテストが始動

最大10,000ドル獲得のチャンス！

Datatang株式会社が主催する「MLC-SLM Workshop」と題された多言語会話音声モデルワークショップコンテストの参加者募集が現時点で始まりました。このワークショップは、MetaやGoogle、Samsung、Naverといった名だたる企業と共同で開催され、優勝チームには最大10,000ドルの賞金が贈呈されます。

大規模言語モデルの重要性

近年、大規模言語モデル（LLM）は、音声認識や対話モデルにおいて特に注目されています。LLMは、言語の理解や生成において強力な力を持っており、自動音声認識（ASR）や音声対話システムなどに活用されています。しかし、現実の音声データは自然な中断や多様な会話スタイルといった多くの難題を抱えています。これらは、LLMを用いたモデル開発には不可欠な要素です。

一方、多言語話者のための音声データは不足しており、コンテストはその解決を目指すものです。つまり、多言語会話のデータセットを構築し、音声認識の精度向上に寄与するという目的があります。

タスク設定

コンテストには二つの主要タスクが存在します。

1. 多言語会話型音声認識モデルの開発：ここでは、与えられたオラクルセグメンテーションを基に、LLMを活用したASRモデルの開発が求められます。特に、文字起こしの精度を最適化することが目的です。

2. 多言語会話音声のダイアライゼーションと認識：このタスクでは、事前に情報が提供されない中で、話者の特定と音声の文字起こしのシステムを開発します。システム設計には柔軟性が求められ、パイプライン型とエンドツーエンド型の両方が推奨されています。

重要な日程

今後のスケジュールは以下の通りです：

- 2025年2月20日：申し込み開始
- 2025年3月10日：トレーニングデータ公開
- 2025年3月17日：開発セットとベースラインシステムのリリース
- 2025年5月15日：評価セット公開・ランキング発表
- 2025年6月01日：提出ポータル公開
- 2025年6月20日：提出締切
- 2025年7月10日：結果通知
- 2025年8月22日：ワークショップ開催（INTERSPEECH2025・ロッテルダム）

データセットについて

今回のチャレンジでは、英語やフランス語、ドイツ語といった11言語の音声データが使用されます。約1500時間にも及ぶさまざまな言語の録音が行われており、特に英語データは多国籍なアクセントが収録されています。このデータをもとに、多言語間でのコミュニケーションモデルが構築されることで、実世界の会話の複雑さに対応する高精度なAIシステムが期待されています。