多言語音声モデルコンテスト
2025-03-12 18:06:44

最大10,000ドル獲得の多言語会話音声モデルコンテストが始動

最大10,000ドル獲得のチャンス!



Datatang株式会社が主催する「MLC-SLM Workshop」と題された多言語会話音声モデルワークショップコンテストの参加者募集が現時点で始まりました。このワークショップは、MetaやGoogle、Samsung、Naverといった名だたる企業と共同で開催され、優勝チームには最大10,000ドルの賞金が贈呈されます。

大規模言語モデルの重要性



近年、大規模言語モデル(LLM)は、音声認識や対話モデルにおいて特に注目されています。LLMは、言語の理解や生成において強力な力を持っており、自動音声認識(ASR)や音声対話システムなどに活用されています。しかし、現実の音声データは自然な中断や多様な会話スタイルといった多くの難題を抱えています。これらは、LLMを用いたモデル開発には不可欠な要素です。

一方、多言語話者のための音声データは不足しており、コンテストはその解決を目指すものです。つまり、多言語会話のデータセットを構築し、音声認識の精度向上に寄与するという目的があります。

タスク設定



コンテストには二つの主要タスクが存在します。

1. 多言語会話型音声認識モデルの開発: ここでは、与えられたオラクルセグメンテーションを基に、LLMを活用したASRモデルの開発が求められます。特に、文字起こしの精度を最適化することが目的です。

2. 多言語会話音声のダイアライゼーションと認識: このタスクでは、事前に情報が提供されない中で、話者の特定と音声の文字起こしのシステムを開発します。システム設計には柔軟性が求められ、パイプライン型とエンドツーエンド型の両方が推奨されています。

重要な日程



今後のスケジュールは以下の通りです:
  • - 2025年2月20日:申し込み開始
  • - 2025年3月10日:トレーニングデータ公開
  • - 2025年3月17日:開発セットとベースラインシステムのリリース
  • - 2025年5月15日:評価セット公開・ランキング発表
  • - 2025年6月01日:提出ポータル公開
  • - 2025年6月20日:提出締切
  • - 2025年7月10日:結果通知
  • - 2025年8月22日:ワークショップ開催(INTERSPEECH2025・ロッテルダム)

データセットについて



今回のチャレンジでは、英語やフランス語、ドイツ語といった11言語の音声データが使用されます。約1500時間にも及ぶさまざまな言語の録音が行われており、特に英語データは多国籍なアクセントが収録されています。このデータをもとに、多言語間でのコミュニケーションモデルが構築されることで、実世界の会話の複雑さに対応する高精度なAIシステムが期待されています。

賞金情報



コンテストの総賞金額は20,000ドルで、各タスクの上位チームには賞金が授与されます。タスク1では1位に5,000ドル、2位に3,000ドル、3位に2,000ドルが用意されており、タスク2でも同様に高額の賞金があります。これにより、多くの参加者が奮闘することが期待されます。

参加方法



興味のある方は、2025年4月1日までにデータ使用契約書をアップロードし、必要事項を登録フォームに記入してください。詳細はこちらをご覧ください。

Datatang株式会社について



Datatang株式会社は、東京都千代田区に本社を構えるAI学習データ提供の企業です。2020年に設立され、5000万円の資本金を持ち、自社データの収集やアノテーションを行っています。新たな音声認識技術の発展に向けた挑戦が続く中、このコンテストもその一環といえるでしょう。


画像1

会社情報

会社名
Datatang株式会社
住所
東京都千代田区神田淡路町2-105ワテラスアネックス6階
電話番号
03-6256-8911

トピックス(IT)

【記事の利用について】

タイトルと記事文章は、記事のあるページにリンクを張っていただければ、無料で利用できます。
※画像は、利用できませんのでご注意ください。

【リンクついて】

リンクフリーです。