ABEJAがデータ公開
2024-09-20 22:04:52

ABEJAが日本語データセットをAWSで一般公開、AI実現に向けた新たな一歩

ABEJAが提供する新たな日本語データセットとは



AI技術の進化において、データの質と量は重要な要素です。その中でも特に、自然言語処理を行うためには、豊富な言語データが不可欠です。株式会社ABEJAが構築した大規模な日本語データセット「ABEJA CC-JA」が、アマゾン ウェブ サービス(AWS)のオープンデータスポンサーシッププログラムに採用され、一般公開されたことは、AI分野における大きなニュースとなりました。

ABEJAの取り組み



東京都港区に本社を置くABEJAは、2012年に設立され、「ゆたかな世界を、実装する」という企業理念のもと、デジタルプラットフォーム事業を展開しています。ABEJA Platformを中核に、さまざまな業種でのデジタル変革を推進。特にAI技術の研究開発にも力を入れており、2018年からは生成AIにおける取り組みを進めています。

「ABEJA CC-JA」は、2019年から2023年の期間にわたり、Common Crawlのデータを基に整理された日本語のコーパスです。このデータセットは430Bトークン、407B文字、さらに10TBを超える規模を持ち、通常のデータ収集作業の多くの工程を経て高い品質を保持しています。

AWSとの連携



このたび公表されたデータセットは、AWS上で自由に利用できる形で提供されます。AWSの「オープンデータスポンサーシッププログラム」に参加することで、ABEJA CC-JAは高いアクセス性を持ち、AI開発に必要なデータを多くのユーザーが手軽に利用可能になりました。これにより、AIプロジェクトでの開発速度が向上することが期待されています。

多くの企業がこのデータを利用することで、コストやリソース無しに高品質のデータを手に入れることができ、LLM(大規模言語モデル)の実装まで迅速に進められます。

日本語データがもたらすメリット



一般公開された「ABEJA CC-JA」は、特に日本語に特化しているため、国内の企業にとっては直面している課題を解決するには非常に効果的なツールとなるでしょう。日本語でのデータ解析は、他の言語に比べて多くの障壁がありますが、このデータセットを活用することで、ユーザーはより迅速かつ的確にAIソリューションを導入することが可能です。

まとめ



ABEJAは、今後もAI技術やデータ処理技術における新たな挑戦を続け、企業におけるデジタル変革を加速させるための取り組みを進めていきます。現在の技術革新の波に乗りながら、さまざまな業種でのデジタルトランスフォーメーションの支援を惜しみなく行うという姿勢を維持しています。

詳細なデータセットの内容については、AWSのオープンデータレジストリにアクセスし、直接確認することが可能です。ABEJAの今後の動向にも目が離せません。


画像1

会社情報

会社名
株式会社ABEJA
住所
東京都港区三田一丁目1番14号 Bizflex麻布十番2階
電話番号

関連リンク

サードペディア百科事典: 東京都 港区 AWS AI ABEJA

Wiki3: 東京都 港区 AWS AI ABEJA

トピックス(IT)

【記事の利用について】

タイトルと記事文章は、記事のあるページにリンクを張っていただければ、無料で利用できます。
※画像は、利用できませんのでご注意ください。

【リンクついて】

リンクフリーです。