AIを支える大規模データ収集サービス、キーウォーカー
近年、第3次AIブームが到来し、多くの企業がビッグデータを駆使したAI技術をビジネスに活用しています。この流れに乗るためには、機械学習、特にディープラーニングを活用するための正規化された学習データセットを大量に用意する必要があります。 AIシステムの成功において、データの質と量は重要な鍵を握っています。
しかし、ビジネスで求められる適切な形式のデータセットを市場で見つけ出すのは容易ではありません。特に、数十万から数億件のデータを手動で収集するには、多大な時間とコストがかかります。そこで、新たに登場したのが「キーウォーカーWEBクローラ」というサービスです。
キーウォーカーWEBクローラの魅力
このサービスでは、ディープラーニングでニーズの高い画像データ、音声データ、動画データを、豊富なタグ情報とともに提供可能です。具体的には、商品画像には「商品名」「仕様」「販売価格」「送料」「残在庫数」「ランキング」「クチコミ評点」「クチコミ数」などの情報がタグ付けされています。これにより、画像認識や音声認識、動画認識といったAIの技術をすぐに活用することができます。
データ収集の精度
収集過程で、ローデータの表記のばらつきも正規化する機能が充実しています。たとえば、「4百万円」や「¥4,000,000」といった異なる表記を一律「4000000円」とする処理が行われます。これにより、日本で特に問題とされるAIサービスの裏にあるデータ不足の課題を解決することが期待されています。
さまざまな機能
動的サイトへの対応
キーウォーカーWEBクローラは、ブラウザの自動操作技術を駆使してさまざまなサイトから情報を収集できます。ログイン機能やサイト内検索機能も完備しており、条件分岐や自動スクロール機能も搭載されています。
データ連携と形式対応
ユーザーが指定する方法で収集したデータをシステムに直接連携できるのもメリットです。HTMLだけでなく、PDFやOffice文書、さらには画像、動画、音声ファイルのダウンロードも実現しています。
大規模クローリング
高いスケーラビリティを持つ設計により、大規模なサイトに対しても並列処理が可能で、最適なスケジューリングで大量のデータを収集できます。また、WEBスクレイピング機能により、必要な項目ごとに値を正確に抽出することができます。
会社概要
株式会社キーウォーカーは、2000年に設立され、現在の代表取締役は真瀬正義氏です。資本金は5,000万円で、主にWEBクローラの開発を行い、ビッグデータの収集・整理・分析・可視化ソリューションを提案しています。さらに、ルーチン業務の自動処理、人工知能の研究開発にも力を入れています。
東京都港区麻布台に所在し、詳細は
公式サイトで確認できます。
この新しいデータ収集サービスにより、企業のAI技術導入がさらに加速することが期待されます。