AI開発におけるデータ収集の実態
ピクスタ株式会社が発表した『AI開発における画像・動画データ収集実態調査2024』は、AI技術の進化に伴う画像や動画データの収集に関する現状を明らかにするものでした。調査は2024年10月21日から23日まで行われ、329名の回答をもとに、データ収集の課題や方法について詳細な結果が得られました。
調査の概要
この調査は、AI開発における画像・動画データの収集実態を把握するために設計されました。データ収集に関する主要な課題として、時間と費用が挙げられ、特に実装フェーズでは多くの問題が浮き彫りになりました。具体的には、画像や動画データの収集にかかる時間が「収集に時間がかかる(58.36%)」と最も多く回答され、次いで「費用がかかる(50.15%)」という結果が出ています。このことから、AI開発におけるデータ収集は決して容易なものではないことを示しています。
データ収集の課題
調査では、AI開発における各フェーズにおける具体的な課題も分析されました。構想段階、PoC(Proof of Concept)、実装、運用の4つのフェーズにわけて課題が調査されました。構想フェーズでは「収集するデータの要件が決まらない(54.95%)」という声が聞かれ、実装フェーズでは「必要な量が集まらない(43.66%)」、運用フェーズでは「網羅性が低い(47.89%)」と問題が複数あることが明らかになりました。
特に実装フェーズでは、時間や費用に加え、要件に合ったデータを多数収集する難しさも挙げられ、データ集めが製品開発のボトルネックになりがちであることが伺えます。
主流となるデータ収集方法
調査の結果、データ収集における主流手法は「オープンデータの活用(71.73%)」であり、次いで「自社で調達(65.35%)」との結果が出ました。一方で、「専門業者から購入・依頼」は4割未満にとどまっており、個別ニーズによるデータ収集のためには、コストや時間がかかる場合が多いと考えられます。
構想フェーズでは自社で調達する割合が76.92%となり、他のフェーズに比べて特有の傾向が見られました。これにより、オープンデータや自分たちのリソースを利用することで、時間がかかるという課題が発生していることが予測されます。
収集にかかる時間と費用
データ収集にかかる時間については、「1週間程度(24.01%)」という回答が最も多く、全体の66.26%が1週間以内であるとされましたが、実装フェーズでは2週間以上のデータ収集が多い傾向が見られました。これにより、実装段階ではデータ収集に対する要件が厳しくなり、収集が難しくなることも予測されます。
費用面においても、収集コストのボリュームゾーンは「20〜50万円未満」が最も多く、特に専門業者に依頼する場合は費用が高くなることがわかりました。そのため、適切な予算の確保とリソースの調整が成功の鍵となります。
警戒すべき権利の問題
データ収集には著作権や肖像権、撮影場所の管理者の許諾など多くの権利関係の確認が必要です。特に、クリーンなデータを収集するためには、これらの手続きを正しく行わないと、後々トラブルの原因にもなりかねません。PIXTAではこうした問題を解決するためのサービスを提供し、迅速かつ効率的なデータ収集を支援しています。
まとめ
以上のように、ピクスタ株式会社の『AI開発における画像・動画データ収集実態調査2024』は、AI技術の進化に伴うデータ収集の課題とその解決策について、多くの示唆を与えてくれます。今後もAI開発に必要なデータが シームレスに収集できる方法が求められていくでしょう。