学ぶ
スポットライト: Datagen が人間中心の問題に対処するための忠実度の高い合成データを作成

スポットライト: Datagen が人間中心の問題に対処するための忠実度の高い合成データを作成

このコンテンツはいかがでしたか?

Gil Elbaz と Ofir Zuk が 2018 年に Datagen を設立したのは、クライアントがコンピュータービジョンネットワークトレーニング用のデータを取得する方法という壊れたプロセスを再発明することを目的としていました。具体的には、すべてのコンピュータービジョンチームに継続的かつスケーラブルな方法でデータシミュレーションを提供したいと考えていました。

AI モデルのパフォーマンスは、モデルの品質とトレーニングに使用されるデータの品質の両方に依存するため、大量の優れたデータを用意することが不可欠であり、必要なだけ収集するのが難しいことがよくあります。また、現実世界のデータは、取得速度、精度、費用、偏りといった点でも問題になりがちです。Datagen のシニアプロダクトマーケティングマネージャーである Shay Navon 氏は次のように説明しています。「例えば顔のような、アイデンティティが異なる (現実世界の) データを収集しても、特定の民族、年齢、性別については十分に収集できないでしょう。そのようにして、バイアスが生じてしまいます」。

コンピュータービジョンチームがバイアスに対処するのを助けるために、Datagen はコンピューターアルゴリズムを使用してデータを生成する独自の方法を提供しています。その合成データは、統計的にも数学的にも現実世界のデータに似ていますが、費用を抑えて迅速に生成でき、人為的ミスの発生もありません。人間に手動でデータを収集してアノテートするという面倒な作業 (顔の写真を撮り、その特徴に手作業でラベル付けするという大変な作業) を人に任せる代わりに、合成データは、大規模に生成され、視線方向など、人間の判断が不可能な Groung truth 注釈が組み込まれています。結果、手動でタグ付けする手間が省け、より正確で詳細なデータアノテーションが得られます。

Datagen のマーケティング担当副社長である Karine Regev 氏は次のように述べています。「私たちは、AI をより迅速に本番環境に導入するために、世界をシミュレートしています。「AI を本番環境に導入すること自体は、ほとんどの企業にとって未解決の課題です。そこで、私たちはそれをより専門的で正確なものにし、プライバシーなどの問題を解決し、現代の AI における最大のボトルネックであるデータの偏りなどの問題を解決しています」。

Datagen は、3D シミュレーションを使用してアルゴリズムをトレーニングするセルフサービスプラットフォームをクライアントに提供しています。「モデルをトレーニングするには、何百万もの異なる画像が必要です」と Regev 氏は言います。「そして、これこそまさに私たちの適するところです。『Datagen のお客様』は、シーン、背景、さまざまなモダリティや必要なラベル、照明、性別、民族性などすべてをコントロールすることができます」。

Datagen Platform, self-service synthetic data generation

Datagen は、リアルに見え、スケールでき、ピクセルパーフェクトな多様なデータを生成するだけでなく、お客様に完全な機密性を提供します。「データには PII (個人を特定できる情報) が含まれていないため、プライバシーに完全に準拠しています」と、合成データについて Shay Navon 氏は言います。「誰も『私たちが扱っているのはプライバシー上問題である』とは言えません。当社の人物中心の専門知識とデータは、顔の特徴の検出、視線の推定、表情分析から、人体全体のポーズ、目や手などの身体部分まで、いくつかのドメインに焦点を当てています」。

近い将来、実際のソースから収集するよりも、合成データでモデルをトレーニングする方が一般的になると予測されています。それに伴って、Datagen は急速に成長しており、従業員数は過去 9 か月間で約 40 人から 100 人近くにまで拡大しています。「当社は、さまざまな業種の世界最大のテクノロジー企業と提携しています」と Regev 氏は言います。「AR/VR/メタバースから、車内自動車のドライバーモニタリング、ホームセキュリティ、スマートオフィスまで、さまざまなユースケースを解決しています」。

この新しい需要に応えるため、Datagen はクラウドアーキテクチャへの切り替えを決定しました。彼らの優先事項は、最新の GPU モデルを使用してスケールすることでした。クラウドプロバイダーを詳細に分析した結果、AWS に目を向け、Kubernetes 上でシステムを開発することに決めました。Datagen は、Amazon Elastic Kubernetes Service (Amazon EKS) と統合し、Kubernetes 自動スケーリングと AWS Auto Scaling グループを使用する Agni というカスタムスケジューリングソフトウェアシステムを設計しました。

Agni、そして Datagen のデータ生成プラットフォーム全体が、現在では CPU と GPU のスポットインスタンスに依存しています。これにより、コストを削減し、より効率的なシステムを構築できるようになりました。また、数十万の同時実行ジョブまで動的に拡張したり、必要に応じて縮小したりできる比較的小規模なシステムを維持できるようになったため、AWS がホストするセルフサービスプラットフォームが誕生しました。

今後、Datagen チームは、合成データの必要性が高まり続けると予測しています。Regev 氏は次のように語っています。「牽引力と将来性の両面で多くの需要があり、ソートリーダーシップの必要性、テクノロジーのニーズ、そして合成データに関して実際に議論の先頭に立つことができる当社のようなソリューションが求められています」。

AWS Editorial Team

AWS スタートアップの Content Marketing Team は、教育、エンターテインメント、インスピレーションを提供する優れたコンテンツをもたらすために、あらゆる規模およびあらゆるセクターのスタートアップと連携しています。

このコンテンツはいかがでしたか?