Amazon Web Services ブログ
Amazon S3 Express One Zone を使用して非構造化データの処理を加速した Akridata
このブログは Kunal Vasavada(Akridata)と Eric Yuen(Senior Partner Solutions Architect)によって執筆された内容を日本語化したものです。原文はこちらを参照してください。
深層学習プロセスではデータ処理を行う前に、数百 GB に及ぶデータセット全体を読み込むことがよくあります。このようなパフォーマンスが重要なワークロードを実行している企業にとっては、ストレージからの高速なデータ取得と低レイテンシーが非常に重要です。
AWS 独立系ソフトウェアベンダー(ISV)パートナーである Akridata は、ラベルのない動画や画像のデータセットに対して人工知能(AI)を利用した大規模なデータ整理、調査、分析機能を提供することにより、非構造化データの探索を支援しています。
このブログでは、Akridata Data Explorer がどのように機能するかを、自動運転の開発者がビジュアルデータセットの可能性を引き出した例を交えながら説明します。次に、Akridata Data Explorer を使用する際に、Amazon S3 標準と比較してデータアクセス速度が 10 倍向上しリクエストコストを 50 % 削減できるAmazon S3 Express One Zone ストレージクラスにデータを保存することで、3.5 倍処理を高速化できることについて説明します。
Akridata Data Explorer : ラベル付けされていないビジュアルデータの自動処理
Akridata Data Explorer は software as a service(SaaS)ソリューションで、確かな運用実績、膨大なサービスが利用可能、世界中の潜在的なお客さまにリーチ可能という理由から、すべて AWS 上で構築されています。Akridata Data Explorer は、Amazon Elastic Kubernetes Service(Amazon EKS)上で動作する柔軟なソリューションです。これにより、Amazon S3 の様々なストレージクラスに格納された大量の動画や画像のデータを手動でラベル付けすることなく、エンドユーザーが分析可能なノーコード環境を提供します。
以下の画像は、Akridata Data Explorer のワークフローを示します。
- ビジュアルデータセットを Amazon S3 にアップロードします。(今回の場合、Amazon S3 Express One Zone ストレージクラスを使用)
- Akridata Data Explorer SaaS サービスにサインインします。
- Amazon Elastic Container Registry(Amazon ECR)から目的のモデルを選択し、データ処理パイプラインを作成します。
- Akridata Data Explorer は Amazon S3 Express One Zone からデータを読み取り、深層学習処理を開始します。
- 作成されたデータカタログは、Amazon Aurora に保存されます。
- 最終的に、ビジュアルデータセットに対して検索やデータ分析等の視覚化操作を実行できます。
Akridata Data Explorer を自動運転のデータで使用する
Akridata Data Explorer を説明するため、自動運転データの収集を例に挙げます。自動運転のデータ収集では、日々さまざまな国を走行する各テスト車両は何時間分もの動画や画像を撮影し、大量の非構造化データが収集されます。これらのデータセットはすべて、サニタイズ、クリーニング、タグ付けする必要があります。
Akridata Data Explorer は、すぐに利用できるさまざまなパイプラインを通じて、データセットに対して任意の基盤モデルや一般的な機械学習モデルを使用したタグ付けやラベル付けを自動的に実施できます。以下の画像は、Akridata Data Explorer おいて Recognize Anything Model(RAM)を使用した自動タグ付けの結果です。建物や駐車場といったインフラ関連のタグ、自動車、ジープ、SUV、バンといった自動車関連タグや道路タグがすべて自動的に付与されています。
次の画像は、Akridata Data Explorer がデータセット全体をクラスターに変換し、類似度に基づいてデータをグループ化しているものです。この視覚的なアプローチにより、大規模なデータセットの全体像を迅速かつ直感的に把握でき、外れ値を見つけることができます。
次の画像は、ユーザーが視覚的に類似した画像を検索できることを示しています。画像の場合、Akridata Data Explorer は 1 回のクエリで最大 2,500 万枚の画像を検索できます。一方でこのプロセスでは重い読み取り操作が求められ、最短時間でワークフローを完了するにはストレージサブシステムの高いパフォーマンスが必要です。Amazon S3 のスケーラビリティとパフォーマンスは、ユーザーエクスペリエンスにおいて重要な役割を果たします。
画像の左には、緑の境界枠で囲まれた 3 つの画像例があります。これらの例は、横断歩道と傘を持った人が写っています。対照的に赤い境界枠で囲まれた画像では、これらの特徴はありません。
似たような画像の例を見つけるには、横断歩道や傘を持った人が写っている画像の「いいね」アイコンを選択し、Quick Search を選択します。画像の右に示す結果には、さまざまなシナリオにおいて類似した画像が示されます。この機能により、興味深いパターンやシナリオの発見が容易になります。
Akridata Data Explorer は自然言語クエリを使用して、ラベルのない動画や画像データセットを検索することもできます。次の画像は、Akridata Data Explorer において「傘を持っている人と横断歩道」と検索した結果を示しています。テキストベースの検索により、データからの洞察がより簡単に得られます。
Amazon S3 Express One Zone による非構造化データ探索の加速
Akridata Data Explorer を使用する場合、ストレージサブシステムは、深層学習、検出、タグ付け、検索にかかる時間に直接影響します。Amazon S3 Express One Zone は、スケーラブルであるだけでなく、データ分析のユースケースで一桁ミリ秒という優れたレイテンシーを実現する最速のクラウドオブジェクトストレージであり、お客様はこれまでで最高のパフォーマンスを体験することができます。
Amazon S3 Express One Zone にデータを保存すると、Akridata Data Explorer パイプラインの実行時間と処理時間は、Amazon S3 標準を使用する場合と比較して平均 3.5 倍も改善されます。結果として、データの取り込みや視覚的データ探索の準備、検索が格段に早くなります。お客さまがオリジナルの高画質な動画や画像を閲覧しようとした場合、Amazon S3 Express One Zone の低レイテンシーと高スループットはデータの準備時間を大幅に短縮し、ユーザーエクスペリエンスを大幅に向上させます。そしてお客さまは運用コストを削減しながら、より多くのデータを短時間で分析できるようになり、生産性が向上します。
まとめ
このブログでは、Akridata Data Explorer にて自動運転のデータセットにタグ付けを自動的に行い、画像から特定のコンテンツを検索、データ分類における課題を解決している様子を紹介しました。加えて、Amazon S3 Express One Zone にデータを保存することで、Akridata Data Explorer のお客さまは、データの準備にかかる時間を平均で 3.5 倍高速化することができます。
詳細については、Akridata や Amazon S3 Express One Zone にアクセスするか、担当の AWS 営業にご連絡ください。Akridata Data Explorer は AWS Marketplace より入手可能です。