AWS上の高度運転支援システム（ADAS）のためのモジュラー機能設計

このブログは、Modular functions design for Advanced Driver Assistance Systems (ADAS) on AWS を翻訳したのものです。

過去 10 年間で、多くのプレイヤーがディープニューラルネットワーク（DNN）を使った自動運転車（AV）システムを開発してきました。これらのシステムはシンプルなルールベースのシステムから進化し、先進運転支援システム（ADAS）や完全な自動運転車へと変わってきています。これらのシステムはペタバイト規模のデータと数千の計算ユニット（vCPU と GPU）をトレーニングに必要とします。

この投稿では、ビルドアプローチ、ADAS の異なる機能ユニット、モジュラーパイプラインの構築アプローチ、および ADAS システムを構築する際の課題について取り上げています。

DNN トレーニングメソッドとデザイン

AV システムは、ディープニューラルネットワーク（DNN）で構築されています。AV システムの設計には、2つの主要なアプローチがあります。その違いは、DNN がどのように訓練され、システムの境界が設定されているかに基づいています。

モジュラートレーニング – システムは個別の機能ユニット（例：認識、位置特定、予測、計画など）に分割されます。これは多くの AV システム提供者によって使用される一般的な設計パラダイムです。システムが個々のモジュールに分割されるため、それぞれが独立して構築・訓練されます。
エンドツーエンドトレーニング – このアプローチでは、センサーデータを入力として取り、運転コマンドを出力する DNN モデルを訓練します。これはモノリシックなアーキテクチャで、主に研究者によって探求されています。DNN アーキテクチャは通常、報酬/ペナルティシステムに基づく強化学習（RL）または人間の運転を観察する模倣学習（IL）に基づいています。全体的なアーキテクチャは単純ですが、モノリシックを解釈・診断するのは難しいです。しかし、アノテーションは安価で、システムは人間の行動を通じて収集されたデータから学習します。

これら2つのアプローチに加えて、研究者たちは中間表現によって接続された2つの異なる DNN を訓練するハイブリッドアプローチも探究しています。

この投稿は、モジュラーパイプラインアプローチに基づく機能について説明しています。

自動運転のレベル

SAE インターナショナル（旧称：自動車技術者協会）の J3016 規格は、運転自動化の6つのレベルを定義しており、運転自動化について最も引用される情報源です。これには、レベル0（自動化なし）からレベル5（完全な運転自動化）までが含まれており、以下の表に示されています。

Level	Name	Feature
0	運転自動化なし	人
1	運転支援	人
2	部分運転自動化	人
3	条件付運転自動化	システムが運転し、人がバックアップ
4	高度運転自動化	システム
5	完全運転自動化	システム

モジュラーファンクション

以下のダイアグラムは、モジュラーファンクションデザインの概要を提供します。

自動運転システム（ADシステム）は、自動化の高いレベル（レベル2以上）で複数の機能を実行します：

データ収集 – 自動運転車（AV）システムは、リアルタイムでセンチメートル精度の周囲の情報を収集します。車両は様々なデバイスを装備しており、これらのデバイスの機能は様々で重なる部分もあります。AV は進化し続けている分野で、センサーやデバイスの種類についての合意や標準化はありません。ここに挙げたデバイスに加えて、車両はナビゲーションのための GPS や、直線および角速度の測定のための慣性計測ユニット（IMU）を使用することもあります。ADAS システムのタイプによって、以下のデバイスの組み合わせが見られます：
- カメラ – 人間の知覚に概念的に似ている視覚デバイス。高解像度に対応していますが、深度推定や極端な天候条件の処理が苦手です。
- LiDAR – 周囲の情報を 3D ポイントクラウドとして提供する高価なデバイス。正確な深度と速度の推定が可能です。
- 超音波 – 小さくて安価なセンサーですが、短距離でのみ効果的に機能します。
- レーダー – 長距離と短距離の両方に対応し、低視認性や極端な天候条件でもよく機能します。
データフュージョン– AV システムの一部である複数のデバイスが信号を提供しますが、限界があります。しかし、デバイス間の信号は補完的な情報を提供します。AV システムは、統合されたデバイスからのデータを融合し、包括的な認識を構築します。この統合されたデータセットは、DNN のトレーニングに使用されます。
認識 – AV システムは、デバイスから収集した生データを分析して、車両周辺の環境についての情報を構築します。これには障害物、交通標識、その他のオブジェクトが含まれます。これを道路シーン認識、あるいは単に認識と呼びます。これには、近くの車両、歩行者、交通信号、交通標識としてオブジェクトを検出し分類することが含まれます。この機能は深度を測定し、車線検出、車線の曲率推定、縁石検出、遮蔽を行います。この情報は経路計画とルート最適化に不可欠です。
ローカリゼーションとマッピング – AV システムが安全に運転するために、検出された物体の位置を理解する必要があることを説明しています。AV システムは 3D マップを作成し、自車（ego vehicle）とその周囲の位置をマップ上で更新します。また、検出された物体とその現在位置を追跡します。進んだシステムは、動いている物体の運動学を予測します。
予測– 他のモジュールから集められた情報を基に、AV システムは環境の直近の未来の変化を予測します。車両上で実行される DNN は、運動状態（位置、速度、加速度、ジャーク）を時間経過で投影することにより、自車と周囲の物体の相互作用の位置を予測します。これにより、潜在的な交通違反や衝突、または危険な接近を予測することができます。
パスプランニング – この機能は、認識、位置特定、予測からの入力に基づいて、車両が次に取りうるルートを描く責任があります。最適なルートを計画するために、AV システムは、位置特定、地図、GPS データ、予測を入力として取ります。一部の AV システムは、固定ルート上にエゴ車両と他のオブジェクトの運動学を投影して鳥瞰図を構築し、3D マップを提供します。また、他の車両からのデータも融合します。全体として、計画機能は、ドライバーの快適さを最大化することを目的として、可能なルートから最適なルートを見つけます（例えば、スムーズな曲がり角 vs. 急な曲がり角、ゆっくりと減速する vs. 一時停止標識で急に停止する）。
制御と実行 – ルートプランナーからの入力を受け取り、加速、減速、停止、ステアリングホイールの回転などの動作を行います。コントローラーの目的は計画された軌道を維持することです。
トレーニングパイプライン – 車両に予測を提供する DNN は訓練される必要があります。通常、車両から収集されたデータを使用してオフラインで訓練されます。訓練には、長期間にわたって数千の計算ユニットが必要です。訓練に必要なデータ量と必要な計算能力は、モデルのアーキテクチャと AV システムプロバイダーによって異なります。DNN を訓練するために、AV システムプロバイダーは、部分的には人間によって注釈され、部分的には自動化されたラベル付きデータが必要です。通常、ナンバープレートの番号や顔などの個人識別情報（PII）は、ぼかしによって匿名化されます。多くのプロバイダーは、シミュレーションを使用してラベル付きデータを増強します。これにより、特定のシナリオのデータを生成し、実世界のデータを増強する能力が提供されます。AV システムプロバイダーはまた、トレーニング、微調整、エッジケースの処理に関連するデータを掘り出すためのツールを使用します。訓練されたモデルは、オフラインシミュレーションで精度を検証されます。一部のプロバイダーは、休眠モデル戦略を使用し、候補モデル（休眠）を本番モデルと並行して展開します。休眠モデルからの予測は車両の制御には使用されませんが、プロバイダーは実際のシナリオでモデルの精度を検証するのに役立ちます。

課題

AV 用の DNN は膨大なデータ量でトレーニングする必要があり、DNN をトレーニングし、大量のトレーニングデータを扱い、モデルとデータ並列性を最適化する要因を考慮するために、スケーラブルな計算インフラが必要です。

大量のデータでのトレーニング

大量のデータを使ったトレーニングでは、AV システムは車両に取り付けられたデバイスから大量のデータを収集します。AV システムプロバイダーによっては、車両のフリートが数台から数千台に及びます。AV システムプロバイダーが直面する典型的な課題には以下のようなものがあります：

・ペタバイトのデータの収集、前処理、および保存 – 各車両は8時間の運転で40TB以上のデータを収集します。
・膨大なデータ量から関連する代表データを識別する – これは、一般的なシナリオ（障害物がある正常速度での運転など）でクラスの不均衡を生じさせないようにするために重要です。より高い精度を得るためには、DNN は多様で良質なデータの大量のデータが必要です。
・コーナーケースのボリューム – ML モデルは幅広いコーナーケースを処理する必要があります。これは AV システムの安全性を確保するために不可欠です。
・トレーニング時間 – 膨大なデータ量を考えると、トレーニング時間はしばしば複数日または数週間に及びます。これにより開発速度が低下し、迅速に失敗する能力が低下します。

大規模なデータ処理の課題に対処するために、Amazon SageMaker の分散データ並列処理機能（SMDDP）を利用できます。SageMaker はフルマネージドな機械学習（ML）サービスです。データ並列処理では、大量のデータがバッチに分割されます。データブロックが複数の CPU や GPU（ノードと呼ばれる）に送信され、結果が組み合わされます。各ノードには DNN のコピーがあります。SageMaker は分散データ並列ライブラリを開発し、ノードごとにデータを分割し、ノード間の通信を最適化します。SageMaker Python SDK を使用して、トレーニングスクリプトに最小限の変更を加えることで、データ並列処理のジョブをトリガーできます。データ並列処理は、人気のあるディープラーニングフレームワーク PyTorch、PyTorch Lightening、TensorFlow、Hugging Face Transformers をサポートしています。

現代自動車は SageMaker のデータ並列処理を利用して自動運転モデルのトレーニング時間を短縮し、8つのインスタンスで 90% 以上のスケーリング効率を実現しました。各インスタンスには 8 つの GPU があります。次の図はこのアーキテクチャを示しています。

詳細については、Hyundai が Amazon SageMaker を使用して自動運転モデルの ML モデルの訓練時間を短縮する方法を参照してください。

SageMaker での分散訓練に関する詳細は、AWS re:Invent 2020 のビデオ「Amazon SageMaker における DataParallel を使用した高速訓練とほぼ線形スケーリング」と「Amazon SageMaker の分散訓練エンジンの背後にある科学」を参照してください。

大量データのラベル付け

トレーニングパイプラインは、大量のラベル付きデータセットを必要とします。お客様が直面する一般的な課題の1つは、画像、ビデオ、センサー（例えば、3D ポイントクラウド）のアノテーションツールの開発、オブジェクト検出のためのカスタムワークフロー、およびセマンティックセグメンテーションタスクです。あなたは、ワークフローをカスタマイズする能力が必要です。

Amazon SageMaker Ground Truth は、カスタムワークフローを構築および管理する柔軟性を提供する完全に管理されたデータラベル付けサービスです。Ground Truth を使用すると、画像、ビデオ、ポイントクラウドデータのオブジェクト検出、オブジェクト追跡、セマンティックセグメンテーションタスクのラベルを付けることができます。車両から収集されたデータを AWS Storage Gateway、AWS Direct Connect、AWS DataSync、AWS Snowball、または AWS Transfer Family などのデータ転送メカニズムを使用して、プレミスから AWS に転送できます。データが前処理された後（例えば、顔やナンバープレートのぼかし）、クリーンアップされたデータセットはラベル付けの準備が整います。Ground Truth は、カメラからのビデオ入力と LiDAR データのセンサーフュージョンをサポートします。Amazon Mechanical Turk、信頼できるサードパーティベンダー、または独自のプライベートワークフォースを通じて、人間のアノテーターを使用することを選択できます。

以下の図では、AWS Batch を使用してデータを前処理し、Ground Truth を使用してデータセットにラベルを付けるためのリファレンスアーキテクチャを提供しています。

さらに詳しい情報については、Field Notes: Automating Data Ingestion and Labeling for Autonomous Vehicle Development および Amazon SageMaker Ground Truth での 3D オブジェクトトラッキングとセンサーフュージョンのためのデータラベリングに関する記事を参照してください。

Ground Truth を使用して 3D ポイントクラウドデータをラベル付けする方法についての詳細は、Use Ground Truth to Label 3D Point Clouds を参照してください。

トレーニングの為のインフラストラクチャ

自動運転 (AV) システムが成熟するにつれて、DNN は多数のエッジケース（例えば、高速道路を歩く人々など）に対処するために訓練される必要があります。これにより、モデルは複雑で大きくなります。これは、記録されたデータのマイニングやシミュレーションを通じて、新しいシナリオに対応するためにより多くのデータで DNN を訓練することを意味します。これは、より多くのコンピューティング能力とコンピューティングインフラのスケーリングを要求します。

ML ワークロードの計算ニーズをサポートするために、SageMaker はトレーニング用の複数のインスタンスタイプを提供します。各ファミリーは特定のワークロードのために設計されており、インスタンスの vCPU、GPU、メモリ、ストレージ、およびネットワーキング構成に基づいて選択できます。完全なエンドツーエンドの AV 開発のために、企業は主に m、c、g、および p ファミリーに依存しています。

一部の顧客は、Deep Learning AMI (DLAMI) を使用して、p ファミリーの NVIDIA GPU ベースの Amazon Elastic Compute Cloud (Amazon EC2) インスタンスを起動します。各 EC2 p ファミリーインスタンス世代は、最新の NVIDIA 技術（p2 インスタンス（Tesla K80）、p3 インスタンス（Volta V100）、および p4d インスタンス（Ampere A100）を含む）を統合しています。

以下の図は、利用可能なインスタンスを要約しています：

DNN（Deep Neural Network）が複雑で一つの GPU のメモリに収まらない場合、SageMaker のモデル並列ライブラリを使用できます。これは、レイヤーを GPU やインスタンス間で分割します。このライブラリを使って、TensorFlow や PyTorch モデルを複数の GPU やノードにわたって自動的に分割し、コードの変更を最小限に抑えることができます。

MLOps

実運用に関しては、データサイエンティストが改訂されたモデルで実験を行うことから、数千台の車両へのデプロイまで、AV システムプロバイダーは様々なニーズに対応するための、エンドツーエンドでシームレスに動作するツールセットが必要です。

大規模なデータ収集と変換
モデルの自動分析と評価
データパイプラインの標準化
データサイエンティストのための実験定義と実施
モデルパフォーマンスの監視
エンドツーエンドの自動化による繰り返しプロセスの確立と人間介入の排除
自動化されたモデルデプロイメントで、訓練済みモデルを数百万台の車両に迅速にデプロイできる

SageMaker は包括的な MLOps ツールを提供します。データサイエンティストは、Amazon SageMaker Experiments を使用して、試行として反復の入力、パラメータ、設定、結果を自動的に追跡できます。これらの試行を実験に割り当て、グループ化し、整理することもできます。Amazon SageMaker Model Monitor は、リアルタイムで ML モデルの品質を継続的に監視するのに役立ちます。モデル品質の逸脱、例えばデータドリフトや異常がある場合に通知する自動アラートを設定できます。オーケストレーションに関しては、SageMaker Pipelines SDK、AWS Step Functions、Amazon Managed Apache Airflow（Amazon MWAA）、Kubeflow などのオープンソースツールを含む多くのオプションから選択できます。

結論

この投稿で、私たちは ADAS の構築アプローチと異なる機能ユニット、モジュラーパイプラインを構築するための統一フレームワーク、そして ADAS システムを構築する際の課題について説明しました。私たちは、リファレンスアーキテクチャと、お客様が SageMaker や他の AWS サービスを使用してスケーラブルな AV システムを構築する方法を説明するケーススタディやブログ投稿へのリンクを提供しました。提案されたソリューションは、お客様がスケーラブルな AV システムを構築する際の課題に対処するのに役立ちます。後の投稿で、私たちは ADAS システムによって使用される DNN について徹底的に掘り下げる予定です。

このブログはシニアソリューションアーキテクトの渡邊翼が翻訳を担当しました。

About the Authors

Shreyas Subramanian は、プリンシパル AI/ML スペシャリストソリューションアーキテクトとして、AWS プラットフォームを使用して、顧客がビジネス上の課題を機械学習で解決するのを支援しています。シュレヤスは、大規模最適化と機械学習のバックグラウンドを持ち、最適化タスクの加速のために機械学習と強化学習を使用しています。

Gopi Krishnamurthy は、ニューヨーク市に拠点を置くアマゾンウェブサービスのシニア AI/ML ソリューションアーキテクトです。彼は、大手自動車企業の顧客と協力し、彼らの機械学習ワークロードを変革し、クラウドへの移行を支援しています。彼の主な関心事は、ディープラーニングとサーバレス技術です。仕事の外では、家族と過ごすことと、幅広い音楽を探求することを楽しんでいます。

Amazon Web Services ブログ