Amazon Web Services ブログ

【開催報告】AWS AI/ML@Tokyo #5

アマゾン ウェブ サービス ジャパン株式会社の呉(Twitter: @kazuneet)です。AWS Japan では、2020年からAI/ML関連情報を発信するイベント「AWS AI/ML@Tokyo」を定期的に開催しています。2020年7月9日にオンラインで開催された AWS AI/ML@Tokyo #5では、AWS Japan によるAmazon EKS (Kubernetes + Kubeflow) と Amazon SageMaker を題材とした機械学習基盤選択の考え方と、 実際に機械学習基盤として Amazon SageMaker と Airflow を組み合わせた機械学習パイプラインを構築されたお客様をゲストスピーカーにお招きし、お客様による「体験談」をお話し頂きました。

「機械学習基盤の選択肢 – Kubernetes や Amazon SageMaker での構築」[Slides]

アマゾン ウェブ サービス ジャパン 株式会社
Startup Machine Learning Solutions Architect 針原佳貴

機械学習をビジネスに導入して、運用し続けるには、反復的なプロセスを踏む必要があります。具体的には、データレイクと呼ばれる高可用性・耐久性を備えたストレージにデータを格納し、そのデータを用いて機械学習用のフレームワークでモデルの開発を行い、GPUや並列分散処理で学習し、スケーラブルかつ高可用性な環境でモデルをホスティングして推論を行い、またそのデータをためて再度学習を…ということを何度も繰り返す必要があります。
これらを動かすのには 2 点課題があります。 1 点目はモデルの開発・学習・推論する環境の統一化する必要があることです。開発環境と学習環境と本番環境でOSやライブラリのバージョン差異などが発生して動かないということを経験したことが有る人は多いかと思います。この 1 点目の課題については Docker コンテナを利用し、コードと実行環境をひとまとめにして配布することで環境の統一が可能です。2 点目の課題はスケーラビリティです。モデル開発や学習環境が複数必要になってくるとその管理が重労働となってきます。この 2 点目の解決法として、本セッションでは Kubernetes と Amazon SageMaker を例に上げ、 Kubernetes + Kubeflow を利用した場合の運用イメージと考慮事項について述べ、Amazon SageMaker を利用した場合どう変わるのか、セキュリティやコストメリットなどについてご紹介いたしました。また両者は相対するものではなく、 SageMaker Operator for Kubernetes や SageMaker Components for Kubeflow Pipelines を利用することでいいとこ取りができることをお伝えしました。

Amazon SageMaker の詳細につきましては、下記リンクよりご参照いただければと思います。
Amazon SageMaker すべての開発者とデータサイエンティストのための機械学習

 

「SageMakerとAirflowによる機械学習モデルの運用自動化について」[Slide]

株式会社 電通デジタル
データ / テクノロジーストラテジ部門 ソリューション戦略部 今井優作様

株式会社 電通デジタル様では、顧客データ起点のデュアルファネル広告運用®「x-stack」という、顧客のWeb回遊行動と企業保有の顧客データを融合・分析し、Lifetime Valueのようなより深いビジネス指標を改善するための広告運用ソリューションを提供しています。
今井様がデータサイエンティストとしてプロジェクトにアサインされた際に、①R&D要素が強い予測モデル開発 ②予測モデル学習 / 推論基盤の構築 ③予測スコアを媒体連携するための機能開発、の 3 つを行うことになったのですが、②だけはDevOpsの経験がなく、できるか自信がありませんでした。また②について、実際に基盤を使用するユーザは、非エンジニアのコンサル職が想定されました。そういった中で、いくつか候補がある中で、DevOps に詳しくなくても使用でき、独自モデルを運用でき、クラウド分析環境を提供している、Amazon SageMaker を選択いただきました。いざ運用が始まると日次で自動運用したい、というさらなる要望が生まれました。その際、データが溜まっているDWHがAWS外に存在していたため、機械学習パイプラインとして Apache Airflow を採用されました。 その具体例として、XGBoost のアルゴリズムを用いた機械学習パイプラインを構築した事例を紹介いただきました。XGBoost はコンテナイメージの作成が不要かつ、パラメータチューニングを容易に利用できるメリットや、Amazon SageMaker による独自アルゴリズムの実装方法についてもお話しいただきました。また機械学習パイプラインとして Airflow の DAG の組み方についてなど、具体的な設計やイメージを交えながら説明いただきました。こういった話の中で DevOps が詳しくないけれども機械学習基盤を構築する必要のある方にも Amazon SageMaker がフィットするというお話を頂きました。

まとめ

今回は 機械学習環境としてコンテナを利用することが良い選択肢の一つであることと、そのコンテナを運用する基盤の例として Kubernetes + Kubeflow と Amazon SageMaker を紹介した後、 Amazon SageMaker + Airflow をご活用されているゲストをお迎えし、実際の活用事例についてお話しいただきました。
次回のAI/MLイベントとしては、「物体検知、外観検査を簡単に機械学習で実現」と題して、Amazon Rekognition のアップデートや、Amazon Rekognition の Custom Labels の紹介を予定しております。https://pages.awscloud.com/JAPAN-event-OE-Object-detection-Rekognition-20200805-reg-event-LP.html からご登録ください。

2019年に開催した「Amazon SageMaker 事例祭り」、2020年からスタートした「AWS AI/ML@Tokyo」の開催報告と登壇スライドは、以下のリンクからご覧いただけます。

  • Amazon SageMaker 事例祭り 開催報告過去分[Web]
  • AWS AI/ML@Tokyo 開催報告過去分 [Web]

またAmazon SageMaker のオンラインによる体験ハンズオンがございますので、こちらもご活用ください。
https://pages.awscloud.com/event_JAPAN_hands-on-ml_ondemand.html