Amazon Web Services ブログ

Category: Events

アマゾン ウェブ サービス が BERT および Mask R-CNN における最速トレーニングタイムを達成

今日最も多く使用されている機械学習モデルには 2 つあります。自然言語処理 (NLP) 用の BERT と、画像認識用の Mask R-CNN です。AWS では、この数か月にわたり、これら 2 つの良く使われている先進的なモデルにおいて最短のトレーニング時間を達成するため、基盤となるインフラストラクチャ、ネットワーク、機械学習 (ML) フレームワーク、モデルコーディングなどに、大幅な改良を加えてきました。TensorFlow、MXNet、PyTorch に関しクラウド上でこれまで記録された最短のトレーニング時間を、本日、皆様と共有できることを、心から喜んでおります。お客様は、ご自身の TensorFlow、MXNet、PyTorch のモデルでのトレーニングに、これらのハードウェアとソフトウェアに関する最適化手法を、当社と同じ効率とスピードでご利用になれます。 モデルに対するトレーニング時間は、そのモデルの精度への改良を、素早く繰り返すときの作業性に直接影響します。トレーニング時間を削減しようとするときに最初に考えられる手法とは、GPU インスタンスの大規模なクラスターを通じて、トレイニングジョブを供給するということです。しかしこれでは、効率を高めることは困難です。大量のワーカーを通じてトレーニングジョブを供給しても、しばしば、急速にその効果が薄れてしまうことがあります。インスタンス間の通信におけるオーバーヘッドが、GPU を追加した分のコンピューティングパワーを帳消しにしてしまうからです。 BERT 現在、普及している NLP モデルである BERT、つまり Bidirectional Encoder Representations from Transformers は、当初は、いくつかの一般的な NLP タスクを処理するための最新手法として公開されたものです。 NVIDIA V100 GPU を 8 個使用する単一の Amazon EC2 P3dn.24xlarge インスタンスにおいて、TensorFlow と PyTorch を使いながらこの BERT をゼロからトレーニングするには、およそ 3 日間を要します。当社では、Elastic Fabric Adapter (EFA)を使用しつつ、このモデルを大規模クラスター上で集中させる方法を最適化しながら、P3dn.24xlarge インスタンスへの効率的なスケールアウトを実行し、3 […]

Read More

AWS Fargate 上の Amazon EKS を一般公開

本日より、皆さんは、Amazon Elastic Kubernetes Service を使用して、AWS Fargate の上でKubernetes ポッドを利用できます。Amazon EKS と Fargate は、AWS 上での Kubernetes ベースのアプリケーションの実行をわかりやすいものにします。ポッドを用意して、そのインフラストラクチャを管理する必要がなくなるからです。 AWS Fargate では、コスト最適化され、可用性の高いクラスターを稼働するのに、Kubernetes 運用の専門的な知識は必要ありません。Fargate は、お客様が Amazon EKS クラスターのためにEC2 インスタンスを作成し、管理する必要をなくします。 もはや、クラウド上で Kubernetes アプリケーションを実行するため、EC2 インスタンスのクラスターのパッチング、スケーリング、セキュア化の問題で頭を悩ませる必要はなくなります。Fargate を使えば、リソースを定義し、ポッドレベルでその支払いを行えます。これにより、アプリケーションごとに適切なサイズのリソースを利用することが容易になり、ポッドごとのコストを明確に知ることができます。 このブログの後半では、新しい機能を試してみて、Amazon EKS を Fargate 上で使用し、シンプルな Kubernetes ベースのアプリケーションをデプロイしてみましょう。 クラスターを構築する クラスタのセットアップを行う最も簡単な方法は、EKS の正式な CLI ツールである eksctl を使用することです。以下のコマンドは、ワーカーノードのない、demo-newsblog というクラスターを作成します。 eksctl create cluster –name demo-newsblog –region eu-west-1 –fargate この 1 行のコマンドは、実に多くのことを行います。クラスターを作成するばかりでなく様々な事柄を行いますが、とりわけ、Fargate […]

Read More

Amazon SageMaker Processing – フルマネージドなデータ加工とモデル評価

2019年12月3日 Amazon SageMaker の新しい機能であり、データの前処理や後処理、モデルの評価といったワークロードをフルマネージドなインフラストラクチャの上で簡単に実行する機能である、Amazon SageMaker Processing を発表できることを嬉しく思います。 精度の高い機械学習(ML)モデルを学習するためには、多くの異なるステップを必要としますが、以下のようなデータの前処理より重要なものはないでしょう。 機械学習アルゴリズムが活用できる入力フォーマットへデータセットを変換 カテゴリカル特徴量のOne-Hot エンコーディングのような、既存の特徴量をさらに表現力の高い特徴量へ変換 数値型特徴量のリスケールや平準化 住所をGPSの座標に置き換えるような、高レベルな特徴量の作成 自然言語処理を適用するための文章のクリーニングやトークン化 これらのタスクは、データセットに応じて異なるスクリプトを実行することになり、そして、後で学習の際に使われるための加工済データを保存します。あなたが想像する通り、機械学習チームにとって、これらを手作業で行ったり、自動化ツールを構築してスケールさせることは魅力的なな計画とは言えません。同様のことが後処理ジョブ(フィルタリングや照合など)やモデル評価ジョブ(異なるテスト用データセットに対するスコアリング)にも言えるかも知れません。 これらの課題を解決するために、 Amazon SageMaker Proscessing が開発されました。より詳細をご紹介させて下さい。 Amazon SageMaker Processing の紹介 Amazon SageMaker Processing はデータサイエンティストと機械学習エンジニアが前処理、後処理、モデル評価といったワークロードを Amazon SageMaker 上で簡単に行うための新しい Python SDK を導入します。 この SDK はデータセットの変換のために使われるおそらく最も人気のあるライブラリである scikit-learn 向けの SageMaker の組み込みコンテナを使います。 必要に応じて、特定の Docker イメージに制限されることなく、独自の Docker イメージをお使い頂くことが出来ます。これにより、最大限の柔軟性を提供し、SageMaker Processing や Amazon ECS や Amazon Elastic Kubernetes Servicesなどの AWS […]

Read More

新機能 – AWS ECS Cluster Auto ScalingによるECSクラスターの自動スケーリング

本日、AWS ECS Cluster Auto Scalingを発表します。この機能は、スケールアウトを高速化し信頼性を向上させる、クラスター内の空きキャパシティ管理の提供と、スケールイン時に終了されるインスタンスの自動管理を提供し、クラスターの自動スケーリングをより使いやすいものにします。 ECS Cluster Auto Scalingを有効にするには、Capacity Providerと呼ばれる新たな項目を設定する必要があります。1つのCapacity Providerは1つのEC2 Auto Scaling Groupに関連づきます。あるAuto Scaling GroupにECS Capacity Providerを関連付け、ECSクラスターにCapacity Providerを追加すると、ECSの次の2つの新機能を用いてクラスターを自動スケールできるようになります。 管理されたスケーリング。Capacity Provider Reservationという新しいメトリックに対応するスケーリングポリシーが自動的に生成され、Auto Scaling Groupにアタッチされます。 管理されたインスタンス保護。スケールイン時にコンテナーからインスタンス終了を把握できるようになります。 これらの新機能により、ECSクラスターのスケールイン・スケールアウト時の制御が可能になります。 Capacity Provier Reservation Capacity Provider Reservationと呼ばれる新しいメトリックを導入します。クラスター内のすべてのECSワークロード、つまり既存のもの、新規のもの、変更になるもの、これらすべてが必要とする、クラスターリソースの割合(パーセンテージ)が計測されます。このメトリックはCPUやメモリ使用率を用いるよりも確度の高い、素早いスケールアウトを実現するために用いられ、またクラスター内の空きキャパシティを把握することもできるようになります。また、インスタンスを新規起動せず追加のコンテナーを素早く起動できるか、といった判断も可能になります。 管理されたインスタンス保護 インスタンス保護機能により、スケールインに際してどのインスタンスを削除できるかをECSに知らせることができます。これにより稼働中のコンテナーの中断を最小限に抑えられるようになります。運用コストの最適化、またECSで稼働するコンテナーワークロードの可用性向上に役立つ機能です。 ユーザーの利点 これまで、自動スケールするコンテナーワークロードを運用していたユーザーは、多くの場合、メトリックベースのスケーリングを使っていました。メトリックの例にはCPU使用率やメモリ使用率といったものがあり、この変化に基づいてクラスターインスタンスを追加、あるいは削除するべきかを判断するスケーリングポリシーを定義していました。 単一のワークロード、もしくは穏やかに負荷が上昇するワークロード群であれば、この方式でもうまくいく場合が多かったと考えます。しかし同一クラスター上で複数種類のワークロードを稼働させるケース、また急激な負荷上昇が見込まれるワークロードに対しては、スケーリングの問題が頻発していました。理想的には、その時点のクラスターサイズで収容しきれないようなワークロードの増加に対しては、クラスターサイズをスケールアウトさせるようなスケーリングポリシーが必要です。 既存のメトリクスがコンテナー全体を対象にしたものではなく、またその時点で使用中のリソースのみを表現するものである以上、スケールアウトが緩慢に、また不安定になってしまうことは避けられませんでした。加えて、クラスター内のどこでコンテナが稼働しているのかをスケーリングポリシーが把握できないため、スケールインに際して不用意にコンテナーを終了させてしまう場合もありました。この問題はコンテナーワークロードの可用性を低下させる要因になっていました。コンテナーインスタンスの追加台数の準備、追加のスクリプト開発、あるいは手動運用などでの回避は、すべて運用コストの増大を招いていたと言えます。 スケールしてみよう! この機能をよく理解するには手を動かしてみるのが一番だと思います。 Amazon ECS Cluster Auto Scalingは、マネジメントコンソール、AWS CLI, Amazon ECS APIのいずれからも操作可能です。この例ではAWS CLIを用い、ターミナルからクラスターを作成する流れを見ていきます。 まず2つのファイルを作成します。ひとつ目はdemo-launchconfig.jsonで、EC2 Auto Scaling Groupに起動するAmazon Elastic […]

Read More

Amazon SageMaker Debugger – 機械学習モデルのデバッガ

2019年12月3日、機械学習(ML)学習時に起こる複雑な問題を自動的に識別する Amazon SageMaker の新しい機能、Amazon SageMaker Debugger を発表できて非常にうれしく思います。 機械学習モデルの構築と学習は、サイエンスと工芸の融合です(魔術と言う人もいます)。データセットの収集から準備、さまざまなアルゴリズムの実験、最適なトレーニングパラメーター(恐ろしいハイパーパラメーター)の探索まで、機械学習を実行する人は高性能のモデルを提供するために多くのハードルをクリアする必要があります。これがまさに、機械学習ワークフローを簡素化し高速化する、モジュール式のフルマネージドサービス Amazon SageMaker を構築する理由なのです。

Read More

AWS Transit Gatewayにマルチキャストとインターリージョンピアリング機能を追加

AWS Transit Gateway は、1 つのゲートウェイを使用して、数千の Amazon Virtual Private Cloud(VPC)とオンプレミスネットワークを接続できるサービスです。 お客様は、このサービスがもたらす運用コストの削減と全体的なシンプルさを享受しています。 さらに、本日(2019/12/03) AWS Transit Gateway インターリージョンピアリングと AWS Transit Gateway マルチキャストという 2 つの新機能がリリースされました。 ピアリング お客様がAWSでワークロードを拡張するときに、複数のアカウントやVPCにまたがってネットワークを拡張する必要があります。お客様は、VPCピアリングを使用して VPC のペアを接続するか、PrivateLink を使用して VPC 間でプライベートサービスエンドポイントを公開することができます。 しかし、この管理は複雑です。 AWS Transit Gateway インターリージョンピアリングでは、これに対処し、複数のAWSリージョンにまたがるセキュアでプライベートなグローバルネットワークを簡単に作成できます。 インターリージョンピアリングを使用すると、組織内の異なるネットワーク間で一元化されたルーティングポリシーを作成し、管理を簡素化し、コストを削減できます。 インターリージョンピアリングを流れるすべてのトラフィックは匿名化、暗号化され、AWS バックボーンによって伝送されるため、リージョン間の最適なパスが常に最も安全な方法で確保されます。 マルチキャスト AWS Transit Gateway Multicast を使用すると、クラウドでマルチキャストアプリケーションを構築し、接続された数千の仮想プライベートクラウドネットワークにデータを配信することが容易になります。 マルチキャストは、単一のデータストリームを多数のユーザーに同時に配信します。 これは、ニュース記事や株価などのマルチメディアコンテンツやサブスクリプションデータをサブスクライバーグループにストリーミングするための好ましいプロトコルです。 AWS は、お客様がアプリケーションをクラウドに移行し、AWS が提供する伸縮自在性と拡張性を活用できるようにするネイティブのマルチキャストソリューションを提供する最初のクラウドプロバイダーです。今回のリリースでは、Transit Gatewayにマルチキャストドメインが導入されました。 ルーティングドメインと同様に、マルチキャストドメインを使用すると、マルチキャストネットワークを異なるドメインにセグメント化し、Transit Gateway を複数のマルチキャストルーターとして動作させることができます。 今すぐ利用可能 これら2つの新機能は準備ができており、今日あなたが試すことを待っています。 インターリージョンピアリングは、米国東部 (バージニア北部)、米国東部 […]

Read More

Amazon SageMaker Studio: 機械学習のための初の統合開発環境

2019年12月3日、Amazon SageMaker Studioという機械学習のための初の統合開発環境(IDE)を提供できることを非常に嬉しく思います。 2017年に Amazon SageMaker がリリースされてからしばらく経ち、このサービスをご利用いただいているお客様の数は増加しています。機械学習開発ワークフローには反復的なプロセスが必要ですが、機械学習ツールが成熟していないために開発者は大変な思いをしてきました。従来のソフトウェア開発時に開発者が当たり前に使用する多くのツール(デバッガ、プロジェクトマネジメントツール、コラボレーション機能、モニタリングツールなど)は、まだ機械学習用には存在していないのです。

Read More

Amazon SageMaker Experiments – 機械学習モデルの整理、追跡、比較、評価

2019年12月3日、機械学習(ML)実験とモデルバージョンの整理、追跡、比較、評価を可能にする Amazon SageMaker の新機能である、Amazon SageMaker Experiments を発表できて非常にうれしく思います。 機械学習では非常に多くの反復プロセスを含みます。1つのプロジェクトの過程で、データサイエンティストと 機械学習エンジニアは、最大限の精度を求めて数千の異なるモデルを定期的に学習を行います。実際、アルゴリズム、データセット、および学習パラメーター(別名ハイパーパラメーター)の組み合わせの数は無限に存在します。それはまさに「干し草の山の中にある1本の針を探す」ということわざのように無駄骨を折る苦労を伴います。

Read More

エキサイティングな新レース形式で、開発者がオブジェクト回避と直接対決モデルでの競争を可能にする AWS DeepRacer Evo が間もなく登場

AWS DeepRacer の発足以降、AWS DeepRacer モデルを構築し、AWS DeepRacer リーグに参加して 2019 AWS DeepRacer リーグチャンピオンの称号を得るため、世界中の何万人もの開発者が AWS マネジメントコンソールで強化学習の実践的な経験を積んでいます。リーグファイナルが今週、re:Invent 2019 にて開催されます。 直接対決レースなどが可能な AWS DeepRacer Evo の紹介 強化学習で駆動する 1/18 スケールの自立型走行車で、LIDAR とステレオカメラセンサーが新しく搭載された AWS DeepRacer Evo をご紹介します。 新しいステレオカメラと LIDAR (光検出および測距) センサーにより、ユーザーはオブジェクトの検出や他のマシンの回避を可能にするさらに高度な強化学習モデルのトレーニングができるようになります。ユーザーは、2020 年開催の新しい AWS DeepRacer League レース形式に参加可能なモデルを構築できるようになりました。新式レースでは、2019 年のタイムトライアル形式に加えて、オブジェクト回避とデュアルカーの直接対決レースがバーチャルと現実の世界の両レースに加わります。 開発者は、AWS DeepRacer コンソールの新しい「My Garage」セクションで、仮想マシンにステレオカメラとLIDARセンサーを追加することで、オブジェクト回避と直接対決モデルの構築を始めることができます。これらのセンサーで、レーストラックを独自の視点で見ることができます。マシンはステレオカメラでオブジェクトとの距離を検出でき、LIDAR は後ろから高速で接近しているマシンがいるかどうかを判断するのに役立ちます。センサーから受け取ったこれらの情報を、高度なアルゴリズムと最新の報酬関数と組み合わせることにより、開発者は障害物 (他のマシンを含む) を検出するだけでなく、追い越しのタイミングを決定したり、他のマシンをゴールライン際で抜かしたりできるようなモデルを構築できます。 AWS DeepRacer コンソールの新しい Garage セクションで、AWS DeepRacer Evo に新しいセンサーを追加します。 それだけではありません。AWS DeepRacer […]

Read More