Amazon Web Services ブログ

Category: SageMaker

Amazon SageMaker BlazingText: 複数の CPU または GPU での Word2Vec の並列化

AWS は、Amazon SageMaker の最新組み込みアルゴリズムとして Amazon SageMaker BlazingText をリリースします。BlazingText は、Word2Vec 埋め込みを生成するための教師なし学習アルゴリズムです。大規模コーパスには単語の密なベクトル表現があります。Word2Vec の最高速実装である BlazingText が、以下を使用する Amazon SageMaker ユーザーにご利用いただけるようになりました。 シングル CPU インスタンス (Mikolov によるオリジナルの C 実装および fastTextなど) 複数の GPU を備えたシングルインスタンス、P2 または P3 マルチ CPU インスタンス (分散 CPU トレーニング) 単一の p3.2xlarge (Volta V100 GPU 1 個) インスタンス上の BlazingText は、単一の c4.2xlarge インスタンス上の fastText よりも 21 倍速く、20% 割安になる場合があります。 複数の CPU ノード全体における分散トレーニングでは、BlazingText は […]

Read More

AWS KMS ベースの暗号化を Amazon SageMaker のトレーニングおよびホスティングに使用できるようになりました

Amazon SageMaker は、EC2 インスタンスのトレーニングおよびホスティングにアタッチされる ML General Purpose ストレージボリュームの暗号化に Throwaway key (Transient key とも呼ばれます) を使用します。これらのキーは、ML ストレージボリュームの暗号化にのみ使用され、すぐに破棄されるため、ボリュームを安全に使用して機密データを保管することができます。ボリュームには、アクセス制限されている関連するインスタンスを通じてのみアクセスできます。インスタンスが終了すると、ML ボリュームは削除され、ボリューム内のデータにはアクセスできなくなります。 お客様は、AWS Key Management Service (KMS) を通じて管理されるキーの使用を可能することを要求しています。これは KMS マスターキー ID を指定する際に、ノートブックインスタンスにアタッチされたストレージが暗号化される方法と同じです。 今日から、トレーニングとホスティングのデータを暗号化するために、KMS マスターキーを使い始めることができます。これにより、一元的なキー管理、キー使用監査ロギング、マスターキーローテーションなどの AWS KMS 機能を、分散トレーニングとモデルホスティングに活用できます。 トレーニングデータを暗号化するには、CreateTrainingJob API の呼び出しで KMS マスターキーを指定します。ホスティングの場合は、CreateEndpointConfig API の呼び出しでキーを指定します。 Amazon SageMaker および KMS の詳細については、Amazon SageMaker Developer Guide をご覧ください。 今回のブログの投稿者について Kumar Venkateswar は、Amazon SageMaker、Amazon Machine Learning、Deep Learning AMI […]

Read More

AWS CloudTrail が Amazon SageMaker で利用可能に

以前より AWS をご利用のお客様からは、ガバナンスとコンプライアンスのニーズを満たすため Amazon SageMaker でアクティビティを記録したいというご要望をいただいておりました。このたび、Amazon SageMaker が AWS CloudTrail と統合されたことをご案内いたします。これにより Amazon SageMaker API のアクティビティに関するアカウント情報を記録して継続的にモニターして保持できるようになりました。Amazon SageMaker API コールは、Amazon SageMaker SDK、AWS SDK、Amazon SageMaker 用の Apache Spark SDK、Amazon SageMaker コンソールからキャプチャされ、Amazon S3 バケットに配信されて、AWS アカウントアクティビティのイベント履歴を提供します。記録される情報は、送信元 IP アドレス、リクエストされた日時、リクエストに関連付けられたユーザー ID、リクエストされたパラメーターなどです。 AWS CloudTrail との統合により、Amazon SageMaker には一連の管理機能が追加されます。これは、Amazon が共有セキュリティおよびコンプライアンスにおける責任を果たすための継続的な取り組みの一環です。この機能は Amazon が先月配信した管理機能に基づくものであり、ISO 標準認定に準拠しています。また、Amazon SageMaker におけるガバナンスを重視し、監査に対応した将来的機能の基盤であるとともに、お客様が安全かつ標準準拠の機械学習 (ML) プラットフォームを確立して運用するのに役立ちます。 詳細については、「Amazon SageMaker ドキュメント」を参照してください。 その他の参考資料 Amazon SageMaker でのご利用開始: より正確な時系列予測のための […]

Read More

Amazon SageMaker でのご利用開始: より正確な時系列予測のための DeepAR アルゴリズム

Amazon SageMaker の最新内蔵アルゴリズムとして、Amazon SageMaker DeepAR をリリースします。DeepAR はポイント予測と確率的予測の両方を生成するために再帰型ニューラルネットワーク (RNN) を使用する時系列予測の教師あり学習アルゴリズムです。私たちは、開発者が Amazon 内でミッションクリティカルな決定を行う、この伸縮自在にスケール可能で、極めて精度の高い予測アルゴリズムを利用できるようになることに大変な期待を寄せています。DeepAR アルゴリズムは他の Amazon SageMaker 内蔵アルゴリズムと同じように使用でき、トレーニングや推測のために、インフラストラクチャをセットアップする必要もありません。 どこでも予測 予測は多くの産業で機械学習を適用するためのスタート地点となっています。より良い製品需要予測を介してサプライチェーンを最適化する、ウェブサーバーのトラフィックを予測することでコンピューターリソースを配分する、あるいは、患者のニーズに合わせて病院の人員配備を行い人命を救うなど、その用途に関係なく、正確な予測への投資が、すぐに投資へと還元されない分野はほとんどありません。 Amazon では、様々な使用分野におけるビジネスの意思決定を下すために予測の手法を用いています。その一例としては、配送センターでの製品および労働力需要の予測が挙げられます。たとえば、プライムデー、ブラックフライデー、サイバーマンデーなどの主要な繁忙期の予測です。また、AWS のコンピューティングおよびストレージ能力が AWS のお客様全体に伸縮自在に行き渡るようにすることもその一例です。Amazon の科学者は Amazon におけるこの種の実世界のビジネス用途を、高い精度で解決するために DeepAR などのアルゴリズムを開発します。 DeepAR アルゴリズムのハイライト DeepAR 予測アルゴリズムはいわゆる自己回帰和分移動平均 (ARIMA) や指数平滑化 (ES) といった、予測用のオープンソース型ソフトウェアパッケージと商用ソフトウェアパッケージの多くに実装されている従来の予測技法と比較してより高い精度の予測を提供します。DeepAR アルゴリズムはまた、実世界の用途に特によく適した、他の機能およびシナリオをサポートしています。 コールドスタート予測 コールドスタートのシナリオとは、既存の履歴データがほとんど存在しない、またはまったく存在しない時系列の予測を生成する必要があるときに生じます。これは、実際には新商品の投入時、新 AWS リージョンが登録されたときによく起こります。ARIMA または ES といった従来の手法では個々の時系列に対し履歴データのみに依存するため、コールドスタートのケースでは精度が落ちるのが一般的です。スニーカーのような衣料品の予測を例にして考えてみましょう。 DeepAR のようなニューラルネットワークベースのアルゴリズムは、スニーカーが最初に売り出された時点で他のタイプのスニーカーの販売パターンをベースに新商品のスニーカーの一般的な販売動向を学習できます。 トレーニングデータ内で複数の関連時系列から関係を学習することで、DeepAR は既存の代替アルゴリズムより正確な予測を提供できるのです。 確率予測 DeepAR はまた、ポイント予測と (例: 1 週間に売り上げたスニーカーの量が X) および確率予測 (例: 1 […]

Read More

Amazon EMR での Spark にバックアップされた Amazon SageMaker ノートブックの構築

2017年の AWS re:Invent で発表された Amazon SageMaker は、データサイエンスと機械学習ワークフローのためのフルマネージド型サービスを提供します。Amazon SageMaker の重要な部分のひとつは、モデルの構築に使用できる強力な Jupyter ノートブックインターフェイスです。Amazon SageMaker 機能は、ノートブックインスタンスを Amazon EMR で実行されている Apache Spark クラスターに接続することによって強化することができます。Amazon EMR は、大量のデータを処理するためのマネージドフレームワークです。この組み合わせにより、大量のデータに基づいてモデルを構築することが可能になります。 Spark はビッグデータの迅速な処理を可能にするオープンソースのクラスターコンピューティングフレームワークで、機械学習ワークロードのための MLlib が含まれています。Amazon SageMaker ノートブックと Spark EMR クラスターとの接続を容易にするには、Livy の使用が必要になります。Livy は、Spark クライアントを必要とすることなく、どこからでも Spark クラスタとやり取りするためのオープンソース REST インターフェイスです。 このブログ記事では、Spark EMR クラスターをスピンアップする、Amazon SageMaker と EMR 間のコミュニケーションを許可にするために必要なセキュリティグループを設定する、Amazon SageMaker ノートブックを開く、そして最後に Livy を使用してそのノートブックを EMR 上の Spark に接続する方法を説明します。このセットアップは、PySpark、PySpark3、Spark、および SparkR ノートブックで利用できます。 EMR […]

Read More

AWS DeepLens の拡張機能: 独自のプロジェクトの構築

AWS DeepLens では、ディープラーニング、Internet of Things (IoT) などの新しいテクノロジーを知ることができるだけでなく、現実的な問題を解決する革新的なシステムを構築することができます。このデバイスおよびサービスには、定義済みのプロジェクトセットが付属しており、プロジェクトをすばやく実行することができます。また、開発者が初心者か経験豊富かに関係なく、同様にエキサイティングなプロジェクトを新しく構築 (および共有) できるようにするオープンプラットフォームとして設計されています。 このブログ投稿では、独自のプロジェクトを構築するプロセスについて説明します。以下に一部のステップを紹介します。 ディープラーニングモデルのトレーニング (Amazon SageMaker を使用) AWS DeepLens エッジデバイス上で実行できるように、トレーニング済みのモデルを最適化する モデルをロードし、ビデオストリーム上で推論を実行できるように、AWS Lambda 関数を開発する AWS Greengrass を使用して AWS Lambda 関数を AWS DeepLens にデプロイする コマンドを送信し、推論を出力できるように、エッジ AWS Lambda 関数をクラウドに接続する 完成 ディープラーニングモデルのトレーニング (Amazon SageMaker を使用) Amazon SageMaker は、データサイエンスで手間のかかる作業を排除する新しいサービスです。このサービスには、推奨のエンジンから Alexa や Amazon Go、Amazon Robotics などの機械学習に基づくシステムまで、Amazon.com のビジネスのさまざまな側面で、Amazon データサイエンティストの長年の経験が反映されています。 優れた機械学習モデルを設計、構築する全体のプロセスは非常に興味深いですが、今回のブログ投稿では割愛します。実際、DeepLens デバイスにディープラーニングモデルをデプロイして再接続し、その出力を活用するフローで生産性を高めれば、現実の新しい問題を解決するために新たなモデルの構築にますます多くの時間を費やすことになります。 機械学習の初心者が、データサイエンティストのエキスパートと同じ開始ポイントに立つには、Amazon SageMaker でノートブックインスタンスを作成する際に利用できる Jupyter […]

Read More

Amazon SageMaker – 機械学習を加速する

機械学習は多くのスタートアップやエンタープライズにとって重要な技術です。数十年に渡る投資と改善にも関わらず、機械学習モデルの開発、学習、そして、メンテナンスはいまだに扱いにくく、アドホックなままになっています。機械学習をアプリケーションに組み込むプロセスはしばしば一貫しない仕組みで数ヶ月間に及ぶエキスパートチームによるチューニングと修正を伴います。企業と開発者は機械学習に対する生産パイプラインに対するのエンド・エンドな製品を望んでいます。   Amazon SageMaker の紹介   Amazon SageMaker はフルマネージドなエンド・エンド機械学習サービスで、データサイエンティストや開発者、機械学習のエキスパートがクイックに機械学習モデルをスケーラブルにビルド・学習・ホストすることを可能とします。このサービスが機械学習に関する全ての試みを急激に加速し、プロダクションアプリケーションに素早く機械学習を追加可能とします。 Amazon SageMaker には3つの主要なコンポーネントが存在します: オーサリング:データに関する調査・クレンジング・前処理に対してセットアップ無しで利用可能な Jupyter notebook IDE をCPUベースのインスタンスやGPUを利用可能なインスタンスで実行することが可能です。 モデルトレーニング:モデルトレーニングは分散モデル構築/学習/評価サービスです。ビルトインされた共通の教師あり/教師なし学習アルゴリズムやフレームワークの利用や Docker コンテナによる独自の学習環境を作ることも可能です。学習では、より高速なモデル構築を可能とするため、数十のインスタンスにスケールすることが可能です。学習データは S3 から読み出され、モデルアーティファクト が S3 に保存されます。モデルアーティファクトはデータと分離されたモデルのパラメータであり、モデルを使って推論を可能とするような実行コードではありません。この分離により、IoT デバイスのような他のプラットフォームに SageMaker で学習したモデルをデプロイすることが容易になります。 モデルホスティング:モデルをホストするサービスで、リアルタイムに推論結果を取得するためにモデルを呼び出す HTTPS エンドポイントを提供します。エンドポイントはトラフィックに対処するためにスケールすることができ、同時に複数モデルで A/B テストすることを可能とします。加えて, ビルトインの SDK を利用してエンドポイントを構築できるだけでなく、カスタム設定で Docker イメージを利用することができます。 これらコンポーネントはそれぞれ分離して利用することができ、分離されていることが、存在するパイプラインのギャップを埋めるために Amazon SageMaker を採用することを本当に簡単にしています。故、エンド・エンドにサービスを使用するときに有効になる、本当に強力な事象がいくつも存在します。

Read More