Amazon Web Services ブログ

Amazon Comprehend、AWS Glue、Amazon Athena を使用して感情分析をスケールする方法

現代の消費者は、ソーシャルメディア、ブログ、レビュープラットフォームを通じて企業や製品に満足感や不満を表明することがよくあります。感情分析は、企業が顧客の意見やニーズをよりよく理解し、情報に基づいてビジネスの意思決定を行うのに役立ちます。Amazon は、複数のカテゴリと言語で 1 億 3,000 万件以上の製品レビューを含むデータセットを公開しました。このデータセットを、今回のユースケースで使用します。 この記事では、Amazon S3 から未処理の Amazon 製品レビューを取り出し、データセットをクリーンアップし、各レビューから感情を抽出し、Amazon S3 に出力を書き戻すサーバーレスのデータ処理パイプラインを構築する方法を学びます。次に、最終結果を探索して視覚化します。クラウドベースの機械学習 API や他の選択した API を使用してデータを充実させる方法を強調したいと考えています。柔軟性は、パイプラインに組み込まれています。 Amazon Comprehend は機械学習を使用して、テキストにある洞察や関係を見つけます。私たちのユースケースでは、Amazon Comprehend を使用して、顧客の製品レビューから感情を判断します。使いやすい API を使用しても、意味のある洞察を得るには、未処理のデータセットをクリーンアップしてテキストをレビューする必要があります。この目的のために、Apache Spark のパワーを活用する完全マネージド型でサーバーレスの ETL (抽出、変換、ロード) サービスである AWS Glue を使用します。最後に、Amazon Athena と Amazon QuickSight を使用してデータをクエリし、視覚化します。 データパイプラインのアーキテクチャ 私たちのユースケースはシンプルですが、複雑なシナリオに合わせて簡単に拡張することができます。未処理データから始めて、すべてを一気に充実させたいと考えています。この場合、バッチ ETL プロセスが理想的です。 次の図は、私たちの処理パイプラインのアーキテクチャを示しています。 Apache Parquet 形式で Amazon S3 から未処理の Amazon 製品レビューのデータセットを読み取る (1) Glue ETL ジョブの実行から開始します。ETL は、レビューの行ごとに Comprehend API (2) […]

Read More

2018 年 7 月の AWS Black Belt オンラインセミナーのご案内

こんにちは。マーケティングの鬼形です。7 月の AWS Black Belt オンラインセミナーの配信についてご案内させて頂きます。 !!オンラインセミナーお申し込み方法: オンラインセミナー登録ページよりお申し込みください 【一般提供開始!】Amazon Neptune 2018 年 7 月 3 日 | 12:00 – 13:00 | IT 知識レベル:★★☆☆☆ | AWS 知識レベル:★★☆☆☆ 2018年6月に Amazon Neptune の一般提供が開始されました。この Webinar ではグラフデータベースの概念、および Amazon Neptune の基本的なアーキテクチャーを説明し、どのようなシーンで利用するのか、Amazon Neptune 利用時に押さえておくべきポイントについてご紹介致します。 対象者 グラフデータベースについて知りたい方 既にグラフデータベースを使用されている/検討されている方 本セミナーで学習できること Amazon Neptune の基礎、利用シーン、活用のポイントを学ぶことができます スピーカー 五十嵐 建平 Solutions Architect   【東京リージョン一般提供開始!】Amazon Elastic File System (Amazon EFS) 2018 年 7 […]

Read More

双方向の扉を活用した、AWS上のミッションクリティカルなSAPシステムの変革

この記事は、Amazon Web Services (AWS)で戦略的ISVパートナーのGMを務めるBas Kamphuisによるものです。 誰もが一方通行の扉を通ることを好みません。 一方通行の扉が閉まった後、始めた場所に戻るための簡単な方法はありません。お客様の選択肢は限られており、無意識に始めた旅の方向性を変えるには多大な時間とリソースを費やす必要があります。 最初の扉を開けないほうが良かったと思うかもしれません。 SAPをお使いの多くのお客様にとって、複雑でミッションクリティカルなSAP環境をどのように構築して稼働するかを決定することは、一方通行の扉を通り抜けることに似ています。SAPは多くのエンタープライズオペレーションにとって重要なツールですが、SAPの導入を成功するには、従来より大幅な設備投資、複雑に連携したシステムアーキテクチャ設計、企業の厳しい要件に合わせたカスタマイズソリューション、そして弾力性と信頼性を兼ね備えた堅牢なITバックボーンが必要です。

Read More

Amazon EKS – 一般向け利用を開始

Amazon Elastic Container Service for Kubernetes を発表し、re:Invent 2017 の期間中にお客様をプレビューにご招待しました。本日謹んで、Amazon EKS が、お客様が利用可能な実稼働状態に達したことをお知らせいたします。その Kubnernetes 適合性が認証され、既存の Kubernetes ワークロードを実行できるようになりました。 Cloud Native Computing Foundation の最新のデータによれば、Kubernetes を実行している全企業の 57% が AWS は 選択しており、Kubernetes 環境としては AWS が先頭を走っています。Kubernetes はお客様の IT 戦略のコアであり、毎週 AWS で数億ものコンテナを実行しています。Amazon EKS は Kubernetes クラスターのビルド、保護、操作、保守のプロセスを簡略化し、Kubernetes クラスターをゼロから設定することなく、アプリケーションのビルドに集中したいと考える組織にコンテナベースのコンピューティングの便益をもたらしています。 AWS インサイド Amazon EKS は AWS クラウド内で実行できるため、多くの AWS サービスと機能を大いに活用しながら、Kubernetes に関する既知の知識すべてをそのまま有効に適用できます。概要は以下の通りです。 Multi-AZ – Kubernetes コントロールプレーン (API サーバーおよび […]

Read More

Amazon SageMaker コンソールがトレーニングジョブのクローン作成サポートを開始

本日、トレーニングジョブのクローン作成機能を立ち上げましました。 Amazon SageMaker コンソール上で既存のものに基づいてトレーニングジョブを作成することがとても簡単になりました。 異なるトレーニングセットおよび同一設定を使い、 Amazon SageMaker 上で、複数のトレーニングジョブを実行するのが一般的なやり方です。 特定のハイパーパラメータや、基礎となるコンピューティングリソースを調整し、モデルを再トレーニングすることもよく行われます。 このようなシナリオでは、既存のトレーニングジョブをベースに新しいトレーニングジョブを作成することが望ましいです。こうした要件に対処するため、Amazon SageMaker は AWS 管理コンソールを使用して、既存のトレーニングジョブのクローン作成をサポートできるようになりました。 コンソールを使えば、既存のトレーニングジョブを複製するのは簡単です。 Amazon SageMaker コンソールで、左側のナビゲーションペインに表示される Training、そして Training jobs を選択してください。 そうすれば、これまでに作成した全てのトレーニングジョブのリストが表示されます。 例えば、新しいトレーニングジョブを作成したいとしましょう。 Training jobs リストの中にあるジョブ (xgboost-2018-06-05-17-19-32-703) を例とします。 同じ設定を用いて、別のデータセットに対しても xgboost-2018-06-05-17-19-32-703 トレーニングすることができます。 トレーニングジョブを最初から作成するには、Create training job を選択する代わりに、 xgboost-2018-06-05-17-19-32-703 をチェックし、Clone を選択して、Clone training job のページを開くだけです。 ジョブの設定は、元の設定 xgboost-2018-06-05-17-19-32-703 とほぼ同じです。ただし、接尾辞が元のジョブ名に自動的に追加された点が異なります。 同じトレーニングプロセスを再実行したい場合は、何も変更をせずにページの一番下にある Create training job を選択してください。 別のデータセットを使用するので、トレーニングジョブ名は好きなように変更してください。 この例では、 xgboost-mydataset を使用します。 ページ下にある […]

Read More

AWS Deep Learning AMI に Horovod が追加され、Amazon EC2 P3 インスタンスで、より高速なマルチ GPU TensorFlow のトレーニングが可能に

この AWS Deep Learning AMI は、よく普及しているオープンソースの分散トレーニングフレームワークで、複数 GPU で TensorFlow トレーニングを拡張します。Ubuntu や Amazon Linux 用で、 Horovod といっしょにインストールおよび全設定が完了済みです。 これは、 TensorFlow 1.8 の最適化ビルドのアップデート版で、5 月初旬に開始されました。 このカスタムビルドの TensorFlow 1.8 は、高度に最適化されたソースから直接構築され、Amazon EC2 C5 および P3 インスタンスのストック TensorFlow 1.8 と比較して、トレーニングパフォーマンスが向上しています。 マシンラーニングの開発者は、AMI に Horovod を追加すれば、TensorFlow トレーニングを P3 などの Amazon EC2 GPU インスタンス上で、1 つの GPU から複数の GPU にすばやくスケールアップすることが可能となり、トレーニングパフォーマンスをさらに向上させることができます。 開発者は、パラメーターサーバーを使用する標準の TensorFlow 分散トレーニングモデルと比較して、コードの変更を少なくし、より高いマルチ GPU トレーニングパフォーマンスが可能となります。 Amazon […]

Read More

複数の GPU に対する深層学習トレーニングをスケーリングするためのハイパーパラメーターの調整の重要性

複数の GPU による並列プロセスは、深層モデルのトレーニングのスケーリングを行う上で重要なステップです。トレーニングを繰り返すたびに、一般的に、ミニバッチと呼ばれるデータセットの小さなサブセットがプロセスされます。単一の GPU が使用可能の場合、それぞれのトレーニングの繰り返しにおけるミニバッチの処理は、この GPU により取り扱われます。複数の GPU でトレーニングするとき、ミニバッチはプロセスの負荷を均等に分散するために使用可能な GPU 全体に分割されます。各 GPU を完全に使用するためには、各追加 GPU でミニバッチのサイズを直線的に増大させる必要があります。ミニバッチのサイズは、トレーニング速度に影響を与えるだけではなく、トレーニングされるモデルの質にも影響を与えます。ミニバッチのサイズが大きくなると、他のハイパーパラメーターを微調整して、類似するモデルの質でより高速なトレーニングができるようにすることが重要です。 Gluon によるマルチ GPU と分散トレーニング 最新の真相学習モデルにより必要な広範なデータの量により、複数の GPU と分散マシンにスケーリングすることで、調査と本番稼働のための大幅な時間節約となる可能性があります。Amazon SageMaker や Amazon Elastic Compute Cloud (Amazon EC2) のようなサービスでは、数百 GPU の分散トレーニングをセットアップすることは、痛みのないだけでなく、正確な使用量に対して支払うだけで非常に経済的で、高価で十分に活用されていないハードウェアフリートを維持する必要はありません。 Apache MXNet は、柔軟でより効率的な深層学習プラットフォームです。 これは、複数のホストにわたるマルチ GPU と分散トレーニングに特に適しています。Apache MXNet の Gluon ライブラリは、深層学習のための明確で正確、さらにシンプルな API を提供します。gluon による複数の GPU のトレーニングおよび複数のマシンによる分散トレーニングに関するチュートリアルでは、マルチ GPU と分散トレーニングの容易なセットアップをデモンストレーションします。 トレーニングのハイパーパラメーター トレーニングのハイパーパラメーターは、勾配降下法によっては学習できないが、最終的なモデル品質に影響を与えるすべてのパラメーターを構成します。これらのパラメーターは、学習速度およびモメンタムなどの最適化パラメーター、ランダムなカラーシフト量などの増強パラメーター、および他の学習以外のパラメーターを含みます。 MXNet Gluon API は、すべての […]

Read More

この一週間の顔認識と Amazon Rekognition に関する公開ディスカッションについて弊社が考えること

この一週間、顔認識、監視、および個人の自由に関する、Amazon Rekognition の役割について多くの議論を見てきましたが、弊社の考えを共有したいと思ってます。 Amazon Rekognition は、弊社が 2016 年に発表したサービスです。開発者がディープラーニングなどの新しいテクノロジを簡単にかつ低料金で開発に利用できるようになりました。サービスを開始して以来、お客様は社会 (人身売買の防止、児童労働搾取の防止、失った子供との再会、子供向けの教育アプリの構築など) と組織 (マルチファクタ認証導入によるセキュリティ強化、画像検索の容易化、玄関先の商品の盗難防止など) の両面において、Amazon Rekognition の画像と動画の分析機能を活用してます。アマゾン ウェブ サービス (AWS) は、単にこれらのサービスプロバイダではありません。私たちは画像およびビデオ分析のテクノロジーが公共部門や法執行機関も含む組織においてどのように良い結果をもたらすのかを見るのがとても楽しみです。規定 (以下、「AUP」) を定めており、「違法行為、他者の権利を侵害する行為、または他者に有害である可能性のある行為」に対して本サービスの使用を禁じています。これには、本質的にあらゆる種類の違法差別や正当なプロセスやプライバシー権の侵害など、第 4、第 5、および第 14 条修正に関する憲法上の権利を侵害することが含まれます。 当社の AUP に違反しているお客様は当社のサービスを使用することはできません。 しかし新しい技術力には常にリスクが存在します。新技術の採用を決定した組織は、責任をもった行動、または法的罰則や公然の非難を受ける覚悟が必要です。AWS はその責任を真剣に受け止めています。しかし、我々は有望な技術を悪事に利用されるのを恐れて、それらの使用を禁止するといったことは誤った方法だと考えています。もしコンピュータが悪用される可能性があるという理由で、人々がコンピュータの購入を規制された場合、世界は誤った方向に行くでしょう。私たちが毎日頼っている何千もの技術についても同様です。 それらの技術を責任を持って利用することで、技術がもたらす恩恵はリスクをはるかに上回っています。 お客様は Amazon Rekognition を使い素晴らしいスタートを切りました。この新技術がもたらすプラスの効果は日々大きくなっています。我々は責任ある利用をしているお客様を引き続きサポートすることができて嬉しく思っています。 -Dr. Matt Wood 氏、AWS の人工知能ゼネラルマネジャー

Read More

Amazon SageMaker のアップデート、東京リージョン、CloudFormation、Chainer、GreenGrass ML

本日、東京での AWS Summit で、Amazon SageMaker の多数のアップデートや新機能が発表されました。本日より、SageMaker が アジアパシフィック (東京) で利用可能になります!また、SageMaker は CloudFormation もサポートします。SageMaker Python SDK では、MXNet および Tensorflow に加えて、機械学習の新しいフレームワークである Chainer も利用できます。最後に、いくつかのデバイスでの Chainer モデルの実行に対するサポートが AWS Greengrass Machine Learning に追加されました。 Amazon SageMaker Chainer エスティメーター Chainer は、定評がある、柔軟で直感的な深層学習のフレームワークです。Chainer ネットワークは、ネットワークトポロジが順方向計算によって動的に定義される「Define-by-Run」スキームで動作します。これは、ネットワークのトポロジがデータとは別に定義される「定義と実行」スキームで動作する他の多くのフレームワークとは対照的です。多くの開発者は、ネイティブの Python の構造やツールでネットワークを書くことができるので、Chainer スキームを重宝しています。 幸いなことに、SageMaker で Chainer を使用することは、TensorFlow または MXNet のエスティメーターを使用するのと同じくらい簡単です実際には、既存のスクリプトを使用して、少し修正するだけで SageMaker でトレーニングすることができるので、さらに簡単かもしれません。TensorFlow または MXNet を使用する場合には、特定の署名を持つトレーニング機能を実装する必要があります。Chainer を使用する場合は、 SM_MODEL_DIR、 SM_NUM_GPUS、その他の環境変数から簡単に読み込めるので、スクリプトはより移植しやすくなります。既存のスクリプトを、 if __name__ […]

Read More

EC2 インスタンスの更新 – NVMe ストレージを搭載する M5 インスタンス (M5d)

今月はじめに NVMe ローカルストレージを搭載した C5 インスタンスの提供を開始し、近い将来に NVMe ローカルストレージを搭載したインスタンスタイプをさらに追加するとお伝えしました。 本日、NVMe ローカルストレージを搭載した M5 インスタンスを発表します。このインスタンスは 5 つのリージョンで即時ご利用可能で、コンピューティングリソースとメモリリソースのバランスが要求されるワークロードに非常に適しています。そのスペックは次のとおりです。 インスタンス名 vCPU RAM ローカルストレージ EBS 最適化された帯域幅 ネットワーク帯域幅 m5d.large 2 8 GiB 1 x 75 GB NVMe SSD 最大 2.120 Gbps 最大 10 Gbps m5d.xlarge 4 16 GiB 1 x 150 GB NVMe SSD 最大 2.120 Gbps 最大 10 Gbps m5d.2xlarge 8 32 […]

Read More