Amazon Web Services ブログ

Amazon SageMaker で、Scikit-Learn のサポートを追加

Amazon SageMaker は、Docker コンテナの Scikit-Learn Machine Learning ライブラリで事前に構成されています。Scikit-Learn は、一貫性のある Python インターフェイスと文書で十分に立証された API を使用して、データ分析や一般的な Machine Learning アルゴリズムを高品質で実装できる効率的なツールを提供するため、データサイエンティストや開発者にとって人気があります。Scikit-Learn はすばやく実行でき、ほとんどのデータセットや問題に対応できるため、Machine Learning 問題をすばやく繰り返さなくてはならない場合に最適です。TensorFlow や MxNet などの深層学習フレームワークとは異なり、Scikit-Learn は Machine Learning やデータ分析に使用されます。クラスタリング、回帰、分類、次元削減、機能の前処理、およびモデル選択に関して、指導付き学習アルゴリズムと指導無し学習アルゴリズムの範囲から選択できます。 新しく追加された Scikit-Learn ライブラリは、Amazon SageMaker Python SDK で利用可能です。Scikit-Learn スクリプトを作成し、自動モデルチューニングを含む Amazon SageMaker のトレーニング機能を使用することができます。モデルのトレーニングを終えたら、Scikit-Learn モデルを高い可用性のエンドポイントにデプロイして、Auto Scaling して、低レイテンシーでリアルタイムでの予測を行うことができます。また、大規模なバッチ変換ジョブで同じモデルを使用することもできます。 このブログ記事では、Amazon SageMaker で事前に構築された Scikit-Learn ライブラリを使用して、マルチクラス分類モデルを構築、トレーニング、およびデプロイする方法を説明します。 Scikit-Learn モデルのトレーニングとデプロイ この例では、IRIS データセットの決定木分類子をトレーニングします。この例は Scikit-Learn 決定木分類子の例に基づいています。完全な Amazon SageMaker ノートブックをお試しいただけます。ここでは最も重要な部分を強調します。このデータセットは、異なる 3 […]

Read More

Apache Spark および Hadoop を Amazon EMR に移行してコストを削減

Apache Spark および Hadoop は、分析用のデータ処理向けのフレームワークとして広く普及しています。レガシーアプローチと比較すれば、コストもほんのわずかな額で済みますが、それでもそのスケーリングとなると、依然として高くつくケースがあります。本記事では、TCO を削減し、かつ同時にスタッフの生産性を引き上げる方法について考察します。その実現を可能にするのは、オンプレミスのワークロードの Amazon EMR への移行、良いアーキテクチャの選択、リソースの消費量を削減するよう設計された機能の活用です。今回のアドバイスは、お客様との多数の事例から得た知見に基づいており、主な論点の多くは IDC の Carl Olofson および Harsh Singh が実施したビジネス価値の研究結果によっても検証されています。当該研究はアマゾン ウェブ サービス (AWS) が資金提供しており、IDC ホワイトペーパー「The Economic Benefits of Migrating Apache Spark and Hadoop to Amazon EMR」(2018 年 11 月) としてご覧いただけます。 それではまず、ヘッドラインとして統計データをいくつかご紹介して、Amazon EMR への移行が生むコスト面のプラスのインパクトをご説明します。IDC が調査した Amazon EMR のお客様 9 社では TCO が平均 57% 削減されました。同時に、5 年間の投資利益率の 342% 増しで、8 か月で投資を回収しました。この 9 […]

Read More

Amazon Elasticsearch Service、Amazon Kinesis Data Firehose、Kibana を使用してユーザーの行動を分析する

あなたは E コマースの会社で働いていて、顧客に最高のユーザーエクスペリエンスを提供したいと考えているとします。顧客は、アプリケーションの別のページでのリコメンデーションから製品ページに来るかもしれませんし、検索エンジンから移動してくるかもしれませ。経路に関わらず、顧客が本当に探しているページに確実にたどり着けるようにしたいと考えています。ただし、すべての顧客が同じ経路をたどるわけではありません。どのようにアプリケーションにアクセスしているのか、どのような場所からアクセスしているのか、その他多くの属性に依存します。パターンを分析して決定するには、貴重なデータが豊富に含まれているログを確認する必要があります。 このブログ記事では、Apache ウェブサーバーのログにアクセスしてユーザーの行動を分析し、実用的な洞察を得る方法について説明します。 このブログでは、以下の AWS のサービスを使用しています。 Amazon Kinesis Data Firehose Amazon Elasticsearch Service Amazon Elastic Compute Cloud (Amazon EC2) AWS Lambda Amazon Cognito Amazon Simple Storage Service (Amazon S3) AWS CloudFormation (ソリューションをデプロイするため)

Read More

Amazon CloudFront のアクセスログを大規模に分析する

多くの AWS の顧客が、グローバルなコンテンツ配信ネットワーク (CDN) サービスである Amazon CloudFront を使用しています。低いレイテンシーと高い転送速度で、ウェブサイト、動画、API 操作をブラウザやクライアントに配信します。 Amazon CloudFront は、キャッシングまたはウェブアプリケーションファイアウォールによって、大量の負荷や悪意のあるリクエストからバックエンドを保護します。その結果、バックエンドに届くのはすべてのリクエストのごく一部になります。Amazon Simple Storage Service (S3) へのすべてのリクエストの詳細情報とともにアクセスログを保存するように Amazon CloudFront を設定することができます。これにより、キャッシュの効率に関する洞察を得たり、顧客が製品をどのように使用しているかを知ることができます。 S3 のデータに対して標準の SQL クエリを実行するための一般的な選択肢は Amazon Athena です。 事前にインフラストラクチャを設定したりデータをロードしたりすることなく、クエリによってデータが即座に分析されます。 実行するクエリの分だけを支払います。Amazon Athena は、迅速でインタラクティブなクエリに最適です。大きな結合、合併、入れ子になったクエリ、ウィンドウ関数など、データの複雑な分析をサポートします。 このブログ記事では、Amazon CloudFront アクセスログストレージを再構築してクエリのコストとパフォーマンスを最適化する方法を説明します。時系列データの他のソースにも適用可能な一般的なパターンを示しています。 Amazon Athena クエリのための Amazon CloudFront アクセスログの最適化 コストとパフォーマンスという、最適化の 2 つの主な側面があります。 データの保存とクエリの両方でコストが安いことが必要です。アクセスログは、S3 に保存され、GB /月単位で請求されます。したがって、特にログを長期間保存したい場合は、データを圧縮することは意味があります。また、クエリにもコストはかかります。ストレージのコストを最適化すると、通常はクエリのコストが発生します。アクセスログは gzip によって圧縮されて配信され、Amazon Athena は圧縮を処理できます。Amazon Athena ではスキャンされた圧縮データの量に基づいて請求されるので、圧縮による利点はコスト削減として享受できます。 クエリは、さらにパーティショニングの利点を受けます。パーティショニングは、テーブルを複数の部分に分割し、列の値に基づいて関連データをまとめます。時間ベースのクエリの場合、年、月、日、時間ごとにパーティショニングすることが役に立ちます。Amazon CloudFront アクセスログでは、これはリクエスト時間を示します。データとクエリに応じて、パーティションにさらにディメンションを追加します。たとえば、アクセスログの場合、リクエストされたドメイン名が考えられます。データを照会するときに、パーティションに基づいてフィルターを指定して、Amazon Athena がスキャンするデータを少なくすることができます。 一般に、スキャンするデータが少なくなるとパフォーマンスが向上します。アクセスログをカラムナ形式に変換すると、スキャンするデータが大幅に削減されます。カラムナ形式はすべての情報を保持しますが、列ごとに値を保存します。これにより、辞書を作成したり、ランレングスエンコーディングやその他の圧縮技術を効果的に使用することができます。Amazon Athena […]

Read More

3 つの新しい言語で音声の文字起こしが可能に: フランス語、イタリア語、ブラジルポルトガル語

Amazon Transcribe が、フランス語、イタリア語、ブラジルポルトガル語の 3 つの新しい言語で自動音声認識をサポートするようになったことをお知らせいたします。これらの新しい言語は、Amazon Transcribe ですでに利用可能であった米国英語、米国スペイン語、オーストラリア英語、イギリス英語、カナダフランス語の 5 つの言語の拡張になります。 Amazon Transcribe API を使用すると、Amazon S3 に保存されている音声ファイルを分析して、文字起こしした音声のテキストファイルをサービスに返すことができます。また、ライブのオーディオストリームを Amazon Transcribe に送信し、文字起こしのストリームをリアルタイムで受信することもできます。自動文字起こしは、さまざまな分野 (動画の字幕、コンタクトセンターの通話分析およびコンプライアンス、法廷での宣誓証言、あらゆるアプリケーションへのアクセシビリティの一般的な向上など) で、多くの開発者にとって非常に役立つツールであることが証明されています。 この最近の re:Invent で行われた分科会から、コンタクトセンター (Amazon Connect を含む) で文字起こしを使用する方法の詳細を学ぶことができます。 フランス語、イタリア語、ブラジルポルトガル語の文字起こしは、Amazon Transcribe の他の言語と同じ料金、同じリージョンで利用できます。この新しい言語のセットは、AWS マネジメントコンソール、AWS コマンドラインインターフェイス、AWS SDK を介して試すことができます。   著者について Paul Zhao は、AWS Machine Learning のシニアプロダクトマネージャーです。 Paul は Amazon Transcribe サービスを管理しており、仕事以外ではオートバイのファンで、木工細工が大好きです。    

Read More

Amazon RDS Under the Hood: シングル AZ インスタンスのリカバリ

この投稿では、Amazon RDS シングル AZ RTO と RPO で何を期待できるかについて説明します。 ワークロードによっては RTO と RPO の要件が緩和されている可能性があり、これらのニーズを満たすにはシングル AZ 設定で十分な可能性があります。ただし、シングル AZ のみのソリューションに着手する前に、シングル AZ RDS インスタンスのリカバリの期待値と、どのようなシナリオがあるかを理解する必要があります。

Read More

Amazon SageMaker Ground Truth でラベル付けしたデータセットを使用して、モデルを簡単にトレーニングする

 データサイエンティストや開発者は、Amazon SageMaker Ground Truth でラベル付けされたデータセットによって機械学習モデルを簡単にトレーニングすることができます。Amazon SageMaker のトレーニングは、AWS マネジメントコンソールと Amazon SageMaker Python SDK API の両方を通じた入力として拡張マニフェスト形式で作成されたラベル付きデータセットを受け入れるようになりました。 先月の AWS re:Invent の期間中に、人間のラベル付け作業者のパブリックワークフォースならびにプライベートワークフォースを支援する機械学習を使用して、ラベル作成コストを最大 70% 節約し、正確なトレーニングデータセットを構築できる Amazon SageMaker Ground Truth を開始しました。ラベル付きデータセットは、それぞれの入力データセットオブジェクトを、ラベルなどの追加のメタデータを使用してファイル内でインライン展開する拡張マニフェストファイル形式で作成されます。以前は、拡張されたデータセットでモデルをトレーニングするために、低レベルの AWS SDK API しか使用できませんでした。本日から、Amazon SageMaker コンソールですばやく簡単に数回クリックするか、ハイレベルの Amazon SageMaker Python SDK を使用して 1 行の API をコールすることで、そうしたトレーニングをすばやく簡単に実行できるようになります。 さらに、 モデルを Amazon SageMaker のパイプモードを使用してトレーニングすることができます。このモードは、Amazon Simple Storage Service (S3) から Amazon SageMaker にデータがストリーミングされる速度を大幅に高速化するので、トレーニングジョブが早く始まり、素早く完了し、 Amazon […]

Read More

DynamoDB グローバルセカンダリインデックスを使用してクエリのパフォーマンスを向上させ、コストを削減する方法

この記事では、グローバルセカンダリインデックスを使用してデータを照会し、アプリケーションのパフォーマンスを向上させ、毎月の DynamoDB 請求金額を削減する方法をいくつかご紹介します。最近、テーブルあたりのグローバルセカンダリインデックスの最大数が 5 から 20 に、制限が引き上げられました。そのため、今が DynamoDB の使用を最適化するためのグローバルセカンダリインデックスの使用方法を学ぶ恰好のタイミングです。

Read More

Amazon EKS が 東京リージョンに対応しました。

みなさん、こんにちは。アマゾン ウェブ サービス ジャパン、プロダクトマーケティング エバンジェリストの亀田です。 Kubernetes のマネージドサービスである、Amazon Elastic Container Service for Kubernetes (Amazon EKS)  が東京リージョンに対応しましたのでお知らせいたします。 Amazon EKS では Kubernetes 管理インフラストラクチャ(コントロールプレーン)が複数の AWS アベイラビリティーゾーンで運用されるため、単一障害点をデータセンター単位で排除することができ、高い可用性を実現します。アップストリームの Kubernetes が実行され、Kubernetes への準拠が認証されているため、Amazon EKS で管理されるアプリケーションには、あらゆる標準的な Kubernetes 環境で管理されるアプリケーションとの完全な互換性があります。 また、Amazon EKS は AWS Cloud Mapと統合されています。AWS Cloud Map は動的に変化するインフラストラクチャーが抱える課題である、サービスの自動検出機能を提供します。アプリケーションリソースのカスタム名を定義し、これらの動的に変化するリソースの更新された場所を管理できます。これにより、Webサービスが常にリソースの最新の場所を検出するため、アプリケーションの可用性が向上します。 また、Application Load Balancer とも  AWS ALB Ingress controller を介して連携することが可能です。Application Load Balancer は先日 Lambda対応も発表され、アプリケーション内部において、それぞれの目的に合致したパスベースルーティングを可能とします。 料金はこちらにまとまっています。 – プロダクトマーケティング エバンジェリスト 亀田 […]

Read More

TensorFlow で行うスケーラブルなマルチノードトレーニング

 お客様から、TensorFlow トレーニングのジョブを複数のノードや GPU にスケーリングすることは難しいとの声を聞きました。TensorFlow には分散トレーニングが組み込まれていますが、使用するのは難しい場合があります。最近、TensorFlow と Horovod を最適化し、AWS のお客様が TensorFlow のトレーニングジョブを複数のノードや GPU に拡張できるようにしました。これらの改善により、AWS のお客様は、15 分以内に ImageNet の ResNet-50 をトレーニングするために AWS Deep Learning AMI を使用することができます。 これを実現するため、32 個のAmazon EC2 インスタンス (それぞれ 8 GPU、合計 256 GPU) が TensorFlow で利用できます。このソリューションに必要なソフトウェアとツールは、すべて最新の Deep Learning AMI (DLAMI) に付属しているので、自分で試すことができます。 より早くトレーニングし、モデルをより速く実装し、結果を以前より速く得ることができます。 このブログの記事では、得られた結果について説明し、さらに TensorFlow で分散トレーニングを実行するための簡単で迅速な方法をご紹介ます。 図A. Deep Learning AMI 上で、Horovod を使用した、最新の最適化された TensorFlow で行う ResNet-50 ImageNet モデルトレーニングには、256 […]

Read More