Amazon Web Services ブログ

Amazon CloudFront のアクセスログを大規模に分析する

多くの AWS の顧客が、グローバルなコンテンツ配信ネットワーク (CDN) サービスである Amazon CloudFront を使用しています。低いレイテンシーと高い転送速度で、ウェブサイト、動画、API 操作をブラウザやクライアントに配信します。 Amazon CloudFront は、キャッシングまたはウェブアプリケーションファイアウォールによって、大量の負荷や悪意のあるリクエストからバックエンドを保護します。その結果、バックエンドに届くのはすべてのリクエストのごく一部になります。Amazon Simple Storage Service (S3) へのすべてのリクエストの詳細情報とともにアクセスログを保存するように Amazon CloudFront を設定することができます。これにより、キャッシュの効率に関する洞察を得たり、顧客が製品をどのように使用しているかを知ることができます。 S3 のデータに対して標準の SQL クエリを実行するための一般的な選択肢は Amazon Athena です。 事前にインフラストラクチャを設定したりデータをロードしたりすることなく、クエリによってデータが即座に分析されます。 実行するクエリの分だけを支払います。Amazon Athena は、迅速でインタラクティブなクエリに最適です。大きな結合、合併、入れ子になったクエリ、ウィンドウ関数など、データの複雑な分析をサポートします。 このブログ記事では、Amazon CloudFront アクセスログストレージを再構築してクエリのコストとパフォーマンスを最適化する方法を説明します。時系列データの他のソースにも適用可能な一般的なパターンを示しています。 Amazon Athena クエリのための Amazon CloudFront アクセスログの最適化 コストとパフォーマンスという、最適化の 2 つの主な側面があります。 データの保存とクエリの両方でコストが安いことが必要です。アクセスログは、S3 に保存され、GB /月単位で請求されます。したがって、特にログを長期間保存したい場合は、データを圧縮することは意味があります。また、クエリにもコストはかかります。ストレージのコストを最適化すると、通常はクエリのコストが発生します。アクセスログは gzip によって圧縮されて配信され、Amazon Athena は圧縮を処理できます。Amazon Athena ではスキャンされた圧縮データの量に基づいて請求されるので、圧縮による利点はコスト削減として享受できます。 クエリは、さらにパーティショニングの利点を受けます。パーティショニングは、テーブルを複数の部分に分割し、列の値に基づいて関連データをまとめます。時間ベースのクエリの場合、年、月、日、時間ごとにパーティショニングすることが役に立ちます。Amazon CloudFront アクセスログでは、これはリクエスト時間を示します。データとクエリに応じて、パーティションにさらにディメンションを追加します。たとえば、アクセスログの場合、リクエストされたドメイン名が考えられます。データを照会するときに、パーティションに基づいてフィルターを指定して、Amazon Athena がスキャンするデータを少なくすることができます。 一般に、スキャンするデータが少なくなるとパフォーマンスが向上します。アクセスログをカラムナ形式に変換すると、スキャンするデータが大幅に削減されます。カラムナ形式はすべての情報を保持しますが、列ごとに値を保存します。これにより、辞書を作成したり、ランレングスエンコーディングやその他の圧縮技術を効果的に使用することができます。Amazon Athena […]

Read More

3 つの新しい言語で音声の文字起こしが可能に: フランス語、イタリア語、ブラジルポルトガル語

Amazon Transcribe が、フランス語、イタリア語、ブラジルポルトガル語の 3 つの新しい言語で自動音声認識をサポートするようになったことをお知らせいたします。これらの新しい言語は、Amazon Transcribe ですでに利用可能であった米国英語、米国スペイン語、オーストラリア英語、イギリス英語、カナダフランス語の 5 つの言語の拡張になります。 Amazon Transcribe API を使用すると、Amazon S3 に保存されている音声ファイルを分析して、文字起こしした音声のテキストファイルをサービスに返すことができます。また、ライブのオーディオストリームを Amazon Transcribe に送信し、文字起こしのストリームをリアルタイムで受信することもできます。自動文字起こしは、さまざまな分野 (動画の字幕、コンタクトセンターの通話分析およびコンプライアンス、法廷での宣誓証言、あらゆるアプリケーションへのアクセシビリティの一般的な向上など) で、多くの開発者にとって非常に役立つツールであることが証明されています。 この最近の re:Invent で行われた分科会から、コンタクトセンター (Amazon Connect を含む) で文字起こしを使用する方法の詳細を学ぶことができます。 フランス語、イタリア語、ブラジルポルトガル語の文字起こしは、Amazon Transcribe の他の言語と同じ料金、同じリージョンで利用できます。この新しい言語のセットは、AWS マネジメントコンソール、AWS コマンドラインインターフェイス、AWS SDK を介して試すことができます。   著者について Paul Zhao は、AWS Machine Learning のシニアプロダクトマネージャーです。 Paul は Amazon Transcribe サービスを管理しており、仕事以外ではオートバイのファンで、木工細工が大好きです。    

Read More

Amazon RDS Under the Hood: シングル AZ インスタンスのリカバリ

この投稿では、Amazon RDS シングル AZ RTO と RPO で何を期待できるかについて説明します。 ワークロードによっては RTO と RPO の要件が緩和されている可能性があり、これらのニーズを満たすにはシングル AZ 設定で十分な可能性があります。ただし、シングル AZ のみのソリューションに着手する前に、シングル AZ RDS インスタンスのリカバリの期待値と、どのようなシナリオがあるかを理解する必要があります。

Read More

Amazon SageMaker Ground Truth でラベル付けしたデータセットを使用して、モデルを簡単にトレーニングする

 データサイエンティストや開発者は、Amazon SageMaker Ground Truth でラベル付けされたデータセットによって機械学習モデルを簡単にトレーニングすることができます。Amazon SageMaker のトレーニングは、AWS マネジメントコンソールと Amazon SageMaker Python SDK API の両方を通じた入力として拡張マニフェスト形式で作成されたラベル付きデータセットを受け入れるようになりました。 先月の AWS re:Invent の期間中に、人間のラベル付け作業者のパブリックワークフォースならびにプライベートワークフォースを支援する機械学習を使用して、ラベル作成コストを最大 70% 節約し、正確なトレーニングデータセットを構築できる Amazon SageMaker Ground Truth を開始しました。ラベル付きデータセットは、それぞれの入力データセットオブジェクトを、ラベルなどの追加のメタデータを使用してファイル内でインライン展開する拡張マニフェストファイル形式で作成されます。以前は、拡張されたデータセットでモデルをトレーニングするために、低レベルの AWS SDK API しか使用できませんでした。本日から、Amazon SageMaker コンソールですばやく簡単に数回クリックするか、ハイレベルの Amazon SageMaker Python SDK を使用して 1 行の API をコールすることで、そうしたトレーニングをすばやく簡単に実行できるようになります。 さらに、 モデルを Amazon SageMaker のパイプモードを使用してトレーニングすることができます。このモードは、Amazon Simple Storage Service (S3) から Amazon SageMaker にデータがストリーミングされる速度を大幅に高速化するので、トレーニングジョブが早く始まり、素早く完了し、 Amazon […]

Read More

DynamoDB グローバルセカンダリインデックスを使用してクエリのパフォーマンスを向上させ、コストを削減する方法

この記事では、グローバルセカンダリインデックスを使用してデータを照会し、アプリケーションのパフォーマンスを向上させ、毎月の DynamoDB 請求金額を削減する方法をいくつかご紹介します。最近、テーブルあたりのグローバルセカンダリインデックスの最大数が 5 から 20 に、制限が引き上げられました。そのため、今が DynamoDB の使用を最適化するためのグローバルセカンダリインデックスの使用方法を学ぶ恰好のタイミングです。

Read More

Amazon EKS が 東京リージョンに対応しました。

みなさん、こんにちは。アマゾン ウェブ サービス ジャパン、プロダクトマーケティング エバンジェリストの亀田です。 Kubernetes のマネージドサービスである、Amazon Elastic Container Service for Kubernetes (Amazon EKS)  が東京リージョンに対応しましたのでお知らせいたします。 Amazon EKS では Kubernetes 管理インフラストラクチャ(コントロールプレーン)が複数の AWS アベイラビリティーゾーンで運用されるため、単一障害点をデータセンター単位で排除することができ、高い可用性を実現します。アップストリームの Kubernetes が実行され、Kubernetes への準拠が認証されているため、Amazon EKS で管理されるアプリケーションには、あらゆる標準的な Kubernetes 環境で管理されるアプリケーションとの完全な互換性があります。 また、Amazon EKS は AWS Cloud Mapと統合されています。AWS Cloud Map は動的に変化するインフラストラクチャーが抱える課題である、サービスの自動検出機能を提供します。アプリケーションリソースのカスタム名を定義し、これらの動的に変化するリソースの更新された場所を管理できます。これにより、Webサービスが常にリソースの最新の場所を検出するため、アプリケーションの可用性が向上します。 また、Application Load Balancer とも  AWS ALB Ingress controller を介して連携することが可能です。Application Load Balancer は先日 Lambda対応も発表され、アプリケーション内部において、それぞれの目的に合致したパスベースルーティングを可能とします。 料金はこちらにまとまっています。 – プロダクトマーケティング エバンジェリスト 亀田 […]

Read More

TensorFlow で行うスケーラブルなマルチノードトレーニング

 お客様から、TensorFlow トレーニングのジョブを複数のノードや GPU にスケーリングすることは難しいとの声を聞きました。TensorFlow には分散トレーニングが組み込まれていますが、使用するのは難しい場合があります。最近、TensorFlow と Horovod を最適化し、AWS のお客様が TensorFlow のトレーニングジョブを複数のノードや GPU に拡張できるようにしました。これらの改善により、AWS のお客様は、15 分以内に ImageNet の ResNet-50 をトレーニングするために AWS Deep Learning AMI を使用することができます。 これを実現するため、32 個のAmazon EC2 インスタンス (それぞれ 8 GPU、合計 256 GPU) が TensorFlow で利用できます。このソリューションに必要なソフトウェアとツールは、すべて最新の Deep Learning AMI (DLAMI) に付属しているので、自分で試すことができます。 より早くトレーニングし、モデルをより速く実装し、結果を以前より速く得ることができます。 このブログの記事では、得られた結果について説明し、さらに TensorFlow で分散トレーニングを実行するための簡単で迅速な方法をご紹介ます。 図A. Deep Learning AMI 上で、Horovod を使用した、最新の最適化された TensorFlow で行う ResNet-50 ImageNet モデルトレーニングには、256 […]

Read More

AWS Schema Conversion Tool で仮想パーティション分割を使用する

データウェアハウスの移行では、AWS SCT はデータベーススキーマを Amazon Redshift に移行するだけでなく、データを移行することもできます。この記事では、仮想パーティション分割を使用して AWS SCT でデータウェアハウスの移行を最適化する方法について検討します。仮想パーティション分割は、並列処理を使用することで大きなテーブルからのデータ抽出作業を高速化します。。

Read More

Intuit 社の導入事例: オンプレミス MySQL から Amazon Aurora への移行の自動化

Intuit社はレガシーデータセンターを売却し、顧客向けアプリケーションである QuickBooks、TurboTax、および Mint を AWS に移動させており、今後数年の間には完全に移行させる予定です。このブログ記事では、彼らがオンプレミスMySQLの移行先として、どのような基準で Amazon Aurora を選び、どのようにして最小限のダウンタイムで移行したのかについて共有されています。

Read More

[発表]Amazon API GatewayでWebsocketが利用可能

本日より、任意のサーバーをプロビジョニングして管理することなく、Amazon API GatewayでWebSocket APIを使用して双方向通信アプリケーションを構築できます。 HTTPベースのAPIは、リクエスト/レスポンスモデルを使用して、クライアントがサービスにリクエストを送信し、サービスがクライアントに同期して応答します。 WebSocketベースのAPIは本質的に双方向です。 これは、クライアントがメッセージをサービスに送信し、サービスが独立してメッセージをクライアントに送信できることを意味します。 この双方向の振る舞いにより、クライアント/サーバーとのやりとりがより豊富になります。これは、明示的なリクエストをする必要のないクライアントにデータをプッシュできるためです。 WebSocket APIは、チャットアプリケーション、コラボレーションプラットフォーム、マルチプレイヤーゲーム、金融取引プラットフォームなどのリアルタイムアプリケーションでよく使用されます。 このブログでは、WebSocket APIとAPI Gatewayを使用してサーバーレスのリアルタイムチャットアプリケーションを構築する方法について説明します。

Read More