Amazon Web Services ブログ

Annalect が Amazon Redshift を使ってイベントログデータ分析ソリューションを構築した方法

ほぼリアルタイムでイベントログデータをデータウェアハウスに取り込み、分析することは困難な作業です。データインジェストは、高速かつ効率的である必要があります。データウェアハウスは、受信データボリュームを処理するために迅速にスケールできなければなりません。アクセス頻度の低い大量の履歴データをデータウェアハウスに保存するためのコストは、とてつもなく高額です。データウェアハウス外にアクセス頻度の低いデータを保存する場合、ロード時間が許容できない長さになります。 Annalect では、これらの課題を克服する方法を見いだしました。この記事では、Annalect が、広告テクノロジーパートナーからのイベントログデータを管理、強化、そして分析するために、どのように AWS でソリューションを構築したかについて説明します。Annalect では、ストレージ用に Amazon S3、コンピューティング用に Amazon EC2 と AWS Batch、データのカタログ化に AWS Glue、そして分析用に Amazon Redshift と Amazon Redshift Spectrum を使用しています。このスケーラブルなオンデマンドのアーキテクチャは、Annalect の分析ユーザーに対する高パフォーマンスソリューションであり、かつコスト効率性が極めて高いことが明らかになりました。

Read More

EMR – Sqoop を使用して RDBMS またはオンプレミスデータを EMR Hive、S3、および Amazon Redshift に移行する

 このブログ記事では、AWS のお客様が Apache Sqoop ツールの使用によって利益を得る方法について説明します。このツールは、データをリレーショナルデータベース管理システム (RDBMS) から AWS の EMR Hadoop Distributed File System (HDFS) にインポートし、データを Hadoop で変換して、それをデータウェアハウス (例: Hive または Amazon Redshift) にエクスポートするために設計されています。 Sqoop ツールのデモを行うために、この記事では以下の 3 つのシナリオにおいて、Amazon RDS for MySQL をソースとして使用し、データをインポートします。 シナリオ 1 — AWS EMR (HDFS -> Hive および HDFS) シナリオ 2 — Amazon S3 (EMFRS)、次に EMR-Hive シナリオ 3 — S3 (EMFRS)、次に […]

Read More

Amazon SageMaker ノートブックインスタンスのためのライフサイクル設定の更新

Amazon SageMaker では顧客が更新された API を使用して、ノートブックインスタンスのライフサイクル設定を更新するか、関連付けを解除できるようになりました。 ノートブックインスタンスを停止して、ノートブックインスタンスのライフスパンの任意の時点で UpdateNotebookInstance API を使用することで、必要に応じて、ライフサイクル設定を関連付けるか、切り替えるか、または無効にすることができます。 ライフサイクル設定 は、ノートブックインスタンスでデータ科学ワークスペースを構築するときに必要なセットアップを整理して、自動化するときに便利です。 ノートブックインスタンスが開始するたびに、タスクのリストを実行できます。ライフサイクル設定を使用して、ノートブックインスタンスにパッケージやサンプルノートブックをインストールするか、データを事前ロードするか、ネットワークやセキュリティを設定するか、シェルスクリプトを使用してそれをカスタマイズすることができます。ライフサイクル設定を作成した後で、それを複数インスタンスで使用するか、将来の使用のために保存することができます。 以前、ノートブックインスタンスを初めて作っているときに割り当てた1つである場合のみ、ライフサイクル設定を使用できます。また、ノートブックインスタンスを削除することによってのみ、ライフサイクル設定を無効にできます。UpdateNotebookInstance API を使用して、ノートブックインスタンスのこれらのライフサイクル設定を 更新するか、関連付けを解除できるようになりました。 AWS コンソールのライフサイクル設定を更新する方法は、次のとおりです。 まず、設定の更新のために、実行中のインスタンスを停止する必要があります。それを停止した後で、設定の更新が有効になったことがわかります。 Update setting (設定の更新)をクリックして、メニューを使用してライフサイクル設定に進み、既存の設定を切り離すか、別のものに置き換えます。 API 要求パラメータを示す例は、以下のとおりです。 { “DisassociateLifecycleConfig”: boolean, “InstanceType”: “string”, “LifecycleConfigName”: “string”, “NotebookInstanceName”: “string”, “RoleArn”: “string” } パラメータの詳細な説明については、ここに示した Amazon SageMaker API ドキュメンテーションページにアクセスできます。https://docs.aws.amazon.com/sagemaker/latest/dg/API_UpdateNotebookInstance.html.   著者について Erkan Tas は、Amazon SageMaker のシニアテクニカルプロダクトマネージャーです。彼は、AWS プラットフォームを使用して、人工知能を簡単に、アクセス可能に、スケーラブルにするという役割を担っています。また、彼は船乗りであり、科学と自然を崇拝し、碁やストラトキャスターのプレイヤーでもあります。        

Read More

Amazon SageMaker でノートブックのボリュームサイズを最大 16 TB までカスタマイズできます

 Amazon SageMaker は大量のデータを保存するために必要なときに、ノートブックストレージボリュームをカスタマイズできるようになります。 ノートブックインスタンスに適切なストレージボリュームを割り当てることは、Machine Learning モデルを開発する際には重要です。そのストレージボリュームを使用して、大量のデータセットを処理するか、操作に使用する他のデータを一時的に保存することができます。 Amazon SageMaker で作成したすべてのノートブックインスタンスのデフォルトストレージボリュームは、5 GB に設定されています。5 GB から 16384 GB まで、1 GB の増分値で選択できます。 Amazon SageMaker コンソールを使用してノートブックを作成するとき、ストレージボリュームを定義できます。 ここでは、ニーズに合わせて、GB 単位でボリュームサイズを編集する必要があります。 結論 ニーズに応じて、ノートブックインスタンスのストレージボリュームをカスタマイズします。Amazon SageMaker のドキュメントを参照して、ノートブックインスタンスを作成して、使用する方法の詳細についてご覧ください。   著者について Erkan Tas は、Amazon SageMaker のシニアテクニカルプロダクトマネージャーです。彼は、AWS プラットフォームを使用して、人工知能を簡単に、アクセス可能に、スケーラブルにするという役割を担っています。また、彼は船乗りであり、科学と自然を崇拝し、碁やストラトキャスターのプレイヤーでもあります。        

Read More

AWS PrivateLink エンドポイントを使用することで、Amazon VPC から Amazon SageMaker ノートブックに直接アクセスする

Amazon SageMaker は、AWS PrivateLink を ノートブックインスタンスに対してサポートするようになりました。 この記事では、Amazon SageMaker ノートブックへの接続を確保するために、AWS PrivateLink をセットアップする方法を示します。 HIPAA または PCI などの規制へのコンプライアンスを維持するために、情報がインターネットを経由しないようにすることが必要になることがあります。 さらに、公共インターネットへのデータの露出を防止することで、ブルートフォースや分散サービス拒否攻撃などの脅威ベクトルの可能性が減少します。 AWS PrivateLink は、公共インターネットへのデータの露出を排除することにより、クラウドベースのアプリケーションと共有するデータのセキュリティを簡素化します。複数の VPC、AWS サービス、オンプレミスアプリケーションの間のプライベート接続を可能にします。AWS PrivateLink により、プライベートネットワークで直接、ホストされる場合と同様に、お使いのサービスが機能します。 AWS PrivateLink を使用してAmazon SageMaker APIと予測呼び出しを保護するため、以前、API オペレーションとランタイムのための PrivateLink サポートを導入しました。 AWS PrivateLink を使用して、ノートブックインスタンスへの接続も同様に保護することができるようになります。 AWS PrivateLink を介して Amazon SageMaker ノートブックを使用するために、Amazon Virtual Private Cloud (VPC) エンドポイントをセットアップする必要があります。 AWS PrivateLink は、インターフェイス VPC エンドポイントを使用することで、スケール自在な方法で VPC からすべての Amazon SageMaker API オペレーションにプライベートにアクセスすることができます。VPC エンドポイント は、プライベート IP アドレスをもつサブセットの Elastic Network Interface […]

Read More

Amazon Aurora を使用してエンドユーザーの待ち時間を 3 倍に改善する方法

  AWS で誕生 2011年の創業以来、我々の旅に加わっている InfoScout は AWS で誕生しました。友人や家族からアップロードされたレシートを収集する 1 つの Amazon EC2 インスタンス とともにすべてが始まりました。それから7年後、モバイルアプリケーション、データパイプライン、マシンラーニングモデル”→”機械学習モデル、SaaS 分析プラットフォームをサポートするため、現在では 150 以上の AWS インスタンスを管理しています。この記事では、増加するインフラストラクチャとデータベース移行での課題を詳細に分析しています。 我々のビジネスはシンプルです。日常の消費者がショッピングレシートの写真を撮影してクラウドにアップロードが可能なモバイルアプリケーションのポートフォリオを持っています。我々はこのデータを分析し、ブランド、小売業者、代理店、消費者パッケージ商品 (CPG) 企業の買い物客に深い識見を提供します。大規模なデータ収集に対するこの消費者中心のアプローチは、ブランドが最終的に非常に多くの問いの背後にある「なぜ」に答えることを可能にします。「なぜ、私のカテゴリーで売上高が 5% 減少したのでしょうか ? 」「このカテゴリーのどのような消費者シフトが私のブランドに売上に貢献しているのでしょうか ? 」「消費者のどのセグメントがオンラインに移行しているのでしょうか ? 」 米国では 500 回の購入で 1 回のキャプチャを行い、1 日に 300,000 枚のレシート画像をストリームします。 AWS でインフラストラクチャとアプリケーション全体を強化するために、Amazon EC2 、Amazon RDS 、Amazon S3 、Amazon VPC 、および Route 53 を大量に使用しています。2011 年にはカリフォルニア北部の single VPC 1 […]

Read More

Amazon QuickSight で表計算による高度な分析を行う

Amazon QuickSight は最近、表計算機能を公開しました。これにより、ユーザーはデータに対し複雑な計算を実行し、より意味のある洞察を得られるようになりました。このブログ記事では、これらの計算をサンプルの販売データセットに適用する例を解説し、皆さんのニーズに合わせてこの機能をすぐに活用していただけるようにします。 使用したサンプルデータセットはこちらより参照できます。 表計算とは? Amazon QuickSight で表計算を使用すると、前期比の傾向など、メトリクスを導き出すことができます。指定したウィンドウでそのウィンドウ内のメトリクスを算出するため、または固定ウィンドウの計算に対して評価するために計算を作成することもできます。また、これらすべてのタスクをカスタマイズした詳細レベルで実行することも可能です。たとえば、各産業の売上の前年比増加分を算出したり、ある州で特定の産業の貢献度をパーセンテージで表示したりできます。また、1 年間の前月比の累積売上を算出したり、ある州で、ある産業の売上のランキングを出したりすることも可能です。 これらのメトリクスは関数を組み合わせることで算出できます。これらの関数としては、runningSum、percentOfTotal、percentDifference などのほか、ベースのパーティション関数が挙げられます。このケースで使用できるベースのパーティション関数には、sum、avg、count、distinct_count、rank および denseRank などがあります。パーティションに対し、最小および最大を計算できる minOver や maxOver もあります。 パーティション関数 これらの計算を実行する前に、パーティション関数に関する簡単な説明をご覧ください。パーティションを使用することで、計算が含まれるウィンドウの範囲を指定できるようになります。つまり、パーティションは計算が実行されるウィンドウを定義する際に役立ちます。 例として、複数の区分にまたがる各産業の平均売上を計算してみましょう。まず、図に、industry、segment、sales を追加します。通常の集計フィールド avg(sales) をテーブルに追加することで、産業内の各区分の平均売上が算出されますが、産業全体の平均ではありません。これを達成するには、avgOver 計算を使用する集計フィールドを作成します。 avgOver(aggregated measure, [partition by attribute, …]) ここでの aggregated measure は、図の範囲ごとにグループ分けされたとき、その単位で実行する計算を意味します。この計算は各産業のパーティションに平均が適用される前に実行されます。 産業別平均 = avgOver(sum(sales), [industry]) 同様に、sumOver、minOver、maxOver および countOver の関数を使用することで、それぞれ、売上の合計、売上の最低値と最高値、各産業の区分数を計算できます。 基準対実際の売上 ここでもう 1 つ別のユースケースを使って、ある州の各産業が、その州の平均売上に照らして評価したとき、どのような動きになるか見ていきましょう。 これを実行するには、テーブルの図に state、industry、sales を追加し、州ごとにソートします。基準を計算するために、avgOver 関数で集計フィールドを作成し、State の範囲でパーティションを区切ります。 avgOver(aggregated measure, [partition […]

Read More

Amazon Kinesis Agent for Microsoft Windows を使用して、Windows イベント、ログ、およびメトリックを収集、解析、変換、ストリーム配信する

Amazon Kinesis Agent for Microsoft Windows (KA4W) を含む完全なデータパイプラインは、Windows ベースのサービスのパフォーマンス、セキュリティ、および可用性を分析および監視するのに役立ちます。Windows サービスにほぼリアルタイムのダッシュボードとアラームを構築できます。また Amazon Athena、Kibana、Amazon QuickSight、Amazon CloudWatch などの可視化およびビジネスインテリジェンスツールを使用して、迅速に位置の特定、診断、および解決を行うこともできます。 KA4W は、ログを解析して JSON などの標準形式に変換することで、クラウドベースのログ処理を排除します。これらの形式は、データパイプラインの可視化ツールやビジネスインテリジェンスツールですぐに使用できます。 KA4W を使ってみた経験についてあるお客様から寄せられた声を少しご紹介します。 「Microsoft Windows 用の新しい Amazon Kinesis Agent は、複数の相互接続されたシステム間の複雑なオーケストレーションを排除することで、ログをストリーミングするワークフローを簡略化しました。エージェントはセットアップ、構成、更新が容易でしたが、最も重要な点は、パフォーマンスが大幅に改善された点です。総体的に見て、Amazon Kinesis Agent for Microsoft Windows は、環境内の問題の可視性を大幅に改善し、運用コストを著しく削減するポテンシャルを秘めています」- Sanjay Kumar 氏、シニアソフトウェアエンジニア、Autodesk Inc. この記事では、新しい Kinesis Agent for Windows が Windows アプリケーション、サーバー、およびワークステーションに関連するストリーミング分析のユースケースをどのように行うかを検証します。新しいエージェントを使い始める方法もご紹介します。KA4W を使用してリアルタイムデータを Amazon Kinesis サービスにプッシュすることで、次のようなさまざまな運用上の問題を解決できます。 枯渇したスコープの場合に IP リースが拒否されたことを識別するための Dynamic Host […]

Read More

RStudio を実行するために Amazon EMR のエッジノードを立ち上げる

RStudio Server は R およびデータサイエンティストの間で人気のツールにブラウザベースのインターフェイスを提供します。データサイエンティストは分散型トレーニングを実行するために、Amazon EMR 上で実行する Apache Spark クラスターを使用します。前回のブログ記事では、著者が Amazon EMR クラスターに RStudio Server をインストールする方法を紹介しました。しかし、特定のシナリオでは、スタンドアロンの Amazon EC2 インスタンスにインストールし、リモートの Amazon EMR クラスターに接続するケースも考えられます。EC2 上で RStudio を実行することの利点としては次のようなものが考えられます。 EC2 インスタンス上で RStudio Server を実行することにより、インスタンス上に科学的モデルとモデルアーティファクトをそのまま保存できます。アプリケーションの要件を満たすために、EMR クラスターの再起動が必要になることがあります。RStudio Server を別途実行することで、柔軟性が向上し、Amazon EMR クラスターにすべて依存する必要がなくなります。 Amazon EMR のマスターノード上に RStudio をインストールするには、同一ノード上で稼動しているアプリケーションとリソースを共有する必要があります。スタンドアロンの Amazon EC2 インスタンス上で RStudio を実行することで、他のアプリケーションとリソースを共有する必要なく、リソースを使用できるようになります。 ご使用の環境に複数の Amazon EMR クラスターをお持ちの方もおいでかと思います。エッジノードに RStudio を配置すると、ご使用の環境で任意の EMR クラスターに接続できるという柔軟性が得られます。 Amazon EMR […]

Read More

新低コストAMD動力M5a および R5a EC2インスタンス

 当初より、AWSは選択を経済に焦点を当ててきました。弊社の良く知られたVirtuous Cycleに力を与える、決して終わらない顧客要望の雨あられにより動かされ、私は数年にわたり両方について成果を上げたと思います。 選択 – AWSはあなたに、場所 (18の経営の地理的 地方、 4 箇所の作業場、および 1 箇所の地方)、計算モデル(インスタンス、 コンテナ、および サーバーなし)、EC2 インスタンスタイプ、 関係 および NoSQL データベース チョイス、 開発言語、および価格決定/購入モデルを含む幅広い次元の選択を与えます。 経済性 – 弊社は現在までに 67回の値引きを行い、絶えずコストダウンを行って、長年にわたりAWSの価値をますます高めています。弊社は非常に一定且つ頻繁に全体のAWSクラウドを渡り、使用法パターンの研究、革新および改良領域の割り出し、および更新の分配を行います。 本日、私は今までで最も経済的な、EC2インスタンスの選択を提供するものである、最新の展開についてお伝えしたいと思います。 AMDの動力 2.5 GHzで実行され、比較されるインスタンスよりも10%低価格の、最新のEC2インスタンスは、カスタムAMD EPYCプロセッサーにより動力を与えられています。それはすべての使用可能な計算電力を使用しないワークロード用に設計され、コストと性能を基にしたインスタンスミックスを最適化するための新しい機会を提供しています。 こちらが弊社が立ち上げているものです: 一般目的 – M5a インスタンスは一般目的ワークロード用に設計されています: ウェブサーバー、アプリサーバー、デバイステスト 環境 およびゲーム。M5aインスタンスは6種類のサイズで利用できます。 メモリーが最適かされている – R5aインスタンスはメモリ集約ワークロード向けに設計されています: データマイニング、インメモリ分析、キャッチングなど。R5インスタンスと比較して1ギガバイトに対するメモリ価格が低いR5aインスタンスは6種類のサイズで利用できます。 新しいインスタンスはAWS Nitro System上に構築されています。それらは既存のHVM AMIs (その他すべての最近のEC2 インスタンスタイプでの場合と同じく、AMIはENA およびNVMeドライバーを含まなければなりません)を使用でき、クラスター 配置グループで使用できます。 これらの新しいインスタンスは、Amazon EC2計算環境のコストをさらに最適化しようとしている顧客にピッタリ合うはずです。いつも通り、弊社はあなたがインスタンスタイプを選ぶときに、ワークロードでの性能とコストを測ることをお勧めします。 一般目的インスタンス こちらがM5aインスタンス用の仕様です: インスタンス名 […]

Read More