Amazon Web Services ブログ

Category: Analytics

新機能 – Amazon QuickSightのインタラクティブなダッシュボードを独自アプリケーションへ埋め込み可能に

本日より、 Amazon QuickSight のダッシュボードをお客様独自のアプリケーションに埋め込むことが可能になります。これは、インタラクティブなデータ可視化&分析の機能を追加開発無しでクイックにあなたのアプリケーションに追加できるという事です。分析のコンポーネントについての開発、メンテナンス、機能追加といった部分について気にする必要はありません。また、アプリケショーションが多く利用されるようになってきた際の分析サーバのスケーラビリティにも気を使う必要はありません。これにより開発時間や費用を削減し、お客様はコアアプリケーションの開発にフォーカスすることが出来るようになります。 Amazon QuickSightのダッシュボードを埋め込むことで、QuickSightのサーバレスアーキテクチャを活用できます。ユーザ利用量に合わせて自動的にスケールし、QuickSightの特徴であるPay-per-sessionの料金により、利用した分だけの支払いで利用することができます。ダッシュボードを閲覧するユーザは、フェデレーションのSSO (SAML、OpenID Connect、もしくはAWS IAM Federation)で認証済である必要があります。これにより、ユーザはQuickSight独自のログイン画面を経由することなく、パーソナライズされたダッシュボードをセキュアに得ることが可能になります。ダッシュボードの埋め込み(Dashboard embedding)機能は、Amazon QuickSight Enterprise Editionが稼働する全リージョンで利用可能です。

Read More

Amazon Redshiftのクラスターノード数を数分で増減さることで、必要なときに必要なパフォーマンスを得ることができます

Amazon Redshiftは、TuroやYelpなど急速に成長するテクノロジー企業から、21st Century Fox、Johnson&JohnsonなどのFortune 500企業まで、あらゆる規模の組織にとって最適なクラウドデータウェアハウスです。これらの顧客は、ユースケース、データサイズ、アナリストの集団をすばやく拡大することで、スケーラブルなデータウェアハウスにとって非常に重要なニーズがあります。 Amazon Redshiftを発売して以来、お客様と私達はともに成長してきました。お客様と密接に協力することでデータのスケールに応じてニーズがどのように変化するかを学びました。データ分析では、次のようなシナリオが頻繁に発生します。 米国に拠点を置く小売企業は、多数のスケジューリングされたクエリと複雑なBIレポートを実行しています。彼らのAmazon Redshiftの使用状況は、データ科学者とアナリストの作業負荷が高い、午前8時から午後6時にピークに達します。夜間には、データを照会して小規模のレポートを作成するユーザーも少数います。その結果、日中と同じクラスター容量は夜間には必要ありません。 医療コンサルティング会社は、サービスとしてのデータ(DaaS)ビジネスを急速に拡大しています。彼らは、迅速に複製環境を作成し、クライアントにクラスターエンドポイントを提供したいと考えています。複製クラスターを作成した後は、クライアントのコストとパフォーマンスの要件に基づいて、適切なサイズにすばやく変更する必要があります。 IoTサービスプロバイダーは急速な成長軌道に乗っています。大規模なイベントが発生するたびに、そのセンサーはAmazon Redshiftに取り込まれ、その後すぐに分析する必要のあるテラバイトの容量の新しいデータを送信します。 データベース管理者(DBAs)がこれらのシナリオに反応する機敏さを持たない場合、アナリストはミッションクリティカルなワークロードに対する応答時間が長くなります。または、データウェアハウスがサイズ変更のために停止している場合、それらは完全に締め出される可能性があります。DBAは、ビジネスステークホルダーとの間で設定したService Level Agreements(SLAs)をサポートすることができません。 Amazon Redshiftを使用すれば、すでに3つの方法ですばやく拡張できます。第1に、Amazon Redshift Spectrumを使用してAmazon S3データレイクのクエリデータをクラスターにロードせずに、その場所にあるデータを照会することができます。この柔軟性により、抽出、変換、ロード(ETL)ジョブを待つことなく、またはストレージ容量を追加することなく、増大するデータボリュームを分析することができます。第2に、数時間でノードを追加したり、ノードタイプを変更することで、Amazon Redshiftクラスターのサイズを変更することができます。この間は、アナリストはダウンタイムなしで読み取りクエリを実行し続けることができます。これにより、スケールアップに数日かかるオンプレミスのデータウェアハウスに比べて、俊敏性が向上します。第3に、スナップショットからデータをすばやくリストアすることで、複数のAmazon Redshiftクラスターをスピンアップできます。これにより、高い並行性をサポートするために必要なコンピューティングリソースを追加できます。 Elasitc Resizeの導入 Amazon Redshiftクラスターのノードを数分で追加または削除できる新機能、Elastic Resizeを発表出来ることを嬉しく思います。これにより、要求の厳しいワークロードに対して、より優れたパフォーマンスとストレージを実現するための機敏性がさらに高まり、需要が低い期間にコストを削減できます。AWS マネジメントコンソールから手動で、または簡単なAPIコールを使用してプログラムでリサイズできます。 Elastic Resizeを使用すると、次の図に示すように、必要に応じて小規模から始めてオンデマンドでスケールアップすることができます。 リリース前にElastic ResizeをプレビューしていたAmazon Redshiftの顧客は、スケーラビリティによって即座に利益を得ることができました。ここで、顧客の一部がElastic Resizeについて伝えなければならないことがあります:   Amazon Prime Videoは高度なデータ分析を使用して視聴のお薦め内容をカスタマイズし、ファンの視聴経験を測定します。「Redshiftの新しいElastic Resize機能により、作業時間のリサイジング時間が6時間から15分に短縮され、ワークロードのさまざまな性質に応じてインフラを動的に拡張し、コストを最適化しパフォーマンスを最大限に高めました。」 Amazon Prime VideoのデータエンジニアであるSergio Diaz Bautista氏     Yelpは、Amazon Redshiftを使用して、モバイルアプリの利用データと、顧客コホート、オークション、広告指標に関する広告データを分析します。「Yelpは、データ分析を使用してビジネス上の意思決定を行い、ユーザーのエクスペリエンスを向上させる最前線に位置しています。Elastic Resizeを使用することで、需要が通常の変動性ウィンドウを超えて増加し、オフピーク時にスケールダウンするときにクラスターをスケールアップするように設定することで、最良のパフォーマンスを確実に最適化し、コストを低く抑えることができます。数百テラバイトのデータを数分で格納するデータウェアハウスの拡張能力は素晴らしいです」とYelp.comのデータアーキテクトShahid Chohan氏は言います。   「Coupangは、電話を使った世界のショップのあり方を混乱させている。進歩するビジネスニーズや予期せず必要とされる特別な分析のために、分析需要を常に予測できるとは限りません。Elastic Resizeにより、コンピューティングとストレージを迅速に拡張し、大規模なETLジョブをより速く完了させ、データを照会するユーザーの数を増やすことができます」と、Coupangのデータエンジニアリング担当上級マネージャー、Hara Ketha氏は述べています。   […]

Read More

Amazon SageMaker と Amazon Redshift を利用した、高速・柔軟・セキュアな機械学習基盤の構築

データウェアハウス環境として、 Amazon Redshift に販売データ・ログデータ・センシングデータ等を蓄積し、これらのデータを用いて機械学習の活用を検討されるケースは多いと思います。高速にクエリを実行できる Redshift と、Amazon SageMaker による Jupyter Notebook を用いた対話的なデータ分析と機械学習を活用し、需要予測・レコメンド・異常検知などを行うことが可能です。 本稿では、 Redshift から Amazon VPC 内でセキュアにデータを取得し、SageMaker を利用した分析・機械学習パイプラインを構築する方法をご紹介します。前半では、アーキテクチャの概要を説明します。後半では、そのアーキテクチャのサンプルを構築し 、SageMaker から SQL クエリを実行して、データを分析する方法について説明します。環境を簡単に構築できるよう、 AWS CloudFormation のテンプレートを用意しているので、実際に試しながら読み進めることができます。SageMaker や Redshift の概要については末尾に記載した参考記事をご覧下さい。 アーキテクチャ概要 大規模データに対し、高速・柔軟・セキュアにデータ分析を行うための、Redshift と SageMaker を組み合わせたアーキテクチャを以下に示します。     AWS を利用した分析・機械学習パイプラインとしては様々なアーキテクチャが考えられますが、ここでは Redshift に対して SageMaker の Jupyter Notebook 上から SQL クエリを実行し、必要なデータのみを取得して分析・可視化・機械学習を行うことを想定します。Redshift のサンプルデータが Amazon S3 にあるため事前にそれを読み込んでいます。 それでは、具体的にアーキテクチャの詳細を確認していきましょう。 速度と分析の柔軟さの両立 データの分析・可視化・機械学習を行う場合、ブラウザ上で動作する対話型データ分析ツールである Jupyter Notebook […]

Read More

AWS Glue のクロスアカウントおよびクロスリージョンの接続を行う

AWS Glue は、抽出、変換、ロード (ETL) のための完全マネージド型サービスであり、分析のためのデータの準備と読み込みを簡単にします。AWS Glue は、AWS Glue ドキュメントで説明されているように、接続を使用して、特定のタイプのソースおよびターゲットのデータストアにアクセスします。 デフォルトでは、AWS Glue を使用して、AWS Glue リソースを備えているのと同じ AWS アカウントおよび AWS リージョンのデータストアへの接続を行うことができます。このブログ記事では、AWS Glue リソースを備えているのとは異なるアカウントや AWS リージョンのデータストアにアクセスする方法について説明します。 AWS Glue の接続 AWS Glue は、ドキュメントで説明されているように、AWS Glue データカタログで、接続を使用してデータストアのメタデータをクロールおよびカタログ作成します。また、AWS Glue ETL ジョブも、接続を使用してソースおよびターゲットのデータストアに接続します。AWS Glue は、Amazon Redshift、Amazon RDS、JDBC データストアへの接続をサポートしています。 接続には、AWS Glue がデータストアにアクセスするために必要なプロパティが含まれています。こうしたプロパティには、ユーザー名とパスワード、データストアのサブネット ID、セキュリティグループなどの接続情報が含まれている場合があります。 データストアが Amazon VPC 内にある場合、AWS Glue は VPC のサブネット ID とセキュリティグループ ID という接続プロパティを使用して、データストアを含む VPC […]

Read More

Amazon Kinesis Agent for Windows を使用して、Windows DHCP Server ログを即時に利用可能なメトリクスへ変換する

グローバルな規模で、Windows システムとサービスの健全性を把握することは簡単ではありません。サーバーのログデータを取得し、リアルタイムでデータを分析かつ操作して、即時に実行可能なテレメトリーに関する正しい情報を作成しましょう。Amazon Kinesis Agent for Microsoft Windows では、AWS の分析エコシステムに Windows サーバーログデータを効率よく収集できるようにします。このブログ記事では、Kinesis Agent for Windows を使用して、Windows Dynamic Host Configuration Protocol (DHCP) のサーバーログを取得および集計する方法について説明します。次に、そのデータを Amazon CloudWatch で、サービスヘルスを示すグラフに変換します。 世界中に散らばるチームのネットワークアクセスのメトリクスを、どうやって数値化していますか? もっと具体的には、ビルの 9 階、北東の角部屋にいるチームのメトリクスは? ビルの中のその部屋のワイヤレスアクセスポイント (WAP) は、チームにネットワークアクセスを確実に安定して提供しているでしょうか? あるいは、WAP が設定されているサブネットが IP アドレスを使い果たしてしまい、そのチームがネットワークアクセスするのを拒否していませんか? この記事では、Kinesis Agent for Windows を使用して、こうした重大な問題を解決します。 スコープの枯渇がもたらす、顧客への影響を検出する Windows DHCP リースは、スコープと呼ばれるネットワークサブネットに分割されています。これらのスコープは、大規模な企業ネットワーク上の、専用の物理的な位置にマップされています。スコープは、それに属するすべての IP アドレスが使用されている場合に、いっぱいであるとみなされます。これは「スコープの枯渇」として知られています。「スコープの枯渇」が発生すると、新しいクライアントはそのサブネット上での IP アドレスのリースを拒否されます。これは「リースの拒否」と呼ばれます。  一般に、DHCP スコープは、予想されるデバイスの正確な数に対して定義されます。スコープが枯渇していることが予想される場合、それもただ単にスコープの枯渇に基づいている場合では、アラートが出ても意味がありません。 Windows DHCP サーバーが「スコープの枯渇」のせいでリースを拒否した場合、特定のレコードを DHCP 監査ログに書き込みます。このイベントのレコードは、Event […]

Read More

AWS re:Invent 2018 で開催予定の Amazon Kinesis セッション、チョークトーク、およびワークショップのご案内

AWS re:Invent 2018 がもうすぐ開催されます! この記事には、AWS re:Invent 2018 で行われる、Amazon Kinesis セッション、チョークトーク、ワークショップのリストを掲載しています。セッションスケジュールの各セッションの説明の横にあるリンクを選択できます。この情報を活用して、Amazon Kinesis の詳細を学ぶためにラスベガスで開催されるカンファレンスウィークをうまくスケジューリングしましょう。 セッション ANT208 – Amazon Kinesis Video Streams を使用したサーバーレスビデオの取り込みと分析 Amazon Kinesis Video Streams を使用すると、ライブビデオのキャプチャー、再生、リアルタイム保存、バッチ指向の ML 主導分析が簡単になります。このセッションでは、Amazon Kinesis Video Streams を開始し、スケーリングするための上位 5 つのベストプラクティスを最初に紹介します。次に、ノート PC に接続された標準 USB カメラからストリーミングビデオをデモンストレーションし、数分以内に標準のブラウザーでライブ再生を行います。また「just walk out (好きな商品を持ち出すだけ)」技術で実現された次世代の実店舗の経験を構築している Amazon Go メンバーもステージに登場します。彼らは Kinesis Video Streams との統合についての技術的な詳細について説明し、成功と難しさを語ります。

Read More

Elasticsearch チュートリアル: クイックスタートガイド

 Elasticsearch は、インデックス作成を含めたあらゆる目的に対応する REST API オペレーションを備えています。REST API に加えて、最も一般的な開発言語用に AWS SDK もあります。このガイドでは、REST API を使用して、言語にとらわれない方法で基礎となるテクノロジーについて学ぶことができます。 インデックス作成が Elasticsearch のコアです。数テラバイトのデータを超高速で検索することができます。しかし、存在していないデータを検索することはできません。そこでこの記事では、インデックスを作成し、データを Elasticsearch に入れ、Amazon Elasticsearch Service を使用して Elasticserach で検索する方法を説明します。 Amazon Elasticsearch Service ドメインの作成 まだ AWS アカウントを持っていなければ、AWS アカウントにサインアップしましょう。新規アカウントでサインアップした際、無料利用枠を使用すると Amazon Elasticsearch Service を 12 ヶ月間無料で利用できます。また Amazon Elasticsearch Service を始めるのはとても簡単です。 アカウントが準備できたら、Amazon Elasticsearch Service ドメイン (クラスターの設定あり) を作成します。1 つを取得するには (約 15 分かかります)、Amazon Elasticsearch Service ドメインの作成と設定の手順に従ってください。 Amazon […]

Read More

Amazon Kinesis および Amazon Athena を使用して VPC ネットワークのトラフィックを分析および視覚化する

ネットワークログの分析は多くの組織で一般的に実施されています。  ネットワークログを収集し、分析することにより、ネットワーク上のデバイスがそれぞれ、およびインターネットとどのように通信しているかを把握できます。  たとえば、監査、コンプライアンス、システムのトラブルシューティング、セキュリティフォレンジックなど、ログ分析を実行する理由は多数あります。  Amazon Virtual Private Cloud (VPC) では、VPC Flow Logs を使用してネットワークフローをキャプチャできます。  VPC、サブネット、ネットワークインターフェイス用のフローログを作成できます。  サブネットまたは VPC のフローログを作成した場合、VPC の各ネットワークインターフェイスまたはサブネットがモニタリングされます。フローログのデータは Amazon CloudWatch Logs のロググループに公開され、各ネットワークインターフェイスにはユニークなログストリームが作成されます。 CloudWatch Logs にはこのログデータの洞察を確保するうえで有用なツールがいくつか用意されています。  しかし、ほとんどの場合、ログデータを S3 に効率的にアーカイブし、SQL を使用してクエリ検索する手法が好まれます。  この手法ではログの保存に対しより大きな柔軟性と管理性が得られるとともに、必要な分析も実行できるようになります。  しかし同時に、分析を自動的に実行することでログデータが生成された直後にログデータの洞察をほぼリアルタイムで取得する機能もよく好まれる傾向にあります。  また、VPC 内のネットワークトラフィックをより明確に理解できるよう、ダッシュボードである程度のネットワークの特徴を視覚化することにも関心が集まっています。  つまり、S3 への効率的なログのアーカイブとリアルタイムのネットワーク分析、データの可視化のすべてを達成するにはどうすればよいでしょうか?  これは、CloudWatch、Amazon Kinesis、AWS Glue、Amazon Athena などの複数の機能を組み合わせることで達成自体は可能ですが、このソリューションをセットアップし、すべてのサービスを構成するのは容易ではありません。 このブログ記事では、VPC フローのログデータを収集、分析、資格するための完璧なソリューションについて解説します。  さらに、独自のアカウントにこのソリューションを効果的にデプロイできる 1 つの AWS CloudFormation テンプレートを作成しました。 ソリューションの概要 このセクションではアーキテクチャの概要とこのソリューションの各ステップについて解説します。 私たちは 1 回限り、またはアドホックでフローログデータをクエリする機能を必要としています。また、ほぼリアルタイムでそれを分析できる手立ても必要です。つまり、私たちのフローログデータはこのソリューションを通して 2 つのパスを取ることになります。  アドホッククエリには、Amazon […]

Read More

AWS Glue を使用することによってオンプレミスデータストアにアクセスして分析する方法

AWS Glue は、データのカタログ化、クリーニング、強化を行い、様々なデータストア間で確実に移動させる完全マネージド型 ETL (抽出、変換、ロード) サービスです。AWS Glue ETL ジョブは、AWS 環境の内外にある多種多様なデータソースとやり取りすることができます。ハイブリッド環境での最適な運用には、AWS Glue に追加のネットワーク、ファイアウォール、または DNS 設定が必要になる場合があります。 この記事では、一般的なデータレイクの取り込みパイプラインをシミュレートする、AWS Glue を使用したデータの変換と、オンプレミスデータストアから Amazon S3 へのデータの移動のためのソリューションについて説明します。AWS Glue は、Amazon S3 と、Amazon RDS、Amazon Redshift、または Amazon EC2 で実行されているデータベースなどの Virtual Private Cloud (VPC) に接続できます。詳細については、「データストアに接続を追加する」を参照してください。AWS Glue は、PostgreSQL、MySQL、Oracle、Microsoft SQL サーバー、および MariaDB などの各種オンプレミス JDBC データストアにも接続できます。

Read More

Amazon QuickSight で表計算による高度な分析を行う

Amazon QuickSight は最近、表計算機能を公開しました。これにより、ユーザーはデータに対し複雑な計算を実行し、より意味のある洞察を得られるようになりました。このブログ記事では、これらの計算をサンプルの販売データセットに適用する例を解説し、皆さんのニーズに合わせてこの機能をすぐに活用していただけるようにします。 使用したサンプルデータセットはこちらより参照できます。 表計算とは? Amazon QuickSight で表計算を使用すると、前期比の傾向など、メトリクスを導き出すことができます。指定したウィンドウでそのウィンドウ内のメトリクスを算出するため、または固定ウィンドウの計算に対して評価するために計算を作成することもできます。また、これらすべてのタスクをカスタマイズした詳細レベルで実行することも可能です。たとえば、各産業の売上の前年比増加分を算出したり、ある州で特定の産業の貢献度をパーセンテージで表示したりできます。また、1 年間の前月比の累積売上を算出したり、ある州で、ある産業の売上のランキングを出したりすることも可能です。 これらのメトリクスは関数を組み合わせることで算出できます。これらの関数としては、runningSum、percentOfTotal、percentDifference などのほか、ベースのパーティション関数が挙げられます。このケースで使用できるベースのパーティション関数には、sum、avg、count、distinct_count、rank および denseRank などがあります。パーティションに対し、最小および最大を計算できる minOver や maxOver もあります。 パーティション関数 これらの計算を実行する前に、パーティション関数に関する簡単な説明をご覧ください。パーティションを使用することで、計算が含まれるウィンドウの範囲を指定できるようになります。つまり、パーティションは計算が実行されるウィンドウを定義する際に役立ちます。 例として、複数の区分にまたがる各産業の平均売上を計算してみましょう。まず、図に、industry、segment、sales を追加します。通常の集計フィールド avg(sales) をテーブルに追加することで、産業内の各区分の平均売上が算出されますが、産業全体の平均ではありません。これを達成するには、avgOver 計算を使用する集計フィールドを作成します。 avgOver(aggregated measure, [partition by attribute, …]) ここでの aggregated measure は、図の範囲ごとにグループ分けされたとき、その単位で実行する計算を意味します。この計算は各産業のパーティションに平均が適用される前に実行されます。 産業別平均 = avgOver(sum(sales), [industry]) 同様に、sumOver、minOver、maxOver および countOver の関数を使用することで、それぞれ、売上の合計、売上の最低値と最高値、各産業の区分数を計算できます。 基準対実際の売上 ここでもう 1 つ別のユースケースを使って、ある州の各産業が、その州の平均売上に照らして評価したとき、どのような動きになるか見ていきましょう。 これを実行するには、テーブルの図に state、industry、sales を追加し、州ごとにソートします。基準を計算するために、avgOver 関数で集計フィールドを作成し、State の範囲でパーティションを区切ります。 avgOver(aggregated measure, [partition […]

Read More