Amazon Web Services ブログ

Category: Amazon QuickSight

Amazon Kinesis Firehose, Amazon Athena, Amazon QuickSightを用いたVPCフローログの分析

多くの業務や運用において、頻繁に更新される大規模なデータを分析することが求められるようになっています。例えばログ分析においては、振る舞いのパターンを認識したり、アプリケーションのフロー分析をしたり、障害調査をしたりするために大量のログの可視化が必要とされます。 VPCフローログはAmazon VPCサービス内のVPCに属するネットワークインターフェースを行き来するIPトラフィック情報をキャプチャします。このログはVPC内部に潜む脅威やリスクを認識したり、ネットワークのトラフィック・パターンを調査するのに役立ちます。フローログはAmazon CloudWatchログに格納されます。いったんフローログを作成すれば、Amazon CloudWatchログを用いて見たり取り出したりすることができるようになります。 フローログは様々な業務を助けてくれます。例えば、セキュリティグループのルールを過度に厳しくしすぎたことによって特定のトラフィックがインスタンスに届かない事象の原因調査などです。また、フローログを、インスタンスへのトラフィックをモニタリングするためのセキュリティツールとして使うこともできます。 この記事はAmazon Kinesis Firehose、AWS Lambda、Amazon S3、Amazon Athena、そしてAmazon QuickSightを用いてフローログを収集し、格納し、クエリを実行して可視化するサーバーレス・アーキテクチャを構成する手順を示します。構成する中で、Athenaにおいてクエリにかかるコストや応答時間を低減させるための圧縮やパーティショニング手法に関するベストプラクティスを学ぶこともできることでしょう。 ソリューションのサマリ 本記事は、3つのパートに分かれています。 Athenaによる分析のためにVPCフローログをS3へ格納。このセクションではまずフローログをLambdaとFirehoseを用いてS3に格納する方法と、格納されたデータにクエリを発行するためAthena上のテーブルを作成する方法を説明します。 QuickSightを用いてログを可視化。ここではQuickSightとQuickSightのAthenaコネクタを用いて分析し、その結果をダッシュボードを通じて共有する方法を説明します。 クエリのパフォーマンス向上とコスト削減を目的とした、Athenaにおけるデータのパーティション化。このセクションではLambda関数を用いてS3に格納されたAthena用のデータを自動的にパーティション化する方法を示します。この関数はFirehoseストリームに限らず、他の手段でS3上に年/月/日/時間のプリフィックスで格納されている場合でも使用できます。 パーティショニングはAthenaにおいてクエリのパフォーマンス向上とコスト削減を実現するための3つの戦略のうちの1つです。他の2つの戦略としては、1つはデータの圧縮、そしてもう1つはApache Parquetなどの列指向フォーマットへの変換があります。本記事では自動的にデータを圧縮する方法には触れますが、列指向フォーマットへの変換については触れません。本ケースのように列指向フォーマットへの変換を行わない場合でも、圧縮やパーティショニングは常に価値のある方法です。さらに大きなスケールでのソリューションのためには、Parquetへの変換も検討して下さい。 VPCフローログを分析するためのサーバレスアーキテクチャ 以下の図はそれぞれのサービスがどのように連携するかを示しています。 VPCにフローログを作成すると、ログデータはCloudWatchログのロググループとして発行されます。CloudWatchログのサブスクリプションを利用することにより、S3に書き込むためにFirehoseを用いたLambda関数に対して、リアルタイムにログデータイベントを送り込むことが可能になります。   いったんS3にログデータが格納され始めれば、Athenaを利用してSQLクエリをアドホックに投入することができます。ダッシュボードを構築したり、画面からインタラクティブにデータを分析したりすることを好む場合には、Athenaに加えQuickSightによるリッチな可視化を簡単に構成できます。 Athenaの分析を目的としたS3へのVPCフローログの送信 この章では、Athenaによるクエリを可能とするためにフローログデータをS3に送信する方法を説明します。この例ではus-east-1リージョンを使用していますが、AthenaとFirehoseが利用できるのであればどのリージョンでも可能です。 Firehoseデリバリーストリームの作成 既存もしくは新しいS3バケットを格納先とするFirehoseデリバリーストリームを作成するためには、この手順を参考にして下さい。ほとんどの設定はデフォルトで問題ありませんが、格納先のS3バケットへの書き込み権限を持つIAMロールを選択し、GZIP圧縮を指定して下さい。デリバリーストリームの名前は‘VPCFlowLogsDefaultToS3’とします。 VPCフローログの作成 まず、この手順に従ってデフォルトVPCのVPCフローログを有効にしましょう。(訳注:デフォルトVPC以外の任意のVPCで構いません。) Firehoseに書き込むLambda用のIAMロールの作成 Firehoseに書き込むLambda関数を作成する前に、Firehoseにバッチ書き込みを許可するLambda用のIAMロールを作成する必要があります。次のように定義されるインラインアクセスポリシーを組み込んだ‘lambda_kinesis_exec_role’という名前のLambda用ロールを作成して下さい。 { “Version”: “2012-10-17”, “Statement”: [ { “Effect”: “Allow”, “Action”: [ “logs:CreateLogGroup”, “logs:CreateLogStream”, “logs:PutLogEvents” ], “Resource”: “arn:aws:logs:*:*:*” }, { “Effect”: “Allow”, “Action”: [ […]

Read More

AWSでの疎結合データセットの適合、検索、分析

あなたは刺激的な仮説を思いつきました。そして今、あなたは、それを証明する(あるいは反論する)ためにできるだけ多くのデータを見つけて分析したいと思っています。適用可能な多くのデータセットがありますが、それらは異なる人によって異なる時間に作成され、共通の標準形式に準拠していません。異なるものを意味する変数に対して同じ名前を、同じものを意味する変数に対して異なる名前を使用しています。異なる測定単位と異なるカテゴリを使用しています。あるものは他のものより多くの変数を持っています。そして、それらはすべてデータ品質の問題を抱えています(例えば、日時が間違っている、地理座標が間違っているなど)。 最初に、これらのデータセットを適合させ、同じことを意味する変数を識別し、これらの変数が同じ名前と単位を持つことを確認する方法が必要です。無効なデータでレコードをクリーンアップまたは削除する必要もあります。 データセットが適合したら、データを検索して、興味のあるデータセットを見つける必要があります。それらのすべてにあなたの仮説に関連するレコードがあるわけではありませんので、いくつかの重要な変数に絞り込んでデータセットを絞り込み、十分に一致するレコードが含まれていることを確認する必要があります。 関心のあるデータセットを特定したら、そのデータにカスタム分析を実行して仮説を証明し、美しいビジュアライゼーションを作成して世界と共有することができます。 このブログ記事では、これらの問題を解決する方法を示すサンプルアプリケーションについて説明します。サンプルアプリケーションをインストールすると、次のようになります。 異なる3つのデータセットを適合させて索引付けし、検索可能にします。 事前分析を行い、関連するデータセットを見つけるために、データセットを検索するための、データ駆動のカスタマイズ可能なUIを提示します。 Amazon AthenaやAmazon QuickSightとの統合により、カスタム解析やビジュアライゼーションが可能です

Read More

SPICEデータのスケジュールリフレッシュがAmazon QuickSightに追加されました

Amazon QuickSightにSPICEデータのスケジュールリフレッシュ機能が追加されました。以下はAWS Bigdata Blogに掲載されたブログの翻訳です。 Jose KunnackalはAmazon QuickSightのシニアプロダクトマネージャ 2016年11月に私達はAmazon QuickSightをローンチしました。これはクラウドのパワーで稼働し、お客様のデータをクイックかつ簡単に分析するビジネスアナリティクスのサービスです。QuickSightはSPICE (Super-fast, Parallel, In-Memory Calculation Engine)というフルマネージドのデータストアを持っており、これにAWSやオンプレミス、クラウドサービスのデータを格納することで超高速なビジュアライゼーションを可能にします。SPICEに格納したデータはQuickSight上にあるボタンをクリックするだけでいつでもリフレッシュ(新しいデータの取り込み)を行うことが可能です。 本日、リフレッシュのスケジュール実行機能をローンチいたします! SPICEデータセットをスケジュールリフレッシュする SPICEデータセットを選択し、スケジュールリフレッシュを指定します。その後、タイムゾーン、リフレッシュ頻度、およびスケジュールの開始日時を指定します。 スケジュールを適切に設定することで、SPIPCEのデータセットや分析、ダッシュボードを元のデータソースに同期させることが可能になります。 スケジュールリフレッシュはサポートされるすべてのデータソース、つまりAWS、クラウドサービス、およびオンプレミスにあるデータに対して有効であり、全サポートリージョンのすでに作成済のデータセットについても利用可能です。手動でのリフレッシュと同様に、データセットのリフレッシュ状況のサマリを確認することが可能です。 データのスケジュールリフレッシュによって高いパフォーマンスを発揮するインタラクティブなダッシュボードをQuickSightとSPICEでシンプルに実現可能です。データリフレッシュのために所定の時間にQuickSightにログインする必要もありませんし(もしくはうっかり忘れることもなくなります)、QuickSightを活用して高速でインタラクティブなビジュアライゼーションを多くのユーザに提供することにフォーカスできます。 QuickSightのパワーをぜひ今日から体験してみてください – 無料枠がありますのでぜひサインアップを!もしご質問などがありましたら、コメントを残してください。 (訳注:QuickSightには全機能を60日間試せるFree Trialがあります。また、機能は制限されますが無料でずっと利用できるFree Tierも用意されています。詳しくはこちらをご確認ください。) 原文:https://aws.amazon.com/jp/blogs/big-data/scheduled-refresh-for-spice-data-sets-on-amazon-quicksight/ 翻訳:下佐粉 昭 (@simosako)  

Read More

新リリース:Amazon QuickSight Enterprise Edition

私がAmazon QuickSightについて初めて書いたのは2015年のことで(Amazon QuickSight 高速で簡単に利用できるビッグデータ用BI(Business Intelligence), 従来型ソリューションの1/10のコストで実現)、その際にStandard EditionとEnterprise Editionを用意することをお知らせしました。 Enterprise Edition 先月、私達はAmazon QuickSightのStandard Editionをリリースしました。本日、Enterprise Editionをリリースいたします。Standard Editionの機能に加え、Enterprise EditionにはActive Directoryとの統合と、データ暗号化(Encryption at Rest)が実装されています。 Enterprise EditionはAWSのマネージド・サービスとして提供しているMicrosoft Active Directory (AD)(Managed Microsoft AD)を使った認証をサポートします。これにより、AWS上で稼動しているMicrosoft ADやオンプレミスにある信頼関係をもったADを使ってQuickSightへのサインインできるようになります。どちらの方法であるにせよ、シングルサインオン(SSO)によって、ユーザがQuickSightを使い始めるのをよりクイックに、また管理を減らすことが可能になります。 あなたが企業でのQuickSight管理者であった場合、大量のユーザに対してQuickSightを一度に使えるようにしたり、パーミッションを数クリックで管理することが可能になります。これまで通りのディレクトリ操作のツールを使って管理できますし、企業のガバナンスポリシーに準拠させることも可能です。 以下の図は、どのように動作するのかを説明しています: QuickSightはSPICE (Super-fast, Parallel, In-memory Calculation Engine) によって、分析用のアドホッククエリに対して高いスケーラビリティを実現しています。Enterprise Editonはデータをアマゾンによって管理されている鍵で暗号化してSPICE内に保存し、これによりさらなるデータ保護の層を追加しています。 Enterprise Editionを始動させましょう 管理者側の作業としては、Amazon QuickSight Enterprise Editionをセットアップするのはとても簡単です。作業には、必要とされるパーミッションを持つIAMでログインします。(ドキュメントの”Sign Up for Amazon QuickSight With an Existing AWS Account“を参照してください。”Set your IAM Policy“にIAM設定についての説明があります) […]

Read More

Amazon QuickSightが一般提供開始 – 高速で利用が簡単なビッグデータ用ビジネスアナリティクス

1,500以上のスタートアップからグローバルエンタープライズまでのAWSカスタマーが参加したプレビュー期間を経て、 Amazon QuickSightが一般提供開始(Generally Available:GA)になった事を発表いたします!去年、プレビューへのお誘いのブログエントリで、私は以下のように書きました: これまではビジネスインテリジェンス(Business Intelligence, BI)を実現するには対処方法が不明確で複雑な作業が大量に必要でした。インフラとソフトウェアをセットアップし、ユーザが不満に思わないようにシステムをスケールさせるために多くの費用が必要で、データからモデルを作成するために高給のコンサルタントを雇う必要がありました。システムが出来上がったあとは、ユーザは複雑なユーザインターフェースに不満を覚え、モバイルデバイスからデータを分析できるようにするリクエストを受けることになります。さらにNoSQLやストリーミングデータも含めて分析したいですって?幸運を祈ります! Amazon QuickSightは、高速で使いやすくクラウドの力で構築されたビジネスアナリティクスをトラディショナルなオンプレミスBIシステムと比較して1/10のコストで提供します。QuickSightは数分で利用開始することが可能です。ログインし、データソースを指定すればデータを可視化(Visualize)できるようになります。その背後でSPICE(Super-fast, Parallel, In-Memory Calculation Engine)があなたのクエリを高速に処理し、結果を美しく可視化します。 データにディープダイブする 私が会話したお客様はみな、保存したデータからより多くの価値を得たいを考えておられました。彼らは価値を生む可能性がデータの中に埋もれており、そのデータが日々増えているということを理解していました。しかし、データから価値を取り出すことはとても高くつき、難易度が高いということを学習し、しばしば落胆していました。オンプレミスのビジネスアナリティクスツールは高価なライセンスが必要であり、既存のインフラに大きい負荷を追加する必要がありました。このライセンスコストと高い難易度は、ツールを利用できる人間をごく一部に制限してしまっていました。これらの要因が合わさることにより、多くの組織は自分たちが本当にビジネスアナリティクスの機能に投資をできる状態には無いと結論付けてしまっていました。 QuickSightはこういった状態を変えます!サービスとして実行され、全てのタイプ・全てのサイズの組織にビジネスアナリティクスをもたらします。高速で使うのが簡単であり、既存のインフラに負荷を追加することなく、わずか1ユーザあたり1ヶ月$9からという費用で利用を開始することが可能です。 使い始めるとすぐに分かるように、QuickSightは異なる場所に格納された多種多様なサービスのデータにアクセスすることが可能です。Amazon Redshiftデータウェアハウスや、Amazon Relational Database Service (RDS) 、S3上に置かれたフラットファイルからデータを取得することが可能です。オンプレミス上のMySQL、PostgreSQL、SQL Server、もしくはMicrosoft ExcelのスプレッドシートやSalesforce等の外部サービスにもデータコネクターを使うことでアクセスが可能です。 QuickSightはお客様の利用に合わせてスケールします。ユーザやデータソースを追加したり、新たなデータを追加した場合でもDC上でハードウェアを増強したり、長期契約のライセンスを追加購入する必要はありません。 ツアーに出かけましょう QuickSightをめぐるツアーに出かけましょう。組織の管理者が、すでに私をQuickSightに招待(Invite)してくれています。これでもうログインしてスタート出来る状態にすでになっています。こちらがメインスクリーンです: Redshiftクラスターからデータを取得するところから始めたいと思います。Manage dataをクリックして、存在するデータセットを確認します: 欲しいものが無いようですので、New data setを押して別の方法をとることにします: Redshift(Manual connect)をクリックし、認証情報を入力します。これでデータウェアハウスにアクセスできるようになりました(もし私が自分のAWSアカウント内にRedshiftクラスターを稼動させている場合は、自動ディスカバリによりデータソースとして最初から現れているでしょう): QuickSightはデータウェアハウスをクエリし、スキーマ(テーブルのセット)の一覧と、存在するテーブル一覧を見せてくれます。publicというスキーマを選択し、all_flightsテーブルから始めることにします: ここで2つの選択肢があります。テーブルをSPICEにインポートしてアナリティクスの速度を上げる方法、もしくはクエリをウェアハウスで直接実行する方法です。ここではSPICEにデータをインポートします: もう一度2つの選択肢があります!Edit/Preview dataを選択してどの行や列をインポートするかを選択するか、もしくはVisualizeをクリックして全データをインポートし、楽しいパートをすぐに開始するかです!ここではEdit/Previewを選択しましょう。左側にフィールド(Fields)が確認でき、ここから必要な列だけにチェックボックスを付けて選択することができます: New Filterを選択してポップアップメニューからフィールドを選択し、フィルター(絞り込み条件)を作成することもできます: それぞれの選択肢(フィールドを選択、列を選択)によりSPICEにインポートするデータをコントロールすることが可能です。つまり可視化したいデータを自分でコントロールすることができ、メモリをより効率的に利用することを可能にします。準備が完了したら、Prepare data & visualizeをクリックします。この時点でSPICEにデータがインポートされ、そのデータを使った可視化が可能になります。ここではシンプルにフィールドを選択して開始します。例えばorigin_state_abbrフィールドを選択して、それぞれの州を出発点としたフライトがどれぐらいあるのかを確認します: 右側の縮小ビュー(右側の縦長いスクロールバー)を使うと追加の情報を得られます。スクロールアップ・ダウンして表示するレンジを調整することが可能です。データからもっと知見を得るためめに上部の2つ目のフィールドをクリックします。flightsをクリックし、ソート順をdescending(大きい順)とし、スクロールバーで一番上までスクロールします。これにより、それぞれの州からどれぐらいのフライトがあるかを自分のデータから取得し、確認することができます: QuickSightのAutoGraph(オートグラフ)は、選択したデータをもとに自動的に適切なビジュアルを使用します。例えば、fl_data_fieldを追加すると、州ごとの折れ線グラフが表示されます: また、クエリやデータ型、もしくはデータの特質に応じてQuickSightは他の表現方法を提案します: 縦&横棒グラフ、折れ線グラフ、ピボットテーブル、ツリーマップ、パイチャート、ヒートマップなど多くの他のビジュアルから自分で選択することも可能です: 効果的なビジュアルを作成した後は、それらをキャプチャし、ストーリーボードに結果をまとめることによって、データドリブンのストーリーを伝えることが可能になります: これらビジュアルを同僚と共有することも可能です: 最後に、作成したビジュアルにモバイルデバイスからアクセスしてみましょう:   価格とSPICEキャパシティ QuickSightは1ユーザかつ1GBのSPICEのキャパシティを無料で永続的に利用することが可能です。これによりAWSユーザは追加コスト無しでビジネスインサイトを得ることが可能になります。Amazon […]

Read More

新発表 – Redshift や QuickSight で AWS のコストや使用状況レポートのアップロードが可能に

以前より、AWS の多くのお客様からプログラムを使用してコストや使用状況レポートを分析する方法をリクエスト頂いていました (詳しくは New – AWS Cost and Usage Reports for Comprehensive and Customizable Reporting をご覧ください)。リクエストをお寄せくださったお客様は、いくつものリージョンにわたり AWS を使用して複数のビジネスを行い、幅広く様々なサービスをご利用されている傾向があります。AWS では請求レポートやコストに関する詳細情報をご提供しているため、これはビッグデータに関与する問題であり、AWS サービスを使用すれば簡単に解決することができます。今月初旬に私が休暇を取っていた間に、AWS はコストや使用状況レポートを や Amazon QuickSight にアップロードできる新機能をリリースしました。今回はその新機能についてご説明します。 Redshift にアップロード まず、新しい Redshift クラスターを作成してみました (すでに実行しているクラスターがある場合は新たに作成する必要はありません)。私が作成したクラスターは次の通りです。 次に請求レポート機能が有効になっていることを確認しました。 そしてコストと請求レポートに行き、Create report をクリックしました。 次にレポート名を指定 (MyReportRedshift) し、時間制に設定してから Redshift と QuickSight 両方のサポートを有効にしました。 最後に配信オプションを選択しました。 次のページでレポートを作成することを確認し、Review and Complete をクリックしました。レポートが作成され、最初のレポートは 24 時間以内にバケットに届くという通知が届きました。 待機している間に PostgreSQL を EC2 インスタンス (sudo yum […]

Read More