Category: Amazon QuickSight
AWSでの疎結合データセットの適合、検索、分析
あなたは刺激的な仮説を思いつきました。そして今、あなたは、それを証明する(あるいは反論する)ためにできるだけ多くのデータを見つけて分析したいと思っています。適用可能な多くのデータセットがありますが、それらは異なる人によって異なる時間に作成され、共通の標準形式に準拠していません。異なるものを意味する変数に対して同じ名前を、同じものを意味する変数に対して異なる名前を使用しています。異なる測定単位と異なるカテゴリを使用しています。あるものは他のものより多くの変数を持っています。そして、それらはすべてデータ品質の問題を抱えています(例えば、日時が間違っている、地理座標が間違っているなど)。
最初に、これらのデータセットを適合させ、同じことを意味する変数を識別し、これらの変数が同じ名前と単位を持つことを確認する方法が必要です。無効なデータでレコードをクリーンアップまたは削除する必要もあります。
データセットが適合したら、データを検索して、興味のあるデータセットを見つける必要があります。それらのすべてにあなたの仮説に関連するレコードがあるわけではありませんので、いくつかの重要な変数に絞り込んでデータセットを絞り込み、十分に一致するレコードが含まれていることを確認する必要があります。
関心のあるデータセットを特定したら、そのデータにカスタム分析を実行して仮説を証明し、美しいビジュアライゼーションを作成して世界と共有することができます。
このブログ記事では、これらの問題を解決する方法を示すサンプルアプリケーションについて説明します。サンプルアプリケーションをインストールすると、次のようになります。
- 異なる3つのデータセットを適合させて索引付けし、検索可能にします。
- 事前分析を行い、関連するデータセットを見つけるために、データセットを検索するための、データ駆動のカスタマイズ可能なUIを提示します。
- Amazon AthenaやAmazon QuickSightとの統合により、カスタム解析やビジュアライゼーションが可能です
SPICEデータのスケジュールリフレッシュがAmazon QuickSightに追加されました
Amazon QuickSightにSPICEデータのスケジュールリフレッシュ機能が追加されました。以下はAWS Bigdata Blogに掲載されたブログの翻訳です。
Jose KunnackalはAmazon QuickSightのシニアプロダクトマネージャ
2016年11月に私達はAmazon QuickSightをローンチしました。これはクラウドのパワーで稼働し、お客様のデータをクイックかつ簡単に分析するビジネスアナリティクスのサービスです。QuickSightはSPICE (Super-fast, Parallel, In-Memory Calculation Engine)というフルマネージドのデータストアを持っており、これにAWSやオンプレミス、クラウドサービスのデータを格納することで超高速なビジュアライゼーションを可能にします。SPICEに格納したデータはQuickSight上にあるボタンをクリックするだけでいつでもリフレッシュ(新しいデータの取り込み)を行うことが可能です。
本日、リフレッシュのスケジュール実行機能をローンチいたします!
SPICEデータセットをスケジュールリフレッシュする
SPICEデータセットを選択し、スケジュールリフレッシュを指定します。その後、タイムゾーン、リフレッシュ頻度、およびスケジュールの開始日時を指定します。
スケジュールを適切に設定することで、SPIPCEのデータセットや分析、ダッシュボードを元のデータソースに同期させることが可能になります。
スケジュールリフレッシュはサポートされるすべてのデータソース、つまりAWS、クラウドサービス、およびオンプレミスにあるデータに対して有効であり、全サポートリージョンのすでに作成済のデータセットについても利用可能です。手動でのリフレッシュと同様に、データセットのリフレッシュ状況のサマリを確認することが可能です。
データのスケジュールリフレッシュによって高いパフォーマンスを発揮するインタラクティブなダッシュボードをQuickSightとSPICEでシンプルに実現可能です。データリフレッシュのために所定の時間にQuickSightにログインする必要もありませんし(もしくはうっかり忘れることもなくなります)、QuickSightを活用して高速でインタラクティブなビジュアライゼーションを多くのユーザに提供することにフォーカスできます。
QuickSightのパワーをぜひ今日から体験してみてください – 無料枠がありますのでぜひサインアップを!もしご質問などがありましたら、コメントを残してください。
(訳注:QuickSightには全機能を60日間試せるFree Trialがあります。また、機能は制限されますが無料でずっと利用できるFree Tierも用意されています。詳しくはこちらをご確認ください。)
原文:https://aws.amazon.com/jp/blogs/big-data/scheduled-refresh-for-spice-data-sets-on-amazon-quicksight/
翻訳:下佐粉 昭 (@simosako)
新リリース:Amazon QuickSight Enterprise Edition
私がAmazon QuickSightについて初めて書いたのは2015年のことで(Amazon QuickSight 高速で簡単に利用できるビッグデータ用BI(Business Intelligence), 従来型ソリューションの1/10のコストで実現)、その際にStandard EditionとEnterprise Editionを用意することをお知らせしました。
Enterprise Edition
先月、私達はAmazon QuickSightのStandard Editionをリリースしました。本日、Enterprise Editionをリリースいたします。Standard Editionの機能に加え、Enterprise EditionにはActive Directoryとの統合と、データ暗号化(Encryption at Rest)が実装されています。
Enterprise EditionはAWSのマネージド・サービスとして提供しているMicrosoft Active Directory (AD)(Managed Microsoft AD)を使った認証をサポートします。これにより、AWS上で稼動しているMicrosoft ADやオンプレミスにある信頼関係をもったADを使ってQuickSightへのサインインできるようになります。どちらの方法であるにせよ、シングルサインオン(SSO)によって、ユーザがQuickSightを使い始めるのをよりクイックに、また管理を減らすことが可能になります。
あなたが企業でのQuickSight管理者であった場合、大量のユーザに対してQuickSightを一度に使えるようにしたり、パーミッションを数クリックで管理することが可能になります。これまで通りのディレクトリ操作のツールを使って管理できますし、企業のガバナンスポリシーに準拠させることも可能です。
以下の図は、どのように動作するのかを説明しています:
QuickSightはSPICE (Super-fast, Parallel, In-memory Calculation Engine) によって、分析用のアドホッククエリに対して高いスケーラビリティを実現しています。Enterprise Editonはデータをアマゾンによって管理されている鍵で暗号化してSPICE内に保存し、これによりさらなるデータ保護の層を追加しています。
Enterprise Editionを始動させましょう
管理者側の作業としては、Amazon QuickSight Enterprise Editionをセットアップするのはとても簡単です。作業には、必要とされるパーミッションを持つIAMでログインします。(ドキュメントの”Sign Up for Amazon QuickSight With an Existing AWS Account“を参照してください。”Set your IAM Policy“にIAM設定についての説明があります)
Enterprise Editionを選択し、あなたのユーザコミュニティを管理するAWSマネージドのADを選択して、ディレクトリへのアクセス権限を与えます。そしてディレクトリにエリアスを追加し、それをQuickSightのアカウント名として使用します。最後にマネージドAD、もしくは信頼されたフォレスト(Trusted forest)上にあるADグループを選択し、QuickSightアクセス用に有効化します。
サインアッププロセスが完了すると、設定したグループに所属するユーザはQuickSightのアカウント名(ディレクトリエリアス)とADのクリデンシャルでQuickSightにログインをすることが出来るようになります。
パスワードの制限、タイムアウト、ユーザ管理は、そのAD(AWSに上、もしくはオンプレミス)上で設定し、所属企業のポリシーに従うことが可能です。既存のツールを使ってグループのメンバーシップをマネージでき、必要に応じてユーザを追加・削除する管理タスクを実行することが可能になります。
費用、および利用可能リージョン
Amazon QuickSight Enterprise EditionのAD連携機能はUS East(北バージニア)リージョンでのみ利用可能です。Enterprise Editionのもう一つの機能であるデータの暗号化については、US East(北バージニア)、US West (オレゴン)、EU (アイルランド)で利用可能です 。費用は1ヶ月・1ユーザあたり$18からで利用でき、10GB分のSPICEキャパシティが含まれます。このSPICEキャパシティはアカウント内のユーザで共有されます(QuickSightの無料枠(Free tier)や、4ユーザまで利用できる60日間トライアルでも、SPICEストレージが共有されるという考え方は同様です)。詳細はQuickSightの価格ページを確認してください。
すでにUS East (北バージニア)リージョンでMicrosoft ADのインスタンスを利用されている場合、無料枠やフリートライアルを使って、追加コスト無しでEnterprise Editionを本日から利用いただくことが可能です。
原文:https://aws.amazon.com/jp/blogs/aws/new-amazon-quicksight-enterprise-edition/
翻訳:下佐粉 昭 (simosako@)
Amazon QuickSightが一般提供開始 – 高速で利用が簡単なビッグデータ用ビジネスアナリティクス
1,500以上のスタートアップからグローバルエンタープライズまでのAWSカスタマーが参加したプレビュー期間を経て、 Amazon QuickSightが一般提供開始(Generally Available:GA)になった事を発表いたします!去年、プレビューへのお誘いのブログエントリで、私は以下のように書きました:
これまではビジネスインテリジェンス(Business Intelligence, BI)を実現するには対処方法が不明確で複雑な作業が大量に必要でした。インフラとソフトウェアをセットアップし、ユーザが不満に思わないようにシステムをスケールさせるために多くの費用が必要で、データからモデルを作成するために高給のコンサルタントを雇う必要がありました。システムが出来上がったあとは、ユーザは複雑なユーザインターフェースに不満を覚え、モバイルデバイスからデータを分析できるようにするリクエストを受けることになります。さらにNoSQLやストリーミングデータも含めて分析したいですって?幸運を祈ります!
Amazon QuickSightは、高速で使いやすくクラウドの力で構築されたビジネスアナリティクスをトラディショナルなオンプレミスBIシステムと比較して1/10のコストで提供します。QuickSightは数分で利用開始することが可能です。ログインし、データソースを指定すればデータを可視化(Visualize)できるようになります。その背後でSPICE(Super-fast, Parallel, In-Memory Calculation Engine)があなたのクエリを高速に処理し、結果を美しく可視化します。
データにディープダイブする
私が会話したお客様はみな、保存したデータからより多くの価値を得たいを考えておられました。彼らは価値を生む可能性がデータの中に埋もれており、そのデータが日々増えているということを理解していました。しかし、データから価値を取り出すことはとても高くつき、難易度が高いということを学習し、しばしば落胆していました。オンプレミスのビジネスアナリティクスツールは高価なライセンスが必要であり、既存のインフラに大きい負荷を追加する必要がありました。このライセンスコストと高い難易度は、ツールを利用できる人間をごく一部に制限してしまっていました。これらの要因が合わさることにより、多くの組織は自分たちが本当にビジネスアナリティクスの機能に投資をできる状態には無いと結論付けてしまっていました。
QuickSightはこういった状態を変えます!サービスとして実行され、全てのタイプ・全てのサイズの組織にビジネスアナリティクスをもたらします。高速で使うのが簡単であり、既存のインフラに負荷を追加することなく、わずか1ユーザあたり1ヶ月$9からという費用で利用を開始することが可能です。
使い始めるとすぐに分かるように、QuickSightは異なる場所に格納された多種多様なサービスのデータにアクセスすることが可能です。Amazon Redshiftデータウェアハウスや、Amazon Relational Database Service (RDS) 、S3上に置かれたフラットファイルからデータを取得することが可能です。オンプレミス上のMySQL、PostgreSQL、SQL Server、もしくはMicrosoft ExcelのスプレッドシートやSalesforce等の外部サービスにもデータコネクターを使うことでアクセスが可能です。
QuickSightはお客様の利用に合わせてスケールします。ユーザやデータソースを追加したり、新たなデータを追加した場合でもDC上でハードウェアを増強したり、長期契約のライセンスを追加購入する必要はありません。
ツアーに出かけましょう
QuickSightをめぐるツアーに出かけましょう。組織の管理者が、すでに私をQuickSightに招待(Invite)してくれています。これでもうログインしてスタート出来る状態にすでになっています。こちらがメインスクリーンです:
Redshiftクラスターからデータを取得するところから始めたいと思います。Manage dataをクリックして、存在するデータセットを確認します:
欲しいものが無いようですので、New data setを押して別の方法をとることにします:
Redshift(Manual connect)をクリックし、認証情報を入力します。これでデータウェアハウスにアクセスできるようになりました(もし私が自分のAWSアカウント内にRedshiftクラスターを稼動させている場合は、自動ディスカバリによりデータソースとして最初から現れているでしょう):
QuickSightはデータウェアハウスをクエリし、スキーマ(テーブルのセット)の一覧と、存在するテーブル一覧を見せてくれます。publicというスキーマを選択し、all_flightsテーブルから始めることにします:
ここで2つの選択肢があります。テーブルをSPICEにインポートしてアナリティクスの速度を上げる方法、もしくはクエリをウェアハウスで直接実行する方法です。ここではSPICEにデータをインポートします:
もう一度2つの選択肢があります!Edit/Preview dataを選択してどの行や列をインポートするかを選択するか、もしくはVisualizeをクリックして全データをインポートし、楽しいパートをすぐに開始するかです!ここではEdit/Previewを選択しましょう。左側にフィールド(Fields)が確認でき、ここから必要な列だけにチェックボックスを付けて選択することができます:
New Filterを選択してポップアップメニューからフィールドを選択し、フィルター(絞り込み条件)を作成することもできます:
それぞれの選択肢(フィールドを選択、列を選択)によりSPICEにインポートするデータをコントロールすることが可能です。つまり可視化したいデータを自分でコントロールすることができ、メモリをより効率的に利用することを可能にします。準備が完了したら、Prepare data & visualizeをクリックします。この時点でSPICEにデータがインポートされ、そのデータを使った可視化が可能になります。ここではシンプルにフィールドを選択して開始します。例えばorigin_state_abbrフィールドを選択して、それぞれの州を出発点としたフライトがどれぐらいあるのかを確認します:
右側の縮小ビュー(右側の縦長いスクロールバー)を使うと追加の情報を得られます。スクロールアップ・ダウンして表示するレンジを調整することが可能です。データからもっと知見を得るためめに上部の2つ目のフィールドをクリックします。flightsをクリックし、ソート順をdescending(大きい順)とし、スクロールバーで一番上までスクロールします。これにより、それぞれの州からどれぐらいのフライトがあるかを自分のデータから取得し、確認することができます:
QuickSightのAutoGraph(オートグラフ)は、選択したデータをもとに自動的に適切なビジュアルを使用します。例えば、fl_data_fieldを追加すると、州ごとの折れ線グラフが表示されます:
また、クエリやデータ型、もしくはデータの特質に応じてQuickSightは他の表現方法を提案します:
縦&横棒グラフ、折れ線グラフ、ピボットテーブル、ツリーマップ、パイチャート、ヒートマップなど多くの他のビジュアルから自分で選択することも可能です:
効果的なビジュアルを作成した後は、それらをキャプチャし、ストーリーボードに結果をまとめることによって、データドリブンのストーリーを伝えることが可能になります:
これらビジュアルを同僚と共有することも可能です:
最後に、作成したビジュアルにモバイルデバイスからアクセスしてみましょう:
価格とSPICEキャパシティ
QuickSightは1ユーザかつ1GBのSPICEのキャパシティを無料で永続的に利用することが可能です。これによりAWSユーザは追加コスト無しでビジネスインサイトを得ることが可能になります。Amazon QuickSightのStandard Editionは$9/月で開始することができ、それには10GBのSPICEキャパシティが含まれています(詳細はプライスのページをご覧ください)。
SPICEキャパシティの管理は簡単です。メニューからManage QuickSightを選択し(変更にはQuickSightのADMIN権限が必要です):
すると現在の状況を確認できます:
Purchase more capacity をクリックしてキャパシティを追加購入することが出来ますし、:
Release unused purchased capacityをクリックすることで使用していない分のSPICEキャパシティを削減することが可能です:
今日から使い始めましょう
Amazon QuickSightは、US East (Northern Virginia)、US West (Oregon)、 EU (Ireland)リージョンで提供されており、今日から使い始めることが可能です。
このブログポストの長さにも関わらず、まだQuickSightの表面を少しなぞって紹介しただけにすぎません。みなさんはすでに無料でQuickSightを利用開始できますので、ぜひサインアップしていただき、ご自身のデータをロードし、QuickSightを分析に活用してください!
— Jeff
翻訳:下佐粉 昭 (simosako@)
※日本語版補足) Amazon QuickSightのオンラインセミナーが12月14日(水)18時~19時で開催予定です。Webブラウザがあればどこからでもご覧いただける無料のセミナーです。
以下よりお申込みください。
https://connect.awswebcasts.com/qs-webinar-20161214/event/event_info.html
新発表 – Redshift や QuickSight で AWS のコストや使用状況レポートのアップロードが可能に
以前より、AWS の多くのお客様からプログラムを使用してコストや使用状況レポートを分析する方法をリクエスト頂いていました (詳しくは New – AWS Cost and Usage Reports for Comprehensive and Customizable Reporting をご覧ください)。リクエストをお寄せくださったお客様は、いくつものリージョンにわたり AWS を使用して複数のビジネスを行い、幅広く様々なサービスをご利用されている傾向があります。AWS では請求レポートやコストに関する詳細情報をご提供しているため、これはビッグデータに関与する問題であり、AWS サービスを使用すれば簡単に解決することができます。今月初旬に私が休暇を取っていた間に、AWS はコストや使用状況レポートを Amazon Redshift や Amazon QuickSight にアップロードできる新機能をリリースしました。今回はその新機能についてご説明します。
Redshift にアップロード
まず、新しい Redshift クラスターを作成してみました (すでに実行しているクラスターがある場合は新たに作成する必要はありません)。私が作成したクラスターは次の通りです。
次に請求レポート機能が有効になっていることを確認しました。
そしてコストと請求レポートに行き、Create report をクリックしました。
次にレポート名を指定 (MyReportRedshift) し、時間制に設定してから Redshift と QuickSight 両方のサポートを有効にしました。
最後に配信オプションを選択しました。
次のページでレポートを作成することを確認し、Review and Complete をクリックしました。レポートが作成され、最初のレポートは 24 時間以内にバケットに届くという通知が届きました。
待機している間に PostgreSQL を EC2 インスタンス (sudo yum install postgresql94
) にインストールし、 Amazon QuickSight プレビューで登録済みであることを確認しました。また、Create an IAM Role の指示に従って、読み取り専用の IAM ロールを作成しその ARN もキャプチャしました。
Redshift コンソールでは、Manage IAM Roles をクリックし ARN を自分の Redshift クラスターと関連付けました。
翌日、予定通りにバケットにファイルが到着したことを確認してから、Redshift にアクセスできるようにヘルパーファイルを取得するためコンソールにアクセスしました。
Redshift ファイルをクリックし、SQL コマンドをコピーしました。
ARN と S3 リージョン名を SQL に挿入しました(予想通りにクエリが作動するようにするため、リージョン名に引用符を使用する必要がありました)。
次に psql
を使用して Redshift に接続しました (任意のビジュアルまたは CLI ベースの SQL クライアントの使用が可能)。
$ psql -h jbcluster.XYZ.us-east-1.redshift.amazonaws.com \
-U root -p 5439 -d dev
SQL コマンドを実行しました。これで 1 組のテーブルが作成され、S3 から請求データをインポートしました。
Redshift でのデータのクエリ
手始めに同僚が提供してくれたいくつかのクエリを使用して、今月の S3 使用量を計算してみました。
AZ ベースのコストを見てみました。
次に AZ ごと、サービス別に見てみました。
試しに Redshift コンソールも少し調べてみました。すると、私のクエリをすべて見ることができました。
QuickSight のデータ分析
Amazon QuickSight を使ってコストや請求データも分析してみました。ログインしてから Connect to another data source or upload a file をクリックしました。
次に S3 バケットにアクセスし (jbarr-bcm
) マニフェストファイルの URL をキャプチャ (MyReportRedshift-RedshiftManifest.json
) しました。
データソースとして S3 を選択し URL を入力しました。
QuickSight は数秒内でデータをインポートし、新しいデータソースが利用可能になりました。SPICE (QuickSight のインメモリ計算エンジン) にロードしました。3 回から 4 回のクリックで AZ には関係のないデータを除外し AZ 特有のデータだけに集中することができました。
もう一度クリックして円グラフの表示に切り替えました。
サービス別のコストも調べてみました。
ご覧のように、新しいデータと QuickSight の解析能力により、数分で AWS のコスト詳細を確認することができました。
今すぐ利用可能
この機能は今すぐ使い始めることができます。
— Jeff;