Amazon Web Services ブログ

Category: AWS Big Data

Amazon Athena を Apache Hive メタストアに接続し、ユーザー定義関数を使用する

Amazon Athena は、標準 SQL を使用して Amazon S3 のデータを簡単に分析できるインタラクティブなクエリサービスです。Athena はサーバーレスであるため、インフラストラクチャの管理は不要であり、実行したクエリにのみ課金されます。この投稿では、現在プレビュー中である2つの新しい機能、Apache Hive Metastore への接続と、ユーザー定義関数の使用について詳しく説明しています。これらは本日から使い始めることができます。 Athena を自分の Apache Hive Metastore に接続する Hive Metastore を、自分のビッグデータ環境に共通のメタデータカタログとして使っているお客様が複数いらっしゃいます。このようなお客様は、Amazon EC2 や Amazon EMR クラスター上で Apache Spark、Presto、Apache Hive を実行していて、共通カタログとして Hive Metastore を自身でホストしています。またAWS は、完全に管理されたカタログで、 Hive メタストアをドロップインで置き換える AWS Glue Data Catalog も提供しています。この記事がリリースされた時点で、Athena の Data Catalog に加えて Hive メタストアも利用できます。Athena によって、既存の Data Catalog に加えて複数の Hive メタストアに接続できます。 ご自身でホストしている Hive […]

Read More

Amazon QuickSight の条件付き書式で重要な洞察をハイライト

Amazon QuickSight で、条件付き書式設定を使用して、データの重要度を簡単に見分けられるようになりました。条件付き書式設定では、データセットのフィールド値に基づいて、単色またはグラデーション色を使用して、カスタマイズされたテキストまたは背景色を指定できます。また、サポートされているアイコンを使用してデータ値を表示することもできます。次のスクリーンショットに示すように、色分けとアイコンを使用して、データを視覚的に調査および分析し、問題をすばやく検出し、傾向を特定することができます。こうした動的な視覚的刺激は、ダッシュボードの利用者が密度が高いデータ値の集まりから注目に値する洞察をはるかに迅速に取得するのにも役立ちます。 今回のリリースでは、テーブル、ピボットテーブル、KPI チャートに条件付き書式を適用できます。このブログ記事では、Amazon QuickSight でサポートされている各チャートタイプで条件付き書式設定を活用する方法について詳しく説明します。 テーブル 次の方法で、テーブルに条件付き書式を適用できます。 データフィールドに基づく条件付き書式設定列 テーブルに条件付き書式を適用する場合、設定ペインにアクセスする 2 つの方法があります。1 つの選択肢は、分析でテーブルを選択し、 テーブルビジュアルの右上隅でキャレットを選択することです。次のスクリーンショットに示すように、ドロップダウンメニューから [Conditional formatting] を選択すると、条件付き書式設定ペインが分析キャンバスの左側にポップアップ表示されます。[+] 記号を選択して、書式を適用するターゲット列を選択します。テーブルに存在する任意の列に適用することができます。 たとえば、ドロップダウンメニューから Sales を選択して、Sales ターゲット列の条件を追加します。 あるいは、選択したテーブルから、分析キャンバスの上部にあるフィールドウェルを展開し、テーブルで使用されている列から直接 Group by または Value ターゲット列を選択することもできます。たとえば、次のスクリーンショットに示すように、Value ウェルから Sales を選択し、ドロップダウンで [Conditional formatting] を選択します。条件付き書式の確認ペインが分析キャンバスの左側にポップアップ表示され、Sales ターゲット列にすでに条件が追加されています。 次に、使用可能な 3 つのオプションから書式設定スタイルを選択します。 Add background color (背景色を追加) Add text color (テキストの色を追加) Add icon (アイコンを追加) ターゲット列ごとに、任意の書式設定スタイルまたはスタイルの任意の組み合わせを追加できます。 背景色およびテキストの色 [Add background color] を選択して、[New […]

Read More

新しい AWS 認定ベータ版で、データと分析の技術的専門知識の幅広さを強調

AWS は、オープンフォーマットとオープンスタンダードを使用してデータを分析する最も幅広い分析ツールとエンジンのセットを提供しています。AWS データ分析ソリューションの専門知識を証明するために、ビルダーは AWS 認定データ分析 – 専門知識認定のベータ版を受験できるようになりました。 AWS 認定データ分析 – 専門知識認定は、AWS での分析ソリューションの設計、構築、セキュリティ保護、保守に関する技術的専門知識を検証します。この認定は、2017 年に AWS 認定ビッグデータ – 専門知識として初めて開始されました。この新しい名前は、認定によって検証される幅広いデータおよび分析の技術スキルと経験を強調しています。今すぐ登録可能なベータ試験または 2020 年 4 月の一般利用可能なリリースを受験して合格した受験者は、新しい名前の認定を取得します。 新しい試験バージョンには、コレクションから視覚化までのカテゴリにわたる更新されたコンテンツが含まれています。本試験で扱うトピックの詳細については、試験ガイドをご覧ください。 特にデータ分析の専門知識に焦点を合わせた AWS 認定は、これだけです。この認定は、適切なセキュリティ対策と自動化を使用してデータを視覚化することで洞察を提供する分析ソリューションを設計および実装する能力を実証します。 AWS 認定データ分析 – 専門知識ベータ試験は、2020 年 1 月 10 日まで世界中のテストセンターで受けられるほか、re:Invent 2019 の会場でも受験可能です。枠には限りがありますので、今すぐご登録ください。ベータ試験の言語は英語で、受験料は 150 USD (専門知識レベル認定の標準料金の 50% オフ) です。ベータ試験の結果は、ベータ試験期間の終了から約 90 日後に発表されます。ベータ版を逃しても、標準版が 2020 年 4 月に予定されています。 執筆者について Beth Shepherd は、AWS 認定のプロダクトマーケティングマネージャーです。 2019 年に […]

Read More

Amazon QuickSight の新しい API とテーマ機能で、分析をさらに進化させる

Amazon QuickSight チームからのお知らせです。テーマとさらなる API が利用可能になりました。 ダッシュボードのテーマを使用して、Amazon QuickSight ダッシュボードのルックアンドフィールをアプリケーションのブランドや企業のテーマに合わせることができるようになりました。追加された新しい API では、ダッシュボード、データセット、データソース、SPICE 取り込み、さらに AWS リソースに対するきめ細かいアクセスコントロールをサポートしており、Amazon QuickSight のデプロイをプログラムで管理できます。これらを組み合わせることで、Amazon QuickSight を視聴者に合わせて創造的に調整し使用することで、ユーザーはビルトインの分析を体験したり、企業のビジネスインテリジェンス (BI) のニーズに対応したりできます。この投稿では、これらの新しい機能の概要と、使用開始に関する詳細をご紹介します。 ダッシュボードのテーマを決める Amazon QuickSight テーマで、ダッシュボードのルックアンドフィールをコントロールできます。具体的には、テーマを通じて次の項目に影響するため、アカウント内の他の作成者と共有できます。 マージン ビジュアル周りの境界線 とじしろ (ビジュアル間の間隔) データの色 (ビジュアル内で使用) 背景色 (ダッシュボード内のビジュアルおよびダッシュボード自体用) 前景色 (ビジュアル内およびダッシュボード上のテキスト用) ビジュアルの色を強調する 次のダッシュボードのスクリーンショットは、現在利用可能なテーマオプションを使用して変更できるダッシュボードの特徴を説明しています。 使用可能なオプションで、QuickSight の新しいテーマ「Seaside」を使用すると下記のように示され、QuickSight ダッシュボードをより狭く (余白や余白をなしにするなど) できます。 以下に示すように、QuickSight の新しいテーマ「Midnight」を使用した暗めのダッシュボードオプションもあります。 テーマには、ダッシュボード作成インターフェイスの左側のパネルからアクセスできます。 1 つのビルトインテーマから始めてそれをカスタマイズし、独自のテーマを作成できます。インタラクティブにテーマ編集できるため、必要なだけ編集したり、ダッシュボードに最適なテーマを取得したりが簡単になります。 ダッシュボード、データセット、データソース、SPICE 取り込み、アクセス許可に API を使用する 新しい API には、ダッシュボード、データセット、データソース、SPICE 取り込み、および S3/Athena へのきめ細かいアクセスコントロールが含まれています。今回のリリースでは、QuickSight […]

Read More

Amazon EMR が、Apache Spark 用 EMR ランタイムを導入

Amazon EMR は、Apache Spark 用の Amazon EMR ランタイムを発表いたします。これは、Amazon EMR クラスターでデフォルトでアクティブになっている Apache Spark 用のパフォーマンス最適化ランタイム環境です。Spark 用の EMR ランタイムは、EMR 5.16 と比べて最大 32 倍高速で、オープンソース Spark と 100% の API 互換性があります。これは、アプリケーションに変更を加えることなく、ワークロードがより速く実行され、コンピューティングコストを節約できることを意味します。 Amazon EMR は EMR 5.24 以降、Spark ランタイムの改善を追加しており、Spark パフォーマンスの最適化で説明しています。EMR 5.28 には、さらにいくつかの新しい改善も含まれています。 こうした改善を評価するために、EMR 5.16 (オープンソース Apache Spark バージョン 2.4 と使用) と EMR 5.28 (Apache Spark バージョン 2.4 互換 Apache Spark 用 […]

Read More

Amazon QuickSight がまったく新しい QuickSight Mobile アプリを発表

AWS は iOS と Android デバイス向けに QuickSight Mobile のリリースを発表できることをうれしく思います。このリリースは、既存の iOS アプリのメジャーアップデートであり、また新しい Android アプリケーションのローンチでもあります。このアプリにより、どこからのデータからでもインサイトを安全に取得することができます。お気に入り、閲覧、ダッシュボードとのやり取り、またドリルダウンとフィルターを使用してデータを探索したり、曲線の先を予測したり、データに予期しない変更が発生したときに電子メールアラートを受信したりすることができます。 そして、それらのインサイトを同僚と共有できます。 QuickSight Mobile アプリをダウンロードするには、iOS App Store と Google Play にアクセスしてください。 新しい QuickSight Mobile は、新しく追加された機能と強化されたインターラクションにより、ダッシュボードの消費エクスペリエンスを最適化します。このブログでは、新しい Mobile エクスペリエンスを詳しく見ていきます。 特長と機能 ホームページ アプリで認証した後で、QuickSight ホーム画面が開きます。そこから、お気に入りのダッシュボード (ブラウザーアプリケーションから同期)、および最近表示したダッシュボードにすばやくアクセスできます。最近閲覧したリストには、以前開いた最新のダッシュボードを最大 100 個まで表示できます。 次のスクリーンショットには、お気に入りと最近閲覧したダッシュボードが示されています。 ダッシュボード [Dashboards] タブ経由ですべてのダッシュボードをを通じて閲覧できます。名前と更新 (公開) 日によりダッシュボードを並べ替え、リストやグリッド表示に変更することができます。また、名前によりダッシュボードを検索することもできます。最後に、ダッシュボードの名前の隣の星アイコンを選択することで、任意のダッシュボードをお気に入りに容易に追加することができます。 次のスクリーンショットは、グリッド表示のダッシュボード、表示の基本設定と検索ツールを示します。 ダッシュボード表示 ダッシュボード表示は、ビジュアルを縦型スタックビューで表示し、各ビジュアルを全幅に拡大することにより、モバイルデバイスに最適化されています。複数シートのダッシュボードは、デフォルトで最初のシートを示します。複数のシートにわたってナビゲーションするためには、シートのタイトルを選び、表示するシート名を選択します。 次のスクリーンショットは、縦型スタックビューのビジュアルと、ダッシュボード内のさまざまなシートをナビゲーションする方法で開いたダッシュボードを示しています。 フィルターをビジュアルに適用するために、ファネルアイコンを選んで、ダッシュボードシートのすべての利用可能なフィルターコントロールとオプションを選択します。選択を行った後で、[Apply] を選択し、[Done] を選びます。ファネルアイコンの隣の小さな青のタグを介して適用されるフィルターの数を確認できます。また、フィルターコントロール表示を拡張して、指定されたフィルターをデフォルトにリセットすることもできます。 次のスクリーンショットはダッシュボードフィルター、拡張されたフィルターペイン、またフィルター値を選択する方法を示します。 一部のビジュアルにはスクロールバーがあり、ビジュアルでズームする範囲をカスタマイズできます。折れ線グラフや棒グラフなどのほとんどのチャートのデータポイントを長押しすると、コンテキストメニューが呼び出されます。このデータポイントに焦点を合わせ、ビジュアルにドリル階層がある場合は上下にドリルし、選択したデータポイントを除外することができます。 次のスクリーンショットは、ズームバーとコンテキストメニューとのインターラクションを示します。 全画面表示に戻るためには、右上隅の…アイコンを選択して、[Undo] を選びます。ダッシュボード表示を終了するには、戻る矢印を選択します。 これが異常検知ウィジェットである場合、「Explore […]

Read More

Amazon QuickSight アクションでダッシュボードの対話性を強化する

Amazon QuickSight は、QuickSight アクションを通じて強化されたダッシュボードの対話機能を提供するようになりました。QuickSight アクションは、ダッシュボードでの単一のポイントアンドクリック操作を通じて高度なフィルタリング機能を提供します。アクションによって、ダッシュボード内のビジュアルをリンクして、あるビジュアル上の次元ポイントを選択すると、ダッシュボード内の他のビジュアル上の選択したポイントに関する詳細な洞察が得られるようにできます。したがって、概要から始めて、すべて同じダッシュボードシート内でビジネスメトリクスの詳細を掘り下げることができます。ダッシュボード内のどのビジュアルがインタラクティブであるか、これらのビジュアル間での相互作用を定義できます。この記事の執筆時点で、QuickSight アクションでは、フィルターアクションと URL アクションの 2 つの主要な対話機能を定義できます。Amazon QuickSight 内の URL アクションは新しいものではありませんが、URL アクションを作成するためのエントリポイントがアクションに統合されました。 QuickSight アクションは、少なくとも 1 つのディメンションを保持するサポート対象チャートに適用できます。この記事では、アクションの開始、ダッシュボードでのさまざまなアクションの設定、および設定されたアクションごとにさまざまな形式の対話機能を有効にする例を示します。 この記事では、次のデータセットを使用します。 B2B Sales このデータセットは、2016 年と 2017 年の架空の会社 ABCDO の注文詳細を保持しています。構築するダッシュボードは、業界、セグメント、地域別の販売指標を主要なディメンションとしてレポートし、購入された各注文のきめ細かい詳細も提供します。 Product Availability このデータセットは、ID ごとにすべての製品の利用可能な数量を保持しています。 前提条件 Amazon QuickSight ダッシュボードにアクションを実装する前に、ダッシュボードを作成および公開する方法を確認してください。 QuickSight アクションの使用を開始する このスクリーンショットは、上記の 2 つのデータセットから作成されたダッシュボードです。1 行目にカテゴリ、業種、地域ごとの売上。2 行目には四半期ごとの分野売上、分野ごとの業種売上。3 行目には総利益、売上、割引、販売数量。4 行目には注文詳細のピボット、5 行目には配送詳細のピボットを示しています。 始める前に、以下の用語に注意してください。 ソースビジュアル – アクションが作成されるビジュアルです。ソースビジュアル上のポイントを選択すると、アクションがトリガーされ、選択したディメンション値がフィルターとしてターゲットビジュアルに渡されます。 ターゲットビジュアル – ソースビジュアルで選択したディメンション値によってフィルタリングされるビジュアルです。 アクティベーション – […]

Read More

Amazon QuickSight のデータソース間で結合する

 Amazon QuickSight は、クロスデータソース結合のリリースを発表しました。これにより、複数のデータソースに接続し、Amazon QuickSight でこれらのソースのデータを直接結合して、ダッシュボードの作成に使用するデータセットを作成できます。たとえば、顧客 ID を含む Amazon Redshift のトランザクションデータを、顧客プロファイルデータを含む Salesforce テーブルと結合して、注文と顧客の詳細を含むインタラクティブなダッシュボードを作成できます。Amazon QuickSight の外部の単一のソースにデータを最初にプルすることなく、セグメント、地理、人口統計などのさまざまな顧客ディメンションデータによってトランザクションデータをスライスおよびダイスできます。 クロスデータソース結合を使用すると、BI とデータエンジニアリングチームによる複雑で時間のかかる ETL のセットアップに大きく依存せずに、組み込みのドラッグアンドドロップ UI を使用した、ファイルからファイルへの結合、ファイルからデータベースへの結合、データベースからデータベースへの結合など、Amazon QuickSight がサポートするすべてのデータソースに結合できます。ローカル CSV ファイル、Amazon RDS データベース、または S3 バケット上の JSON オブジェクトのいずれであっても、これらのデータソースを結合してデータセットを作成できるようになりました。 最後に、時間までのスケジュールされた更新を設定し、結合されたデータセットが常に最新情報で最新に保たれていることを確認できます。 クロスデータソース結合の開始方法 以下のスクリーンショットは、QuickSight で接続できるすべてのデータソースを示しています。 Amazon QuickSight では、さまざまなデータソースに接続できます。ビジネスでは、データ要件に応じて、データを複数のデータソースに分散させるのが一般的です。たとえば、ウェブサーバーのログを Amazon S3 に保存し、顧客の詳細を Amazon Redshift テーブルに、注文の詳細を RDS に保存できます。これらの 2 つ以上の異なるデータソースのデータを組み合わせてレポートを作成する必要がある場合があります。 これをある程度達成するには、データパイプラインを構築して、複数のデータソースから 1 つのデータソースに統合します。ただし、これらのデータパイプラインを作成すると、さまざまな AWS のサービス間でデータが重複し、単一のデータソースにデータを移動するための労力と時間の観点から追加コストが発生します。次に、この単一のデータソースから Amazon QuickSight […]

Read More

EMR Notebooks を使用して Python ライブラリをクラスターに実行時インストールする

AWS は昨年、オープンソースの Jupyter ノートブックアプリケーションを基礎としたマネージド型ノートブック環境である EMR Notebooks を発表しました。 本記事では、EMR Notebooks でノートブックスコープのライブラリをクラスターに直接、実行時インストールする方法についてご説明します。その前に、クラスターをプロビジョンする際、ブートストラップアクションを信頼するか、またはカスタム AMI を使用して、EMR AMI に事前パッケージ化されていないライブラリを追加でインストールする必要があります。本記事では、EMR Notebooks 内においてローカルで使用可能なプレインストール済みの Python ライブラリを使用して結果を分析、プロットする方法もご説明します。この機能は、PyPI リポジトリへのアクセス権限はないが、データセットを分析、可視化する必要があるような状況下で役立ちます。 EMR Notebooks を使用したノートブックスコープのライブラリの利点 ノートブックスコープのライブラリには、次のような利点があります。 実行時インストール – 必要なときに、オンザフライで、お気に入りの Python ライブラリを PyPI リポジトリからインポートしてリモートクラスターにインストールすることができます。このライブラリはお使いの Spark ランタイム環境でただちに使用可能です。ノートブックセッションの再起動やクラスターの再作成は必要ありません。 依存関係の分離 – EMR Notebooks を使用してインストールしたライブラリは、ノートブックセッションから分離されているため、ブートストラップされたクラスターライブラリや、他のノートブックセッションからインストールされたライブラリには干渉しません。ノートブックスコープのライブラリは、ブートストラップされたライブラリよりも優先されるためです。ノートブックユーザーが複数であっても、お気に入りのバージョンのライブラリをインポートできます。使用の際も、同じクラスターで依存関係がクラッシュすることはありません。 ポータブルなライブラリ環境 – ライブラリパッケージは、ユーザーのノートブックファイルからインストールされます。そのため、ノートブックコードを再実行して別のクラスターにノートブックを切り替える際にはライブラリ環境を再作成できます。EMR Notebooks からインストールしたライブラリは、ノートブックセッションの終了時にホスティング元の EMR クラスターから自動的に削除されます。 前提条件 EMR Notebooks で本機能を使用するには、EMR リリース 5.26.0 以降を実行するクラスターにアタッチされたノートブックが必要です。クラスターには、ライブラリのインポート元となるパブリックまたはプライベートの PyPI リポジトリに対するアクセス権限が必要です。詳細については、「ノートブックの作成」をご覧ください。 VPC 内のクラスターを外部リポジトリと接続できるように […]

Read More

Upsolver、Amazon Athena、Amazon QuickSight を使用して Google Analytics データを分析する

この記事では、Amazon Athena を使用して Google Analytics データを分析するためのソリューションを紹介します。Google Analytics から Amazon S3 にヒットレベルのデータを移動し、結合と強化を実行し、Amazon Athena と Amazon QuickSight を使用してデータを視覚化することで構築されたリファレンスアーキテクチャが含まれています。Upsolver は、顧客が迅速にデータレイクの自動化やオーケストレーションを開始できるようにします。 Google Analytics は、ウェブプロパティとアプリケーションのパフォーマンスを理解したい組織に人気のあるソリューションです。Google Analytics のデータは、ユーザーが洞察をすばやく抽出できるように収集および集約されます。  これは、単純な分析に最適です。ただし、Google Analytics データを他のデータセットで充実させて、カスタマージャーニーの包括的なビューを作成する必要がある場合はそれほど理想的ではありません。 AWS で Google Analytics データを分析する理由 Google Analytics は、事実上の標準のウェブ分析ツールになっています。少ないデータ量では無料で使用可能であり、追跡、分析、レポートを提供します。  技術に詳しくないユーザーでも、以下のような質問に答えることでウェブサイトのパフォーマンスを理解できます。ユーザーはどこから来たのですか? どのページが、コンバージョン率が最も高いですか? ユーザーはどこで操作負担を経験し、ショッピングカートを放棄しますか? これらの質問は Google Analytics の UI 内で回答されますが、以下のようないくつかの制限があります。 データサンプリング: Google Analytics 標準版は、500,000セッションを超える期間でアドホッククエリを実行すると、サンプルデータを表示します。大規模なウェブサイトであれば、毎週または毎日、この数を簡単に超えることがあります。これにより、各クエリはデータの異なるサンプルによってフィードされる可能性があるため、さまざまなレポート間で信頼性の問題が発生する可能性があります。 既存の AWS スタックとの統合の難しさ: 多くのお客様は、AWS でデータおよび分析プラットフォームを構築しているか、構築中です。お客様は、Google Analytics データで AWS の分析や機械学習の機能を使用して、新しい革新的なユースケースを実現したいと考えています。 […]

Read More