Amazon Web Services ブログ

Category: AWS Big Data

Upsolver、Amazon Athena、Amazon QuickSight を使用して Google Analytics データを分析する

この記事では、Amazon Athena を使用して Google Analytics データを分析するためのソリューションを紹介します。Google Analytics から Amazon S3 にヒットレベルのデータを移動し、結合と強化を実行し、Amazon Athena と Amazon QuickSight を使用してデータを視覚化することで構築されたリファレンスアーキテクチャが含まれています。Upsolver は、顧客が迅速にデータレイクの自動化やオーケストレーションを開始できるようにします。 Google Analytics は、ウェブプロパティとアプリケーションのパフォーマンスを理解したい組織に人気のあるソリューションです。Google Analytics のデータは、ユーザーが洞察をすばやく抽出できるように収集および集約されます。  これは、単純な分析に最適です。ただし、Google Analytics データを他のデータセットで充実させて、カスタマージャーニーの包括的なビューを作成する必要がある場合はそれほど理想的ではありません。 AWS で Google Analytics データを分析する理由 Google Analytics は、事実上の標準のウェブ分析ツールになっています。少ないデータ量では無料で使用可能であり、追跡、分析、レポートを提供します。  技術に詳しくないユーザーでも、以下のような質問に答えることでウェブサイトのパフォーマンスを理解できます。ユーザーはどこから来たのですか? どのページが、コンバージョン率が最も高いですか? ユーザーはどこで操作負担を経験し、ショッピングカートを放棄しますか? これらの質問は Google Analytics の UI 内で回答されますが、以下のようないくつかの制限があります。 データサンプリング: Google Analytics 標準版は、500,000セッションを超える期間でアドホッククエリを実行すると、サンプルデータを表示します。大規模なウェブサイトであれば、毎週または毎日、この数を簡単に超えることがあります。これにより、各クエリはデータの異なるサンプルによってフィードされる可能性があるため、さまざまなレポート間で信頼性の問題が発生する可能性があります。 既存の AWS スタックとの統合の難しさ: 多くのお客様は、AWS でデータおよび分析プラットフォームを構築しているか、構築中です。お客様は、Google Analytics データで AWS の分析や機械学習の機能を使用して、新しい革新的なユースケースを実現したいと考えています。 […]

Read More

Block Public Access 設定により、意図しないネットワーク公開から Amazon EMR クラスターを保護

AWS セキュリティグループは、ホワイトリストに登録された IP アドレスのみへのクラスターのアクセスを制御できるネットワークファイアウォールとして機能します。クラスター上のアプリケーションとデータを保護するには、セキュリティグループのルールを適切に管理することが重要です。Amazon EMR では、アプリケーションの要件に基づいて、必要なネットワークポート、プロトコル、および IP アドレスを含む制限的なセキュリティグループルールを作成することを強くお勧めします。 AWS アカウント管理者はさまざまな方法でクラウドネットワークセキュリティを保護できますが、新しい機能では、アカウントユーザーが誤って設定されたセキュリティグループルールでクラスターを起動できなくなりました。誤った設定は、パブリックインターネットからの無制限のトラフィックに広範囲のクラスターポートを開放し、クラスターリソースを外部の脅威にさらす可能性があります。 この投稿では、管理者がリージョン内のすべての EMR クラスターに共通のパブリックアクセスルールを適用するのに役立つ、Block Public Access (BPA) 設定と呼ばれる新しいアカウントレベルの機能について説明します。 Block Public Access 設定の概要 BPA 設定は、リージョン内の EMR クラスターへのパブリックネットワークアクセスを集中管理するのに役立つ、アカウントレベルの設定です。リージョンでこの設定を有効にし、アカウントユーザーがポートを介してパブリック IP アドレス (IPv4 では 0.0.0.0/0、IPv6 では ::/0 にソースを設定) からの無制限のインバウンドトラフィックを許可するクラスターを起動できないようにすることができます。アプリケーションでは、インターネットに対してオープンである特定のポートが必要な場合があります。その場合、クラスターを起動する前にパブリックアクセスを許可する例外として、BPA 設定でこれらのポート (またはポート範囲) を設定します。 アカウントユーザーが BPA 設定を有効にしたリージョンでクラスターを起動すると、EMR はこの設定で定義されたポートルールを確認し、クラスターに関連付けられたセキュリティグループで指定済みのインバウンドトラフィックルールと比較します。これらのセキュリティグループにパブリック IP アドレスへのポートを開くインバウンドルールがあるが、これらのポートを BPA 設定の例外として設定しなかった場合、EMR はクラスターの作成に失敗し、ユーザーに例外を送信します。  AWS マネジメントコンソールから BPA 設定を有効にする BPA 設定を有効にするには、PutBlockPublicAccessConfiguration API を呼び出す権限が必要です。 AWS […]

Read More

AWS 認定ビッグデータ — 専門知識認定でキャリアアップ

ほとんどのクラウドコンピューティングプロフェッショナルは基礎、アソシエイト、プロフェッショナルの AWS 認定を知っていますが、AWS が専門知識認定も提供していることは重要です。データ分析、データレイク、データウェアハウスのソリューションを含むキャリアを追求している人は、AWS 認定ビッグデータ — 専門知識認定を取得する有力な候補者です。 AWS 認定ビッグデータ — 専門知識認定は、キャリアを成長させるのに役立つ素晴らしい選択肢です。AWS 認定は、Amazon EMR、Amazon Redshift、Amazon QuickSight などの中心的な AWS ビッグデータサービスを使用して複雑なデータ分析を実行するために必要な技術的スキルと専門知識があることを将来の雇用主に示せます。この認定は、データの収集、保存、処理、分析、視覚化、およびセキュリティに関する理解を検証するものです。 AWS が提供する業界で認められているすべての認定に関する詳細については、AWS 認定ページをご覧ください。 推奨される知識と経験 クラウドコンピューティングに対する強い情熱を持っていることに加えて、AWS 認定ビッグデータ — 専門知識試験の受験に興味がある人は、以下の基準を満たすことをお勧めします。 AWS の使用に関する 2 年以上の経験。 データ分析分野での 5 年以上の経験。 収集、取り込み、保管、処理、視覚化のデータライフサイクルにどのように適合するかを説明できる能力に加えて、AWS ビッグデータサービスの定義と設計に関する背景知識。 AWS 認定クラウドプラクティショナーまたは以下のような現行のアソシエイトレベルの認定を保有すること: AWS 認定ソリューションアーキテクト – アソシエイト AWS 認定開発者 – アソシエイト AWS 認定 SysOps 管理者 – アソシエイト 推奨される知識の完全なリストと試験内容は、試験ガイドに記載されています。これらの各基準のボックスにチェックマークを入れることができれば、AWS 認定ビッグデータ — 専門知識試験の準備を始められます。 […]

Read More

Amazon QuickSight のアクセスに Okta をフェデレーションする

 Amazon QuickSight は、クラウドベースで高速なビジネスインテリジェンスサービスです。これにより、組織の誰もが容易に洞察を入手できるようになります。完全マネージド型サービスである Amazon QuickSight では、任意のデバイスからアクセスできる双方向性ダッシュボードを簡単に作成と公開が行え、アプリケーション、ポータル、ウェブサイトなどに埋め込むことができます。 Amazon QuickSight では、Standard と Enterprise の両方のエディションで、セキュリティアサーションマークアップランゲージ 2.0 (SAML 2.0) を使うアイデンティティフェデレーションをサポートしています。フェデレーションを使うと、エンタープライズアイデンティティプロバイダー (IdP) によりユーザーを管理でき、ログインしたユーザーを Amazon QuickSight へ移動させることが可能です。この IdP には、Microsoft Active Directory Federation Services、Ping One Federation Server、Okta などの種類があります。 今回の記事では、Amazon QuickSight のアクセスに Okta をフェデレーションする方法について手順を追って説明します。 Okta アプリケーションの作成 Okta の管理者ダッシュボードにサインインします。Okta Developer Edition のアカウントは無料で作成できます。 Okta 管理者ダッシュボードのリボンで、[Applications] をクリックします。 [Developer Console] が表示されている場合は、次のスクリーンショットを参考にして、 [Classic UI] に切り替えます。 [Add Application] […]

Read More

Apache Knox を使用して EMR でペリメータセキュリティを実装する

ペリメータセキュリティは、Apache Hadoop クラスターリソースをクラスター外部からアクセスするユーザーに対して保護するのに役立ちます。Apache Hadoop クラスターとのすべての REST および HTTP でのインタラクションに対して単一のアクセスポイントを有効にし、クラスターとのクライアントによるインタラクションを簡素化します。たとえば、クライアントアプリケーションは、Kerberos 対応クラスター上のサービスとインタラクションする前に、Kinit または SPNEGO を使用して Kerberos チケットを取得する必要があります。この記事では、Apache Knox のセットアップ設定を順をおって説明し、EMR クラスターのペリメータセキュリティを有効にします。 以下の利点があります。 さまざまな Hadoop サービスと UI の認証を簡素化する プロキシとして機能することにより、サービス固有の URL/ポートを非表示にする ペリメータでの SSL 終了を有効にする 複数のクラスターにわたって公開されたエンドポイントの管理を容易にする 概要 Apache Knox Apache Knox は、REST API エンドポイントを使用して Hadoop クラスターにアクセスするためのゲートウェイを提供します。エンタープライズ ID 管理ソリューションと統合し、クラスターのデプロイの詳細を非表示にする隠すことで、Hadoop クラスターでのサービスとクライアントのインタラクションを簡素化します。 この記事では、以下の設定を実行します。 Amazon VPC に基づいて仮想プライベートクラウド (VPC) を作成する Active Directory ドメインコントローラー用の Amazon EC2 Windows インスタンスをプロビジョニングする […]

Read More

GoldenGate を使用したリアルタイムでの Oracle OLTP データの抽出と Amazon Athena からのクエリ

この記事では、レポート作成ワークロードをオンライントランザクション処理 (OLTP) データベースから Amazon Athena および Amazon S3 にオフロードすることによってパフォーマンスを向上させ、コストを削減できる方法について説明します。説明するアーキテクチャはレポート作成システムを実装するもので、到着時にクエリできるようにして、受け取るデータを理解することを可能にします。このソリューションでは以下が行われます。 ソース上で変更が行われるたびに、Oracle GoldenGate がターゲットに新しい行を生成し、緩やかに変化するディメンションのタイプ 2 (SCD タイプ 2) データを作成します。 Athena が SCD タイプ 2 データでのアドホッククエリの実行を可能にします。 最新のレポート作成ソリューションの原則 高度なデータベースソリューションは、コスト効率の良いレポート作成ソリューションを構築できるように原則のセットを使用します。これらの原則には以下のようなものがあります。 OLTP からレポート作成アクティビティを分離する。このアプローチは、リソースの分離を提供し、データベースがそれぞれのワークロードをスケールできるようにします。 Hadoop Distributed File System (HDFS) および Amazon S3 などのクラウドプロジェクトストアといった分散ファイルシステムの上で実行されるクエリエンジンを使用する。オープンソース HDFS とクラウドオブジェクトストアの上で実行できるクエリエンジンの到来は、専用レポート作成システムの実装コストをさらに削減します。 また、レポート作成ソリューションの構築時にはこれらの原則を使用できます。 商用データベースのライセンスコストを削減するため、レポート作成アクティビティをオープンソースデータベースに移動させる。 ソースシステムからの OLTP データをレプリケートでき (リアルタイムモードが望ましい)、データの現行ビューを提供する、ログベースでリアルタイムの変更データキャプチャ (CDC) を使用したデータ統合ソリューションシステムを使用する。ソースおよびターゲットのレポート作成システム間におけるデータレプリケーションは、CDC ソリューションを使用して有効化できます。トランザクションログベースの CDC ソリューションは、ソースデータベースから非侵襲的にデータベースの変更をキャプチャし、それらをターゲットデータストアまたはファイルシステムにレプリケートします。 前提条件 GoldenGate と Kafka を併用しており、クラウド移行を検討しているという場合は、この記事が役に立ちます。この記事では、GoldenGate に関する予備知識も前提としており、GoldenGate […]

Read More

AWS Lake Formation FindMatches を使用してデータセットの統合および重複の削除を実施

AWS Lake Formation FindMatches は新しい機械学習 (ML、machine learning) 変換で、人間がほとんど、あるいはまったく介入することなく、さまざまなデータセットにわたってレコードを一致させたり、重複レコードを特定および削除したりできます。FindMatches は Lake Formation に含まれている、いくつかの簡単な手順を踏むだけでセキュアなデータレイクを構築できる新しい AWS のサービスです。 FindMatches を使用するのに、コードを書く必要も ML の仕組みを知っている必要もありません。また、データに一意の識別子が含まれている必要はなく、フィールドが完全に一致している必要もありません。 以下に、FindMatches で実現できることを挙げます。 顧客の一致: フィールドが完全に一致していない (名前のスペルが異なる、住所が異なる、データが欠損している、データが正確でないなどの理由による) 場合でも、さまざまなデータセットにわたって顧客レコードをリンクおよび統合できます。 製品の一致: さまざまなベンダーカタログおよび SKU にわたって製品を一致させることができます。レコードが共通の構造を共有していない場合でも可能です。 不正防止: 既知の不正アカウントと比較することで、不正のおそれがあるアカウントを特定できます。 その他データの一致: 住所、動画、部品リストなどを一致させることができます。通常、人間がデータベースの行を確認してそれらが一致すると判断できる場合、FindMatches が役に立ちます。 この記事では、FindMatches ML 変換を使用して、DBLP と Scholar という各学術刊行物サービスからの 2 つのリストで構成された学術データセットの一致レコードを特定する方法を紹介します。 このデータセットは、“Evaluation of entity resolution approaches on real-world match problems” (Köpcke, H., Thor, A., Rahm, E.) […]

Read More

AWS Lake Formation の開始方法

AWS Lake Formation を使用すると、安全なデータレイクをセットアップすることができます。データレイクとは、すべての構造化データと非構造化データを任意の規模で保存する、一元化され、キュレーションされた安全なリポジトリです。データは現状のままで保存でき、事前に構造化しておく必要はありません。また、ダッシュボードや視覚化から、ビッグデータ処理、リアルタイム分析、機械学習にいたるまで、さまざまな種類の分析を実行できるので、意思決定の向上につながります。 データレイクの課題 データレイク管理における主要な課題は、内容を監視せずに raw データを保存することに起因しています。レイクのデータを使用可能にするには、そのデータのカタログ化とセキュア化を行う、定義済みのメカニズムが必要です。 Lake Formation は、ガバナンス、意味的一貫性、アクセスコントロールをデータレイクに実装するためのメカニズムを提供します。Lake Formation を使うことで、データを分析や機械学習に使用しやすくなり、ビジネスにより優れた価値をもたらすことができます。 また、Lake Formation を使えば、データレイクのアクセスを制御したり、データにアクセスする人を監査したりすることができます。AWS Glue データカタログは、データアクセスのポリシーを統合して、データの送信元にかかわらずコンプライアンスを確保します。 チュートリアル このチュートリアルでは、データレイクの構築方法と使用方法について説明します。 データレイクの管理者を作成します。 Amazon S3 のパスを登録します。 データベースを作成します。 アクセス許可を付与します。 AWS Glue を使ってデータをクロールし、メタデータとテーブルを作成します。 テーブルデータへのアクセス権限を付与します。 Amazon Athena を使ってデータをクエリします。 アクセスが制限されている新規ユーザーを追加し、結果を検証します。 前提条件 このチュートリアルを行うには以下のリソースが必要です。 AWS アカウント。 AWSLakeFormationDataAdmin を持つ IAM ユーザー。詳細は IAM アクセスポリシーについてのドキュメントを参照してください。 米国東部 (バージニア北部) の datalake-yourname-region という名前の S3 バケット。 新しい S3 バケット内にある zipcode […]

Read More

Amazon Redshift にストアドプロシージャを導入する

Amazon は、常にお客様のニーズに基づいて働いています。お客様は、レガシーのオンプレミスデータウェアハウスから既存のワークロードを簡単に移行できるように、Amazon Redshift でストアドプロシージャを使用できることを強く要望しています。 この大切な目標を念頭に置いて、AWS は PL/pqSQL ストアドプロシージャを実装して、既存のプロシージャとの互換性を最大限に高め、移行を簡素化することを選択しました。この記事では、運用の効率性とセキュリティを向上させるためにストアドプロシージャを使用する方法と場合について説明します。AWS Schema Conversion Tool でストアドプロシージャを使用する方法も説明します。 ストアドプロシージャとは ストアドプロシージャとは、一連の SQL クエリと論理操作を実行するためにユーザーが作成するオブジェクトです。プロシージャはデータベースに保存され、実行するのに十分な権限を持つユーザーが利用できます。 ユーザー定義関数 (UDF) とは異なり、ストアードプロシージャーは SELECT 照会に加えてデータ定義言語 (DDL) およびデータ操作言語 (DML) を組み込むことができます。ストアドプロシージャは値を返す必要はありません。ループや条件式を含む PL/pgSQL 手続き型言語を使用して論理フローを制御できます。

Read More

Apache Hive メタストアを Amazon EMR に移行してデプロイする

 Amazon EMR の速さと柔軟性を、Apache Hive の有用性とユビキタス性と組み合わせることで、両方の長所が得られます。ただし、ビッグデータプロジェクトを始めるのは容易なことではありません。EMR に新しいデータをデプロイする場合でも、既存のプロジェクトを移行する場合でも、この記事では開始するための基本を説明します。 Apache Hive は、Apache Hadoop クラスターで動作するオープンソースのデータウェアハウスおよび分析パッケージです。Hive メタストアには、パーティション名やデータ型など、テーブルとその基礎となるデータの説明が含まれています。Hive は、EMR で実行できるアプリケーションの 1 つです。 この記事が提示するソリューションの大半は、メタストアを管理するために、Hiveにスケーラビリティを提供する Apache Hadoop を使用していることを前提としています。Hadoop を使用しない場合は、Amazon EMR のドキュメントを参照してください。 Hive メタストアのデプロイメント Hive メタストアでは、埋め込み、ローカル、またはリモートの 3 つの構成パターンのいずれかを選択できます。 オンプレミスの Hadoop クラスターを EMR に移行する場合、移行戦略は既存の Hive メタストアの構成によって異なります。 設定を検討する際は、いくつかの重要な事実を考慮してください。Apache Hive には、埋め込みメタストアに使用できる Derby データベースが付属しています。ただし、Derby は本番稼働レベルのワークロードには対応できません。 EMR を実行している場合、Hive はマスターノードのファイルシステム上の MySQL データベースにメタストア情報を一時ストレージとして記録し、ローカルメタストアを作成します。 クラスターが終了すると、そのマスターノードを含めてすべてのクラスターノードがシャットダウンし、データが消去されます。 これらの問題を回避するには、外部 Hive メタストアを作成します。これにより、Hive メタデータストアを実装に合わせて拡張できるようになり、クラスターが終了してもメタストアが維持されるようになります。 EMR 用の外部 Hive メタストアを作成する方法は […]

Read More