Amazon Web Services ブログ

一時的認証情報を使用してフェデレーティッドアイデンティティで、Amazon Athena に接続する

多くの組織では、集中化されたユーザー管理、特に Microsoft Active Directory または LDAP が標準となっています。  AWS リソースへのアクセスも例外ではありません。  Amazon Athena は、データレイク内のデータの迅速で費用効果の高いクエリで一般的である、Amazon S3 のデータ用のサーバーレスクエリエンジンです。  ユーザーまたはアプリケーションが Athena にアクセスできるようにするために、組織は AWS アクセスキーと適切なポリシーが適用されているアクセス秘密鍵を使用する必要があります。一貫性のある認証モデルを維持するために、組織はフェデレーテッドユーザーを使用して Athena の認証と承認を有効にする必要があります。 このブログ記事では、AWS Security Token Service (AWS STS) を使用してフェデレーテッドユーザーによるアクセスを有効にするプロセスを示します。このアプローチを使用すると、一時的セキュリティ認証情報を作成して、Athena でクエリを実行する信頼できるユーザーに提供することができます。

Read More

Equinox フィットネスクラブで、Amazon Redshift を使用して顧客のジャーニーループを閉じる

クリックストリーム分析ツールはデータをうまく処理し、一部のツールは印象的な BI インターフェイスも備えています。ただし、クリックストリームデータを単独で分析するには多くの制限があります。たとえば、顧客はウェブサイトにある商品やサービスに興味があります。そして、顧客はそれらを購入するために物理的な店舗へ行きます。クリックストリームアナリストは「製品を見た後に何が起こったか?」と質問し、コマースアナリストは「購入する前に何が起こったか?」と質問します。 クリックストリームデータが他のデータソースを強化できることは驚くことではありません。購入データとともに使用すると、放棄されたカートの決定やマーケティング支出の最適化に役立ちます。同様に、オフラインおよびオンラインの行動や、顧客がアカウントを登録する前の行動さえも分析できます。ただし、クリックストリームのデータフィードの利点が明らかになったら、すぐに新しいリクエストに対応する必要があります。 このブログ記事では、Equinox フィットネスクラブで、クリックストリームデータで遅延バインディングのビュー戦略を使用するために、どのようにしてデータを Amazon Redshift から Amazon S3 へ移行したかを説明します。Apache Spark、Apache Parquet、データレイク、ハイブパーティショニング、外部テーブルなどの楽しいものを期待してください。すべてこの記事で広く取り上げます!

Read More

SimilarWeb が、Amazon Athena と Upsolver を使って毎月数百テラバイトのデータを分析する方法

これは、SimilarWeb のデータ収集およびイノベーションチームのリーダーである Yossi Wasserman 氏の寄稿です。 SimilarWeb は、同社の説明によれば、「SimilarWeb は、インテリジェンス市場の先駆者であり、デジタル世界を理解するための標準です。SimilarWeb は、すべての地域のすべての業界のウェブサイトまたはモバイルアプリに関する詳細な情報を提供します。SimilarWeb は、マーケティング担当者、アナリスト、セールスチーム、投資家、エグゼクティブなどがデジタル世界で成功するために必要な洞察を活用して、企業が意思決定を行う方法を変えています。」 SimilarWeb は、デジタル世界全体で何が起こっているのかについての洞察を提供するマーケットインテリジェンスの会社です。何千社もの顧客がこれらの洞察を活用して、マーケティング、販売促進、投資決定などの戦略を強化する重要な判断を下しています。当社のソリューションがもたらす意思決定の重要性が、こうした情報を効果的に収集して使用する当社の能力を強調しています。 特に、私が率いているチームは SimilarWeb のモバイルデータ収集の監督を担当しています。現在、毎月数百 TB の匿名データを処理しています。 欠陥のあるデータや不完全なデータに基づいて顧客の洞察を提供することはできないので、データ収集プロセスは SimilarWeb にとって重要です。データ収集チームは、新しいタイプのデータ、パートナーの統合、全体的なパフォーマンスなどを可能な限り迅速に効率よく分析することを必要としています。チームは可能な限り早期に異常を特定し、対処することが不可欠です。このプロセスをサポートするツールは、大きな利点をもたらします。 SimilarWeb のモバイルデータ収集の技術的課題 数百 TB のデータが、異なるソースから毎月 SimilarWeb にストリーミングされます。データは複雑です。 数百のフィールドがあり、その多くは深くネストされており、null 値を持つものも数多く含まれています。データをきれいにし、正規化し、照会のために準備する必要があるため、こうした複雑さから技術的な課題が生じます。 最初の選択肢は、実行に数時間かかる毎日のバッチ処理で SimilarWeb のすべてのデータを処理する、既存のオンプレミス Hadoop クラスターを使用することでした。ビジネスクリティカルな監視にとって、24 時間の遅延は受け入れられません。 そこで、Hadoop を使用して新しいプロセスを開発することを検討しました。しかしながら、それには私たちのチームが毎日の作業から離れて、抽出、変換、ロード (ETL) ジョブのコーディング、スケール、維持に集中することが必要です。また、異なるデータベースを扱う必要があるため、チームが業務に集中する妨げともなります。そのため、チームのメンバー全員が新しいレポートを作成し、不一致を調査し、自動化されたテストを追加できるようなアジャイルソリューションが必要でした。 また、コンピューティングのボトルネックを引き起こした別個を数える問題もありました。別個を数える問題とは、反復要素を含むデータストリームで別個の要素の数を数えるのが難しいという問題です。たとえば、デバイス、オペレーティングシステム、国別など、数十億もの可能なセグメントの一意のビジター数を追跡します。別個を数えることは非加算的集約であるため、一意のビジターの正確な数を計算するには、通常、多くのメモリ集約型コンピューティングノードが必要です。 Amazon Athena を選んだ理由 こうした課題を解決するために、当社は Amazon Athena を選びました。  Athena が、もたらしたもの: SQL を使用する高速な照会 — 私たちのチームは SQL を使用してデータを照会したいと考えていましたが、従来の SQL […]

Read More

Pagely が、カスタマーサポートの分析を容易にするために AWS でサーバーレスデータレイクを実装

Pagely は、マネージド型 WordPress ホスティングサービスを提供する AWS アドバンスドテクノロジーパートナーです。当社の顧客は、使用、請求、サービスのパフォーマンスの可視性を向上させるために継続的に当社にプレッシャーをかけています。こうした顧客により良いサービスを提供するため、サービスチームは、アプリケーションサーバーが作成したログに効率的にアクセスする必要があります。 以前から、当社ではオンデマンドで基本的な統計を集めるシェルスクリプトを利用していました。最大の顧客のログを処理する場合、Amazon EC2 インスタンスで実行される最適化されていないプロセスを使用して 1 件のレポートを作成するのに 8 時間以上かかりました—時には、リソースの制限のためにクラッシュすることがありました。そこで、従来のプロセスの修正にさらに力を注ぐのではなく、適切な分析プラットフォームを実装する時が来たと判断しました。 当社の顧客のログはすべて、圧縮された JSON ファイルとして Amazon S3 に保存されています。Amazon Athena を使用して、これらのログに対して直接 SQL クエリを実行しています。データを準備する必要がないため、このアプローチは優れています。単にテーブルとクエリを定義するだけです。JSON は Amazon Athena でサポートされているフォーマットですが、パフォーマンスやコストに関して最も効率的なフォーマットというわけではありません。JSONファイルは、データの各行から 1 つまたは 2 つのフィールドを返すだけであってもその全体を読み取る必要があるので、必要以上に多くのデータをスキャンしなくてはなりません。さらに、JSON を処理するのが非効率であるため、クエリ時間が長くなります。 30 分のクエリタイムアウト限度に達したため、Athena で最大の顧客のログを照会することは理想的ではありませんでした。この制限を増やすことはできますが、クエリは既に必要以上に時間がかかるようになっていました。 この記事では、Pagely が AWS アドバンスドコンサルティングパートナーである Beyondsoft とどのように協力して、Beyondsoft が開発したオープンソースツールである ConvergDB を使用して DevOps 中心のデータパイプラインを構築したかについて説明します。このパイプラインでは、AWS Glue を使用してアプリケーションログを最適化されたテーブルに変換し、Amazon Athena を使用して迅速かつ費用対効果の高いクエリを実行できます。 Beyondsoft との協力 当社は、できるだけ少ないオーバーヘッドで、エンジニアがデータに簡単にアクセスできるようにするために何かを行う必要があることを知っていました。クエリ時間を短縮するために、データをより最適なファイル形式にしたいと考えていました。無駄のない企業なので、当社には技術を深く掘り下げる余裕はありませんでした。このギャップを克服するために、Beyondsoft と協力して、データレイクの最適化と管理に最善のソリューションを決定しました。 ConvergDB […]

Read More

Amazon EMR の Amazon S3 上の Apache HBase への移行: ガイドラインとベストプラクティス

このブログ記事では HDFS 上の Apache HBase から、Amazon EMR の Amazon S3 上の Apache HBase に移行する方法のガイダンスとベストプラクティスについて解説します。 Amazon EMR の Amazon S3 上の Apache HBase Amazon EMR のバージョン 5.2.0 以降では、Amazon S3 上で Apache HBase を実行できます。Apache HBase のデータストアとして Amazon S3 を使用することにより、クラスターのストレージとコンピューティングノードを分割できます。コンピューティング要件のためにクラスターのサイジングをすることになるので、コスト削減につながります。クラスター上の HDFS に 3 倍のレプリケーションでデータセット全体をストアするために料金を払うわけではありません。

Read More

Amazon QuickSight でメールレポートとデータラベルのサポートを開始

今日は、Amazon QuickSight でご利用いただけるようになった、メールレポートとデータラベルについてご紹介します。 メールレポート Amazon QuickSight のメールレポートでは、定期的および 1 回限りのレポートを受け取ることができます。このレポートはメールボックスに直接配信されます。メールレポートを使用することで、Amazon QuickSight アカウントにログインすることなく最新の情報にアクセスできます。また、メールレポートでデータにオフラインでアクセスすることもできます。より深く分析および考察するために、メールレポートをクリックするだけで、Amazon QuickSight のインタラクティブダッシュボードに移動できます。 メールを使用してレポートを送信する 作成者は Amazon QuickSight アカウント内でダッシュボードにアクセスできるユーザーに、1 回限りまたは定期的なメールレポートを送信するよう選択できます。受信者のユーザー設定に応じて、デスクトップまたはモバイルレイアウト用にメールレポートをカスタマイズできます。 ダッシュボード用にメールレポートを有効化するのは簡単です。ダッシュボードページで [Share] (共有) メニューにナビゲートし、[Email Report] (メールレポート) オプションを選択します。ダッシュボード上でメールレポートを送信する、またはスケジュールを変更するには、ダッシュボードの所有者か共有所有者である必要があります。 この画面ではスケジュール、メールの詳細 (たとえば、件名の行)、受信者のオプションを指定してメールレポートを構成できます。 メールレポートがダッシュボード用に有効化されたあとは、そのダッシュボードにアクセスできる全ユーザーが、メールレポートのサブスクリプションを登録または解除できます。また、受信者は自分のアカウント内でダッシュボードにナビゲートすることで、レイアウト設定 (モバイルまたはデスクトップ) を変更することもできます。また、作成者は書式設定とレイアウトが正しいかを確認するために、自分自身にテスト用のメールレポートを送信することもできます。 メールレポートがスケジュールされたあとは、指定された頻度とタイミングでレポートが配信されます。Amazon QuickSight ダッシュボードの所有者は、メールレポートの配信を一時停止したり、スケジュールされた配信とは別に 1 回限りのレポートを送信することもできます。何らかのエラーがあった、またはダッシュボードに関連付けられた、基となる SPICE データセットの更新に失敗した場合は、Amazon QuickSight は自動的にレポートの配信をスキップします。Amazon QuickSight はこのような場合、ダッシュボードの所有者にエラーレポートも送信します。 料金表: メールレポートは Amazon QuickSight Enterprise Edition でご利用いただけます。Amazon QuickSight の作成者の場合、メールレポートは毎月のサブスクリプション料金に含まれています。作成者は 1 か月間無制限でメールレポートを受け取ることができます。Amazon QuickSight の読者の場合、メールレポートの料金はセッション単位の料金モデルが適用されます。読者の場合、受信するメールレポート […]

Read More

Oracle データベースでの Amazon EBS エラスティックボリュームの使用 (パート 3): Oracle ASM を使ったデータベース

このブログシリーズのパート 1 とパート 2 では、Amazon EBS のエラスティックボリューム機能と、Oracle データベースのストレージレイアウトとの連携について説明します。オペレーティングシステムにあるファイルシステムおよび、データベースストレージ管理のための Logical Volume Managers (LVM) を使用するデータベースとのエラスティックボリュームについてお話しします。この記事では、Oracle Automated Storage Management (Oracle ASM) を使った Oracle データベース用 Amazon EC2 のストレージレイアウトについて解説します。可用性に影響を与えずに、データベースストレージを拡張する方法をご紹介します。また、Oracle データベースでエラスティックボリュームを使用する利点について、いくつかを検討します。 Oracle ASM を使用したデータベースのストレージ操作 このセクションでは、ストレージ管理のための Oracle ASM を使用した Oracle データベース用 Amazon EC2 のストレージレイアウトについてまず簡単に説明します。次に、エラスティックボリューム機能が導入される前に、ストレージの増強やプロビジョニングされた IOPS の変更など、Oracle データベースストレージの変更がどのように行われたかについて解説します。関連する課題についてもお話しします。最後に、ある例を参考に、エラスティックボリュームを使って、これらの問題をいくつか解決する方法を示します。 Oracle ASM を使用するデータベース用ストレージレイアウト Oracle ASM は、Oracle データベース用ストレージを管理するためのボリュームマネージャーです。これには、データベース専用に設計されたファイルシステムが含まれています。Oracle ASM は、ディスク全体にデータを分散し、一貫したパフォーマンスを約束します。また、ディスクの追加や削除などのストレージ構成の変更後に、自動的にデータを再調整することもできます。 Oracle ASM を使用する場合、1 つ以上の ASM ディスクを含む […]

Read More

Oracle データベースでの Amazon EBS エラスティックボリュームの使用 (パート2): LVMを 使ったデータベース

 このブログシリーズのパート 1 では、エラスティックボリュームの機能について検討します。また、データベースストレージとして LVM なしの単一の Amazon EBS ボリュームを使用するシンプルなデータベースである Oracle データベースストレージレイアウトについても検討します。この記事のパート 2 では、ストレージ管理に LVM を使用する Oracle データベースである Amazon EC2 のストレージレイアウトについて検討します。さらに、可用性に影響を与えることなくデータベースストレージを拡張する方法を示します。 LVM を使用したデータベースのストレージ操作 このセクションでは、ストレージ管理に LVM を使用する Oracle データベース向けの Amazon EC2 のストレージレイアウトについて簡潔に検討します。次に、プロビジョニングされたストレージを増やしたり、またプロビジョニングされた IOPS を変更するなど、 Oracle データベースストレージの変更が、エラスティックボリュームの導入前にどのように行われたかについて検討します。また、関連する課題についても取り扱います。最後に、エラスティックボリュームでこれら課題のうちのいくつかを解決する方法について例を挙げて示します。 LVM を使用するデータベースのストレージレイアウト データベースストレージ用に複数の EBS ボリュームが必要な大規模なデータベースの場合、LVM を使用してストレージを管理できます。このシナリオでは、ボリュームグループを作成し、ボリュームグループに EBS ボリュームを追加します。そして、ボリュームグループから論理ボリュームを作成し、論理ボリュームの上にファイルシステムを作成します。次の図は、LVM を使ったデータベースストレージレイアウトを示しています。 エラスティックボリュームのない Oracle データベースのストレージ操作 複数の EBS ボリュームとストレージ管理用の LVM を使用するシステム用にプロビジョニングされたストレージまたは IOPS を増やすために、新しい EBS ボリュームを作成します。そして、次の手順で新しい […]

Read More

AWS re:Invent 2018 で開催予定の Amazon DynamoDB セッション、ワークショップ、およびチョークトークのご案内

AWS re:Invent 2018 がもうすぐ開催されます! この記事には、AWS re:Invent 2018 で行われる、Amazon DynamoDB セッション、ワークショップ、チョークトークの全リストを掲載しています。この記事の情報で、今年のラスベガスでのコンファレンスウィークをうまくスケジューリングしましょう。上司を説得できず、まだ AWS re:Invent 2018 に登録していないのなら、こちらの出張の必要性についてのメモを読んでみてください。 レベル 200 – 入門 DAT201 – Amazon DynamoDB の新情報についてのディープダイブ これは、DynamoDB の総括的な新着情報のセッションです。新しく発表された機能を紹介し、エンドツーエンドから見た最新のイノベーションを提供します。お客様の成功事例やユースケースもシェアする予定です。DynamoDB の新機能について、一緒に学びましょう。 レベル 300 – 上級 DAT303 – 最大級に重要な資産 (つまり、あなたのデータ) の保護 : DynamoDB を使ったセキュリティベストプラクティス このセッションでは、DynamoDB に組み込まれているセキュリティ機能と、それらを使用してデータを保護する最善の方法を学びます。利用できるオプションを使って、テーブルへのアクセスとそのテーブルに格納されているコンテンツをどう制御するかを考えます。また、暗号化を使用してテーブルの内容を保護する方法と、データへのアクセスを監視する方法についても説明します。 DAT311-R – Amazon DynamoDB と AWS Lambda を使用したサーバーレスアプリケーションの構築 – ワークショップ形式 先進的デザインとベストプラクティスを使った、全く新しいタイプのワークショップです。このワークショップは、幅広い AWS サーバーレス製品のご紹介と、コンポーネントがどのように連携するかを実証します。このインタラクティブなワークショップでは、ある e コマース会社の発展を考察します。簡素なサーバレス製品カタログから始まって、1日のユーザー数が100万人に達する規模に成長し、その後、分析とほぼリアルタイムでのモニタリングを追加します。ワークショップを進めながら、DynamoDB や […]

Read More

ProxySQL と Percona Monitoring and Management で、Amazon RDS for MySQL のデプロイを強化する

本日は、Percona 社の Michael Benshoof 氏によるゲストブログ投稿です。Benshoof 氏によると、「Percona 社は、3 千人以上の顧客をグローバルに持ち、バイアスのない最善の企業規模サポート、コンサルティング、管理サービスおよびトレーニングを提供し、リスクと運用コストを減らす対策を提供しています。さらにオンプレミスとオープンソース環境でのオープンソースデータベースのためのソフトウェアを使って、ロックインを排除し、機敏性を高め、ビジネスの成長を可能にしています。」 」 クラウドにアプリケーションをデプロイする予定で、データ層には Amazon RDS for MySQL を利用しようと考えている? それはいい選択ですね! それでは、アーキテクチャを最大限に活用するためのベストプラクティスをいくつか見てみましょう。 Amazon RDS for MySQL とは RDS for MySQL は、アマゾン ウェブ サービス (AWS) スタック内でサービスを行う管理データベース (DBaaS) です。RDS for MySQL では、次のような細かな操作作業の多くを処理します。 バックアップ ポイントインタイムリカバリ マイナーバージョンの自動アップグレード 新しいレプリカの追加 自動フェイルオーバー (Multi-AZ を実行している場合) このように、RDS for MySQL は、クラウド上で動作するデータ層にとって最適なオプションです。よく見られるフェールオーバーは標準の Multi-AZ デプロイで対応可能はもちろんのこと、RDSの回復力と使いやすさの向上も目指すことが可能です。これらの方法により、ワークロードの増加に合わせて、よりシームレスにデプロイおよびインフラストラクチャを拡張できます。 標準的なベストプラクティス 任意のアーキテクチャ (クラウドまたは物理データセンター内にある) を一から設計する場合、不具合への対応を準備しておくことは大変重要です。障害に対する準備が整ったインフラストラクチャの設定は、耐障害性のある環境を設計する上でかなめとなります。そのため、本番でのデプロイ (または高可用性が必要なデプロイ) の場合は、少なくとも以下を実行する必要があります。 プライマリインスタンスに、Multi-AZ を指定する […]

Read More