Amazon Web Services ブログ

Amazon Redshift を使用して、デジタルコンテンツを収益化するプロデューサーを支援している Narrativ

Narrativ は、彼ら自身の言葉によれば、「Narrativ は次世代のデジタルコンテンツプロデューサーのための収益化技術を構築しています。当社の製品ポートフォリオには、毎月数百万ドルの広告主価値と数十億データポイントを生成するリアルタイム入札プラットフォームとビジュアルストーリーツールが含まれています」ということになります。 Narrativ では、過去 15 ヶ月間に当社の製品によって生成されたデータが同様に桁違いに増加し、プラットフォームの使用量が大幅に増加しました。このブログ記事では、AWS を使用した、堅牢でスケーラブルで、パフォーマンスが高く、費用対効果の高い分析環境への進化を共有します。また、データウェアハウジングとデータレイク分析の過程で学んだベストプラクティスについても説明します。 Narrativ の継続的な成長の加速を見越して、私たちは昨年末、次の規模の計画を立て始めました。当社では Amazon Redshift をデータウェアハウスとして使用してきており、非常に役に立っています。データが増え続ける中、Amazon S3 をデータレイクとして利用し、Amazon Redshift Spectrum の外部テーブルを使用して S3 で直接データを照会しました。これにより、コストや複雑さに対するトレードオフなしで、ニーズを満たすためにストレージやコンピューティングのリソースを容易に個別に拡張できるようになったことを嬉しく思いました。 このプロセスで、Redshift Spectrum での作業を簡素化し、多数のベストプラクティスをカプセル化する Spectrify を作成しました。Spectrify は、簡単なコマンドで次の 3 つのことを実現します。まず、Amazon Redshift のテーブルをコンマ区切り値 (CSV) 形式で S3 にエクスポートします。次に、エクスポートされた CSV ファイルを並行して Apache Parquet ファイルに変換します。最後に、Amazon Redshift クラスターに外部テーブルを作成します。これで、クエリは Amazon Redshift のデータを使用して、膨大な量の Parquet データを S3 で展開し、すぐに結果を返すことができるようになりました。   上の図は、Amazon S3 の Parquet データと Amazon […]

Read More

Amazon Athena で CTAS ステートメントを使用して、コストを削減し、パフォーマンスを向上させる

Amazon Athena は、標準 SQL を使用して Amazon S3 でのデータの分析を簡易化するインタラクティブなクエリサービスです。Athena はサーバーレスであるため、インフラストラクチャの管理は不要であり、実行したクエリにのみ課金されます。Athena は最近、SELECT クエリまたは CREATE TABLE AS SELECT (CTAS) ステートメントの結果を使用するテーブルの作成のサポートをリリースしました。 アナリストは、CTAS ステートメントを使用して、データのサブセットまたは列のサブセット上の既存のテーブルから新しいテーブルを作成することができます。また、Apache Parquet や Apache ORC などのカラムナ形式にデータを変換し、分割するオプションもあります。Athena は、結果として得られたテーブルとパーティションを AWS Glue データカタログに自動的に追加し、その後のクエリですぐに使用できるようにします。 CTAS ステートメントは、大きなテーブルから構築された小さなテーブルでクエリを実行できるようにすることで、コストを削減し、パフォーマンスを向上させます。この記事では、元のデータセットよりも小さい新しいデータセットを作成し、その後のクエリをより高速に実行できるという、CTAS の使用の利点を示す 3 つのユースケースについて説明します。これらのユースケースではデータを繰り返し照会する必要があると想定して、より小さく、より最適なデータセットを照会して、より迅速に結果を取得できるようになりました。

Read More

一時的認証情報を使用してフェデレーティッドアイデンティティで、Amazon Athena に接続する

多くの組織では、集中化されたユーザー管理、特に Microsoft Active Directory または LDAP が標準となっています。  AWS リソースへのアクセスも例外ではありません。  Amazon Athena は、データレイク内のデータの迅速で費用効果の高いクエリで一般的である、Amazon S3 のデータ用のサーバーレスクエリエンジンです。  ユーザーまたはアプリケーションが Athena にアクセスできるようにするために、組織は AWS アクセスキーと適切なポリシーが適用されているアクセス秘密鍵を使用する必要があります。一貫性のある認証モデルを維持するために、組織はフェデレーテッドユーザーを使用して Athena の認証と承認を有効にする必要があります。 このブログ記事では、AWS Security Token Service (AWS STS) を使用してフェデレーテッドユーザーによるアクセスを有効にするプロセスを示します。このアプローチを使用すると、一時的セキュリティ認証情報を作成して、Athena でクエリを実行する信頼できるユーザーに提供することができます。

Read More

SimilarWeb が、Amazon Athena と Upsolver を使って毎月数百テラバイトのデータを分析する方法

これは、SimilarWeb のデータ収集およびイノベーションチームのリーダーである Yossi Wasserman 氏の寄稿です。 SimilarWeb は、同社の説明によれば、「SimilarWeb は、インテリジェンス市場の先駆者であり、デジタル世界を理解するための標準です。SimilarWeb は、すべての地域のすべての業界のウェブサイトまたはモバイルアプリに関する詳細な情報を提供します。SimilarWeb は、マーケティング担当者、アナリスト、セールスチーム、投資家、エグゼクティブなどがデジタル世界で成功するために必要な洞察を活用して、企業が意思決定を行う方法を変えています。」 SimilarWeb は、デジタル世界全体で何が起こっているのかについての洞察を提供するマーケットインテリジェンスの会社です。何千社もの顧客がこれらの洞察を活用して、マーケティング、販売促進、投資決定などの戦略を強化する重要な判断を下しています。当社のソリューションがもたらす意思決定の重要性が、こうした情報を効果的に収集して使用する当社の能力を強調しています。 特に、私が率いているチームは SimilarWeb のモバイルデータ収集の監督を担当しています。現在、毎月数百 TB の匿名データを処理しています。 欠陥のあるデータや不完全なデータに基づいて顧客の洞察を提供することはできないので、データ収集プロセスは SimilarWeb にとって重要です。データ収集チームは、新しいタイプのデータ、パートナーの統合、全体的なパフォーマンスなどを可能な限り迅速に効率よく分析することを必要としています。チームは可能な限り早期に異常を特定し、対処することが不可欠です。このプロセスをサポートするツールは、大きな利点をもたらします。 SimilarWeb のモバイルデータ収集の技術的課題 数百 TB のデータが、異なるソースから毎月 SimilarWeb にストリーミングされます。データは複雑です。 数百のフィールドがあり、その多くは深くネストされており、null 値を持つものも数多く含まれています。データをきれいにし、正規化し、照会のために準備する必要があるため、こうした複雑さから技術的な課題が生じます。 最初の選択肢は、実行に数時間かかる毎日のバッチ処理で SimilarWeb のすべてのデータを処理する、既存のオンプレミス Hadoop クラスターを使用することでした。ビジネスクリティカルな監視にとって、24 時間の遅延は受け入れられません。 そこで、Hadoop を使用して新しいプロセスを開発することを検討しました。しかしながら、それには私たちのチームが毎日の作業から離れて、抽出、変換、ロード (ETL) ジョブのコーディング、スケール、維持に集中することが必要です。また、異なるデータベースを扱う必要があるため、チームが業務に集中する妨げともなります。そのため、チームのメンバー全員が新しいレポートを作成し、不一致を調査し、自動化されたテストを追加できるようなアジャイルソリューションが必要でした。 また、コンピューティングのボトルネックを引き起こした別個を数える問題もありました。別個を数える問題とは、反復要素を含むデータストリームで別個の要素の数を数えるのが難しいという問題です。たとえば、デバイス、オペレーティングシステム、国別など、数十億もの可能なセグメントの一意のビジター数を追跡します。別個を数えることは非加算的集約であるため、一意のビジターの正確な数を計算するには、通常、多くのメモリ集約型コンピューティングノードが必要です。 Amazon Athena を選んだ理由 こうした課題を解決するために、当社は Amazon Athena を選びました。  Athena が、もたらしたもの: SQL を使用する高速な照会 — 私たちのチームは SQL を使用してデータを照会したいと考えていましたが、従来の SQL […]

Read More

Pagely が、カスタマーサポートの分析を容易にするために AWS でサーバーレスデータレイクを実装

Pagely は、マネージド型 WordPress ホスティングサービスを提供する AWS アドバンスドテクノロジーパートナーです。当社の顧客は、使用、請求、サービスのパフォーマンスの可視性を向上させるために継続的に当社にプレッシャーをかけています。こうした顧客により良いサービスを提供するため、サービスチームは、アプリケーションサーバーが作成したログに効率的にアクセスする必要があります。 以前から、当社ではオンデマンドで基本的な統計を集めるシェルスクリプトを利用していました。最大の顧客のログを処理する場合、Amazon EC2 インスタンスで実行される最適化されていないプロセスを使用して 1 件のレポートを作成するのに 8 時間以上かかりました—時には、リソースの制限のためにクラッシュすることがありました。そこで、従来のプロセスの修正にさらに力を注ぐのではなく、適切な分析プラットフォームを実装する時が来たと判断しました。 当社の顧客のログはすべて、圧縮された JSON ファイルとして Amazon S3 に保存されています。Amazon Athena を使用して、これらのログに対して直接 SQL クエリを実行しています。データを準備する必要がないため、このアプローチは優れています。単にテーブルとクエリを定義するだけです。JSON は Amazon Athena でサポートされているフォーマットですが、パフォーマンスやコストに関して最も効率的なフォーマットというわけではありません。JSONファイルは、データの各行から 1 つまたは 2 つのフィールドを返すだけであってもその全体を読み取る必要があるので、必要以上に多くのデータをスキャンしなくてはなりません。さらに、JSON を処理するのが非効率であるため、クエリ時間が長くなります。 30 分のクエリタイムアウト限度に達したため、Athena で最大の顧客のログを照会することは理想的ではありませんでした。この制限を増やすことはできますが、クエリは既に必要以上に時間がかかるようになっていました。 この記事では、Pagely が AWS アドバンスドコンサルティングパートナーである Beyondsoft とどのように協力して、Beyondsoft が開発したオープンソースツールである ConvergDB を使用して DevOps 中心のデータパイプラインを構築したかについて説明します。このパイプラインでは、AWS Glue を使用してアプリケーションログを最適化されたテーブルに変換し、Amazon Athena を使用して迅速かつ費用対効果の高いクエリを実行できます。 Beyondsoft との協力 当社は、できるだけ少ないオーバーヘッドで、エンジニアがデータに簡単にアクセスできるようにするために何かを行う必要があることを知っていました。クエリ時間を短縮するために、データをより最適なファイル形式にしたいと考えていました。無駄のない企業なので、当社には技術を深く掘り下げる余裕はありませんでした。このギャップを克服するために、Beyondsoft と協力して、データレイクの最適化と管理に最善のソリューションを決定しました。 ConvergDB […]

Read More

Amazon EMR の Amazon S3 上の Apache HBase への移行: ガイドラインとベストプラクティス

このブログ記事では HDFS 上の Apache HBase から、Amazon EMR の Amazon S3 上の Apache HBase に移行する方法のガイダンスとベストプラクティスについて解説します。 Amazon EMR の Amazon S3 上の Apache HBase Amazon EMR のバージョン 5.2.0 以降では、Amazon S3 上で Apache HBase を実行できます。Apache HBase のデータストアとして Amazon S3 を使用することにより、クラスターのストレージとコンピューティングノードを分割できます。コンピューティング要件のためにクラスターのサイジングをすることになるので、コスト削減につながります。クラスター上の HDFS に 3 倍のレプリケーションでデータセット全体をストアするために料金を払うわけではありません。

Read More

Amazon QuickSight でメールレポートとデータラベルのサポートを開始

今日は、Amazon QuickSight でご利用いただけるようになった、メールレポートとデータラベルについてご紹介します。 メールレポート Amazon QuickSight のメールレポートでは、定期的および 1 回限りのレポートを受け取ることができます。このレポートはメールボックスに直接配信されます。メールレポートを使用することで、Amazon QuickSight アカウントにログインすることなく最新の情報にアクセスできます。また、メールレポートでデータにオフラインでアクセスすることもできます。より深く分析および考察するために、メールレポートをクリックするだけで、Amazon QuickSight のインタラクティブダッシュボードに移動できます。 メールを使用してレポートを送信する 作成者は Amazon QuickSight アカウント内でダッシュボードにアクセスできるユーザーに、1 回限りまたは定期的なメールレポートを送信するよう選択できます。受信者のユーザー設定に応じて、デスクトップまたはモバイルレイアウト用にメールレポートをカスタマイズできます。 ダッシュボード用にメールレポートを有効化するのは簡単です。ダッシュボードページで [Share] (共有) メニューにナビゲートし、[Email Report] (メールレポート) オプションを選択します。ダッシュボード上でメールレポートを送信する、またはスケジュールを変更するには、ダッシュボードの所有者か共有所有者である必要があります。 この画面ではスケジュール、メールの詳細 (たとえば、件名の行)、受信者のオプションを指定してメールレポートを構成できます。 メールレポートがダッシュボード用に有効化されたあとは、そのダッシュボードにアクセスできる全ユーザーが、メールレポートのサブスクリプションを登録または解除できます。また、受信者は自分のアカウント内でダッシュボードにナビゲートすることで、レイアウト設定 (モバイルまたはデスクトップ) を変更することもできます。また、作成者は書式設定とレイアウトが正しいかを確認するために、自分自身にテスト用のメールレポートを送信することもできます。 メールレポートがスケジュールされたあとは、指定された頻度とタイミングでレポートが配信されます。Amazon QuickSight ダッシュボードの所有者は、メールレポートの配信を一時停止したり、スケジュールされた配信とは別に 1 回限りのレポートを送信することもできます。何らかのエラーがあった、またはダッシュボードに関連付けられた、基となる SPICE データセットの更新に失敗した場合は、Amazon QuickSight は自動的にレポートの配信をスキップします。Amazon QuickSight はこのような場合、ダッシュボードの所有者にエラーレポートも送信します。 料金表: メールレポートは Amazon QuickSight Enterprise Edition でご利用いただけます。Amazon QuickSight の作成者の場合、メールレポートは毎月のサブスクリプション料金に含まれています。作成者は 1 か月間無制限でメールレポートを受け取ることができます。Amazon QuickSight の読者の場合、メールレポートの料金はセッション単位の料金モデルが適用されます。読者の場合、受信するメールレポート […]

Read More

Oracle データベースでの Amazon EBS エラスティックボリュームの使用 (パート 3): Oracle ASM を使ったデータベース

このブログシリーズのパート 1 とパート 2 では、Amazon EBS のエラスティックボリューム機能と、Oracle データベースのストレージレイアウトとの連携について説明します。オペレーティングシステムにあるファイルシステムおよび、データベースストレージ管理のための Logical Volume Managers (LVM) を使用するデータベースとのエラスティックボリュームについてお話しします。この記事では、Oracle Automated Storage Management (Oracle ASM) を使った Oracle データベース用 Amazon EC2 のストレージレイアウトについて解説します。可用性に影響を与えずに、データベースストレージを拡張する方法をご紹介します。また、Oracle データベースでエラスティックボリュームを使用する利点について、いくつかを検討します。 Oracle ASM を使用したデータベースのストレージ操作 このセクションでは、ストレージ管理のための Oracle ASM を使用した Oracle データベース用 Amazon EC2 のストレージレイアウトについてまず簡単に説明します。次に、エラスティックボリューム機能が導入される前に、ストレージの増強やプロビジョニングされた IOPS の変更など、Oracle データベースストレージの変更がどのように行われたかについて解説します。関連する課題についてもお話しします。最後に、ある例を参考に、エラスティックボリュームを使って、これらの問題をいくつか解決する方法を示します。 Oracle ASM を使用するデータベース用ストレージレイアウト Oracle ASM は、Oracle データベース用ストレージを管理するためのボリュームマネージャーです。これには、データベース専用に設計されたファイルシステムが含まれています。Oracle ASM は、ディスク全体にデータを分散し、一貫したパフォーマンスを約束します。また、ディスクの追加や削除などのストレージ構成の変更後に、自動的にデータを再調整することもできます。 Oracle ASM を使用する場合、1 つ以上の ASM ディスクを含む […]

Read More

Oracle データベースでの Amazon EBS エラスティックボリュームの使用 (パート2): LVMを 使ったデータベース

 このブログシリーズのパート 1 では、エラスティックボリュームの機能について検討します。また、データベースストレージとして LVM なしの単一の Amazon EBS ボリュームを使用するシンプルなデータベースである Oracle データベースストレージレイアウトについても検討します。この記事のパート 2 では、ストレージ管理に LVM を使用する Oracle データベースである Amazon EC2 のストレージレイアウトについて検討します。さらに、可用性に影響を与えることなくデータベースストレージを拡張する方法を示します。 LVM を使用したデータベースのストレージ操作 このセクションでは、ストレージ管理に LVM を使用する Oracle データベース向けの Amazon EC2 のストレージレイアウトについて簡潔に検討します。次に、プロビジョニングされたストレージを増やしたり、またプロビジョニングされた IOPS を変更するなど、 Oracle データベースストレージの変更が、エラスティックボリュームの導入前にどのように行われたかについて検討します。また、関連する課題についても取り扱います。最後に、エラスティックボリュームでこれら課題のうちのいくつかを解決する方法について例を挙げて示します。 LVM を使用するデータベースのストレージレイアウト データベースストレージ用に複数の EBS ボリュームが必要な大規模なデータベースの場合、LVM を使用してストレージを管理できます。このシナリオでは、ボリュームグループを作成し、ボリュームグループに EBS ボリュームを追加します。そして、ボリュームグループから論理ボリュームを作成し、論理ボリュームの上にファイルシステムを作成します。次の図は、LVM を使ったデータベースストレージレイアウトを示しています。 エラスティックボリュームのない Oracle データベースのストレージ操作 複数の EBS ボリュームとストレージ管理用の LVM を使用するシステム用にプロビジョニングされたストレージまたは IOPS を増やすために、新しい EBS ボリュームを作成します。そして、次の手順で新しい […]

Read More

AWS re:Invent 2018 で開催予定の Amazon DynamoDB セッション、ワークショップ、およびチョークトークのご案内

AWS re:Invent 2018 がもうすぐ開催されます! この記事には、AWS re:Invent 2018 で行われる、Amazon DynamoDB セッション、ワークショップ、チョークトークの全リストを掲載しています。この記事の情報で、今年のラスベガスでのコンファレンスウィークをうまくスケジューリングしましょう。上司を説得できず、まだ AWS re:Invent 2018 に登録していないのなら、こちらの出張の必要性についてのメモを読んでみてください。 レベル 200 – 入門 DAT201 – Amazon DynamoDB の新情報についてのディープダイブ これは、DynamoDB の総括的な新着情報のセッションです。新しく発表された機能を紹介し、エンドツーエンドから見た最新のイノベーションを提供します。お客様の成功事例やユースケースもシェアする予定です。DynamoDB の新機能について、一緒に学びましょう。 レベル 300 – 上級 DAT303 – 最大級に重要な資産 (つまり、あなたのデータ) の保護 : DynamoDB を使ったセキュリティベストプラクティス このセッションでは、DynamoDB に組み込まれているセキュリティ機能と、それらを使用してデータを保護する最善の方法を学びます。利用できるオプションを使って、テーブルへのアクセスとそのテーブルに格納されているコンテンツをどう制御するかを考えます。また、暗号化を使用してテーブルの内容を保護する方法と、データへのアクセスを監視する方法についても説明します。 DAT311-R – Amazon DynamoDB と AWS Lambda を使用したサーバーレスアプリケーションの構築 – ワークショップ形式 先進的デザインとベストプラクティスを使った、全く新しいタイプのワークショップです。このワークショップは、幅広い AWS サーバーレス製品のご紹介と、コンポーネントがどのように連携するかを実証します。このインタラクティブなワークショップでは、ある e コマース会社の発展を考察します。簡素なサーバレス製品カタログから始まって、1日のユーザー数が100万人に達する規模に成長し、その後、分析とほぼリアルタイムでのモニタリングを追加します。ワークショップを進めながら、DynamoDB や […]

Read More