Amazon Web Services ブログ

Category: Analytics

ironSource が多目的データレイクを Upsolver、Amazon S3、および Amazon Athena で構築する方法

ironSourceは、独自の言葉で言えば、アプリ内の収益化と動画広告の主要なプラットフォームで、世界中の 15 億人を超える人々が無料でプレイおよび使用できるようにしています。 ironSource は、業界最大のアプリ内動画ネットワークなどを含めて、アプリ開発者がアプリを次のレベルに引き上げることを支援します。80,000 を超えるアプリが ironSource テクノロジーを使用して、ビジネスを成長させています。 ironSource がさまざまな収益化プラットフォーム(アプリ、ビデオ、メディエーションを含む)にわたって動作する巨大な規模は、膨大な量のストリーミングデータを生成する数百万のエンドデバイスにつながります。インフラストラクチャとエンジニアリングのオーバーヘッドを最小限に抑える一方で、複数のユースケースをサポートするために、データを収集、保存、準備する必要があります。 この記事では以下について説明します。 ironSource が Amazon S3 に基づくデータレイクアーキテクチャを選択した理由。 ironSource が Upsolver を使用してデータレイクを構築する方法 Amazon Athena、Amazon ES、および Tableau などのアナリティックサービスに対して出力を作成する方法。 このソリューションの利点 データレイクアーキテクチャの利点 データベースに焦点をあてたアプローチで数年間仕事をした後で、ironSource のデータは以前のシステムをコストとメンテナンスの観点で、実行不可能にしました。代わりに、生イベントデータをオブジェクトストレージに保管し、複数のアプリケーションとアナリティックフローに対応してカスタマイズされた出力ストリームを作成するデータレイクアーキテクチャを採用しました。 ironSource が AWS データレイクを選択した理由 データレイクは以下の理由で ironSource の正しいソリューションでした。 規模 – ironSource は、1 秒あたり 50 万件のイベントと毎日 200 億件を超えるイベントを処理しています。S3 でほぼ無限の量のデータを、データの事前処理なしで保管する能力は重要です。 柔軟性 – ironSource は複数のビジネスプロセスをサポートするデータを使用します。同じデータを複数のサービスにフィードして、異なるユースケースを提供することが必要なため、会社はデータベースアプローチによりもたらされる堅牢姓とスキーマ―の制限をバイパスすることが必要でした。代わりに、元のデータを S3 に保管して、臨時の出力と変換を必要に応じて作成します。 弾力性 – すべての履歴データが […]

Read More

【開催報告】Amazon Analytics 事例祭り – データウェアハウスマイグレーション

こんにちは。アマゾン ウェブ サービス ジャパン株式会社 ソリューションアーキテクトの平間です。 9月24日に、「Amazon Analytics 事例祭り – データウェアハウスマイグレーション」を開催いたしました。今回は既存のデータウェアハウス(DWH)環境から、AWSの高速かつ完全マネージド型のDWHであるAmazon Redshiftへ移行されたお客様に、移行の決め手や移行後の効果について「本音」でお話ししていただきました。セミナーは前半がAWSソリューションアーキテクトからAWSのデータレイク及びアナリティクスサービスの概要と、DWHの移行をどのように検討すればよいかの方法をお話させていただき、後半はお客様より移行時の体験談をお話しいただいております。

Read More

【開催報告】第9回 AWS Data Lake ハンズオンセミナー

こんにちは。AWS ソリューションアーキテクトの上原誠(@pioh07)です。 9月27日に、「AWS Data Lake ハンズオンセミナー」を開催いたしました。去年から行ってきた恒例のワークショップで第9回目となります。去年から引き続き盛況で、今回も80名以上のお客様にご参加頂きました。 はじめに、AWSにおけるデータ活用のベストプラクティスである Amazon S3 を中心とした Data Lake について解説し、ビッグデータ分析基盤の考え方として有名なラムダアーキテクチャの解説を行いました。 当イベントでは、Amazon Athena や Amazon Redshift の各 AWS サービスを駆使して実際にラムダアーキテクチャを構築することがゴールです。とはいえ全てを構築するのはボリュームが大きいため、スピードレイヤー or バッチレイヤー or 全部入りでコース分けて取り組めるようハンズオンコンテンツを用意しました。最初にコースの説明を行い、出席いただいたお客様ご自身の課題に合わせてコースを選択頂き、ハンズオンを行っていただきました。今回、参加者も多くいらっしゃいましたので、サポートするソリューションアーキテクトも7名で対応させていただきました。 今回参加できなかった方も、ソリューションアーキテクトのサポートを受けながらハンズオンを行いログ分析を初めてみてはいかがでしょうか? 次回はハロウィンも待ち遠しい11月に開催予定です。ご参加お待ちしております。

Read More

MIMIC-III データと Amazon Athena を使用して、データベースなしでバイオメディカルインフォマティクスを実行

バイオメディカル研究者は、正確で詳細なデータにアクセスする必要があります。MIT MIMIC-III データセットは人気のあるリソースです。Amazon Athena を使用すると、最初にデータをデータベースにロードすることなく、MIMIC-III に対して標準 SQL クエリを実行できます。分析は常に MIMIC-III データセットの最新バージョンを参照します。 この投稿では、Athena で MIMIC-III データセットを使用可能にし、AWS の MIMIC-III 分析環境への自動アクセスを提供する方法について説明します。また、従来のデータベースを使用した MIMIC-III リファレンスバイオインフォマティクス研究と、Athena を使用した同じ研究を比較します。 概要 長期にわたって多くの患者のさまざまな測定値をキャプチャするデータセットは、研究の発見と改善された臨床的判断に分析と機械学習を用いて推進できます。これらの機能は、MIT 計算生物学研究所 (LCP) MIMIC-III データセットについて記述しています。LCP 研究者の発言: 「MIMIC-III は、2001 年から 2012 年にかけてベスイスラエルメディカルセンターの救命治療室に入院した患者約 6 万人の匿名化された健康関連データを含む、大規模な公開データベースです。MIMIC は、疫学、臨床的判断ルールの改善、電子ツールの開発に及ぶさまざまな分析研究をサポートしています。中でも 3 つの要因に注目したいと思います。まず、公開的かつ自由に利用可能で、ICU 患者の多様で大規模な集団を含みます。そして実験結果、電子文書、ベッドサイドモニターの傾向と波形を含む高時間解像度データを包含します」

Read More

AWS Lake Formation でメタデータを見つける: パート 2

データレイクは、構造化データおよび非構造化データの両方を集計、保存、分析する方法としてますます定評が高まっています。AWS Lake Formation を使用すると、データレイクの設定、セキュリティ保護、管理が簡単になります。 このシリーズのパート 1 では、Lake Formation を使用してデータレイクを作成および探索する方法を学びました。この投稿では、コンソールにある Lake Formation のメタデータ検索機能を使ってのデータ検出、さらに列のアクセス許可が制限するメタデータ検索結果について説明します。 前提条件 この記事では、以下が必要です。 AWS アカウント。 Amazon S3、AWS Glue、AWS Lake Formation にアクセスできる AWS Identity and Access Management (IAM) ユーザー。 コンソールでのメタデータ検索 この投稿では、Lake Formation コンソールが提供するカタログ検索機能のデモを行います。 分類による検索 キーワードによる検索 タグによる検索: 属性 複数の フィルター検索 分類による検索 メタデータカタログ検索機能を使用して、データレイク内のすべてのテーブルを検索します。2 つは名前 amazon_reviews を共有しますが、シミュレートされた「prod」と「test」データベースに別々に属します。3 つ目は trip-data です。 Lake Formation コンソールの [Data catalog] で、[Tables] をクリックします。 検索バーの […]

Read More

[AWS Black Belt Online Seminar] AWS Glue 資料及び QA 公開

先日 (2019/8/6) 開催しました AWS Black Belt Online Seminar「AWS Glue」の資料を公開しました。当日、参加者の皆様から頂いた QA の一部についても共有しております。     20190806 AWS Black Belt Online Seminar AWS Glue from Amazon Web Services Japan AWS クラウドサービス活用資料集(すべての過去資料が閲覧できます) Q. データソースをクロールする際にデータソース側で開放するポートはなんですか? A. データソースがVPC内に存在するRDSやRedshiftの場合、クローラーからアクセスするためには「すべての TCP ポート」に対して自己参照のインバウンドルールを持つセキュリティグループを指定します。自己参照ルールを作成することで、ソースを VPC 内の同じセキュリティグループに制限することができる為、ネットワーク全体には公開されません。なお、VPCのデフォルトのセキュリティグループには、すでに ALL Traffic (すべてのトラフィック) の自己参照インバウンドルールがある場合があります。 また、オンプレミスのデータベースを使用する場合、接続するデータベースのポートおよびネットワークへのアクセスができるように、ファイアウォールを設定していただく必要があります。下記、参考URLをご確認ください。 ・JDBC データストアに接続するための VPC の設定はこちら ・How to access and analyze on-premises data stores using AWS […]

Read More

AWS Lake Formation でメタデータを見つける: パート 1

データレイクは、構造化データと非構造化データの両方を保存および分析する単一のリポジトリを作成する方法として、ますます定評が高まっていますAWS Lake Formation を使用すると、データレイクの設定、セキュリティ保護、管理が簡単になります。この記事では、Lake Formation を使用したデータレイクの作成と探索について説明します。 データレイクの作成 o  データレイクへのデータの追加 o  カタログデータベースの作成 o  Amazon S3 からカタログデータベースへのテーブルの追加 カタログ内でのメタデータの編集および追加 o  標準メタデータの編集 o  カスタムメタデータの追加 前提条件 この記事では、以下が必要です。 AWS アカウント。 Amazon S3、AWS Glue、AWS Lake Formation にアクセスできる AWS Identity and Access Management (IAM) ユーザー。 データレイクを作成する AWS Lake Formation コンソールの左側のナビゲーションペインで、[Register and ingest]、[Data lake locations] を選択します。単一の S3 バケットを選択して、データレイクで複数の独立したデータソースを保存します。詳細については、AWS Lake Formation とはを参照してください。 データレイクにデータを追加する これで、Lake Formation […]

Read More

AWS Lake Formation でデータレイクを構築、保護、管理

データレイクとは、複数の分析アプローチおよびグループによる分析向けの、多様なデータタイプの集中型ストアです。多くの組織がデータをデータレイクに移行させています。この記事では、AWS Lake Formation を使用してデータレイクを構築、保護、管理する方法を紹介します。 従来、組織は、オンプレミスデータウェアハウスアプライアンスといった柔軟性に欠ける単一目的用のシステムにデータを保持していました。同様に、事前定義済み BI レポートといった単一の方法でデータを分析してきました。データベース間でデータを移行する、または機械学習 (ML、machine learning) や即席の SQL クエリ実行といったさまざまなアプローチでの使用に向けてデータを移行する際には、分析に先んじて “抽出、変換、ロード” (ETL、extract, transform, load) 処理を行う必要がありました。こうした従来の手法は、うまくいったとしても非効率的で遅延がつきものでした。そして最悪の場合には、セキュリティが複雑化します。 対照的に、クラウドベースのデータレイクを利用すると、より柔軟な分析に構造化データおよび非構造化データを使用できるようになります。IT スタッフは、規模を問わずデータを前もって集計、整理、準備、保護できます。そして、アナリストおよびデータサイエンティストは、適切な使用ポリシーに準拠しながら、準備されたデータにお好みの分析ツールでアクセスできます。 データレイクを使用すると、複数の分析手法を組み合わせて、従来のデータストレージおよび分析では不可能だった価値あるインサイトの取得を実現できます。ある小売シナリオでは、ML を用いた手法によって、詳細な顧客プロフィールが検出されたほか、ウェブブラウジング操作、購入履歴、サポート記録、さらにはソーシャルメディアから収集された個人特定に繋がらないデータに基づくコホートが検出されました。これは、リアルタイムの、ストリーミングされる、インタラクティブな顧客データにデプロイされた ML モデルの実例です。 こうしたモデルは、買い物かごを分析して瞬時に “次のおすすめ商品” を提示したり、即座に販売促進策を実施したりといったことに成功しました。マーケティングとサポートのスタッフは、顧客の収益性と満足度をリアルタイムに調査し、新しい売上向上策を立案できました。データレイクを使用すると、このような分析手法の組み合わせにより多様なデータストリームを統合して、データサイロからは得られないインサイトを取得できます。 データレイク構築の課題 残念ながら、データレイクの構築、保護、管理の開始は、複雑で時間のかかるプロセスであり、しばしば数か月を要します。 クラウド上でのデータレイク構築にも、時間のかかる多くの手動の手順が必要です。 ストレージのセットアップ。 データの移行、クリーニング、準備、カタログ化。 各サービスのセキュリティポリシーの設定および適用。 ユーザーに対するアクセス権限の手動での付与。 複数のサービスで処理および分析ができるよう、データをデータレイクで集中管理したいとお考えでしょう。しかし、環境の整備と保護には忍耐が必要です。 現在、IT スタッフおよびアーキテクトは、データレイクの作成、セキュリティの設定、データリクエストへの応答に、膨大すぎる時間を費やしています。これらの人員が、データリソースのキュレーターとして、またはアナリストとデータサイエンティストのアドバイザーとしてこの時間を使えるようになるでしょう。アナリストおよびデータサイエンティストは、必要なデータへのアクセスを、このセットアップが終わるまで待たなければなりません。 次の図はデータレイクのセットアッププロセスを示しています。 ストレージのセットアップ データレイクには膨大な量のデータが保持されます。何よりもまず、その全データを保持するストレージをセットアップする必要があります。AWS を利用中の場合、Amazon S3 バケットとパーティションを設定します。オンプレミスでデータレイクを構築する場合、ハードウェアを調達して、全データを保存するための大規模ディスクアレイをセットアップします。 データの移行 オンプレミスおよびクラウド上のさまざまなデータソースに接続し、IoT デバイス上のデータを収集します。次に、それらのソースから関連データセットを収集して整理し、データをクロールしてスキーマを抽出し、カタログにメタデータタグを付加します。次のような一連のファイル転送ツールや ETL ツールを使用できます。 AWS Glue AWS Database Migration Service (AWS DMS) Amazon […]

Read More

Amazon ES、Amazon Athena、および Amazon QuickSight を使用して AWS WAF ログを分析する

これで AWS WAF に、サービスによって検査されたすべてのウェブリクエストをログに記録する機能が追加されました。AWS WAF は同じリージョンの Amazon S3 バケットにこれらのログを保存できますが、ほとんどのお客様は、アプリケーションをデプロイする場合はいつでも、複数のリージョンにわたって AWS WAF をデプロイします。ウェブアプリケーションのセキュリティを分析するとき、組織はデプロイされたすべての AWS WAF リージョンにわたって全体像を把握する能力を必要とします。 この記事では、AWS WAF ログを中央データレイクリポジトリに集約するための簡単なアプローチを紹介します。これにより、チームは組織のセキュリティ体制をよりよく分析し、理解することができます。 リージョンの AWS WAF ログを専用の S3 バケットに集約する手順を説明します。ログデータを視覚化するために Amazon ES をどのように使用することができるかを実演することによってこれをフォローアップします。 また、AWS Glue ETL を使用して履歴データをオフロードして処理するためのオプションも提示します。データが 1 か所に収集されたところで、Amazon Athena および Amazon QuickSight を使用して履歴データをクエリし、ビジネス上の洞察を抽出する方法を最後に示します。 アーキテクチャの概要 この記事では、クライアント IP アドレスによる分散サービス拒否 (DDoS) 攻撃を識別するための AWS WAF アクセスログをフォレンジックに使用するケースに焦点を当てます。このソリューションにより、セキュリティチームは、インフラストラクチャ内のすべての AWS WAF にヒットしたすべての受信リクエストのビューが得られます。 IP アクセスパターンが時間の経過とともにどのように見えるのかを調べ、短期間にどの IP アドレスがサイトに複数回アクセスしているのかを評価します。このパターンは、IP アドレスが攻撃者になる可能性があることを示唆しています。 このソリューションを使用すると、単一のアプリケーションに対する DDoS 攻撃者を特定し、お客様の世界中の […]

Read More

AWS Glue を使用して Salesforce.com データを抽出し、Amazon Athena で分析する

Salesforce は、広く使用されている人気の高い顧客関係管理 (CRM) プラットフォームです。連絡先情報、取引先、見込み客、販売機会など、見込み客やお客様の情報を 1 か所にまとめて管理できます。Salesforce に保存されている見込み客情報を、データレイク内の他の構造化データおよび非構造化データと組み合わせることで、多くの有用な情報を引き出すことができます。 この記事では、AWS Glue を使用して Salesforce.com アカウントオブジェクトからデータを抽出し、それを Amazon S3 に保存する方法を説明します。次に、Amazon Athena を使用して、Salesforce.com のアカウントオブジェクトデータと別の注文管理システムの注文データを結合してレポートを生成します。 データを準備する 無料の Salesforce.com アカウントにサインアップすると、多数の Salesforce.com オブジェクトが入った少数のサンプルレコードが付いてきます。AWS Glue コードの SOQL クエリを変更することで、組織の開発用 Salesforce.com アカウントを使用して、同時に複数のオブジェクトからデータを取得できます。これらのオブジェクトからデータを抽出する方法を示すため、Account オブジェクトのみを使用してクエリを単純なものにします。 Amazon Athena を使用して Salesforce.com データを別のシステムのデータと結合する方法を示すために、注文管理システムから出される注文を示すサンプルデータファイルを作成します。 AWS Glue ジョブを設定する Apache Spark と Salesforce.com を接続するため、オープンソースの springml ライブラリを使用します。このライブラリには、Apache Spark フレームワークを使用して Salesforce.com オブジェクトの読み取り、書き込み、および更新を可能にする便利な機能が多数付属しています。 springml GitHub リポジトリから JAR ファイルをコンパイルするか、Maven […]

Read More