reInvent-emr-finra-thumbnail-2015
FINRA: Extending the S3 Data Lake to Apache HBase
aws-summit-emr-thumbnail-2016
Best Practices for Using Apache Spark on Amazon EMR
組織は、顧客に関する適切なインサイトと実用的なビジネスインテリジェンスを取得するために、ストリーミング分析、アドホッククエリ、予測分析など、ますます複雑になったデータ分析を行う必要があります。Apache Spark は、この課題の多くに対応するための最適なフレームワークとして最近登場しました。このセッションでは、AWS で Apache Spark を使用して、リアルタイムデータ処理、インタラクティブなデータサイエンス、予測分析など、一般的なビッグデータのユースケースを実装し、スケールする方法について説明します。また、Amazon EMR を使用して Spark クラスターをすばやく作成するための一般的なアーキテクチャやベストプラクティス、Spark とその他のビッグデータサービスを AWS で統合する方法についても説明します。学習目標: アドホックのインタラクティブな分析やリアルタイムのストリーム処理に Spark が適している理由を理解する。Amazon EMR で Spark を実行するスケーラブルなクラスターをデプロイし、調整する方法。EMR ファイルシステム (EMRFS) と Spark を使用して Amazon S3 で直接データのクエリを実行する方法。Amazon DynamoDB、Amazon Redshift、Amazon Kinesis などで Spark を利用するための一般的なアーキテクチャ。
reInvent-emr-justgiving-thumbnail-2016
JustGiving: Serverless Data Pipelines, ETL & Stream Processing
組織は、増え続ける IoT、アプリケーションプログラミングインターフェイス (API)、クリックストリーム、未構造化データおよびログデータソースからインサイトと知識を取得する必要があります。ただし、組織は多くの場合、トランザクションデータに合わせて設計されたレガシーデータウェアハウスと ETL プロセスによる制限を受けます。自動化された ETL (抽出、変換、ロード) と機械学習プロセスを使用して、スケーラブルなビッグデータパイプラインを構築することで、この制限に対応できます。JustGiving は、世界最大のオンライン寄付のソーシャルプラットフォームです。このセッションでは、RAVEN という社内のデータサイエンスプラットフォームとして、複数のスケーラブルで疎結合のイベント駆動型 ETL と ML パイプラインをどのように作成したかについて説明します。AWS Lambda、Amazon S3、Amazon EMR、Amazon Kinesis などのサービスを利用して、サーバーレスでイベント駆動型のデータとストリームの処理パイプラインを組織内に構築する方法を理解できます。AWS Lambda を使用したサーバーレスのビッグデータアーキテクチャに重点を置き、一般的な設計パターン、学んだ教訓、ベストプラクティスについて確認します。