reInvent-emr-finra-thumbnail-2015
FINRA: Extending the S3 Data Lake to Apache HBase
aws-summit-emr-thumbnail-2016
Best Practices for Using Apache Spark on Amazon EMR
Les entreprises ont besoin de réaliser des analyses de plus en plus complexes de données (analyses en streaming, requêtes ad hoc et analyses prédictives) afin d'avoir une meilleure connaissance de ses clients et une informatique décisionnelle concrète. Apache Spark est récemment devenu le framework de référence pour faire face à nombre de ces défis. Dans cette session, nous vous montrons comment utiliser Apache Stark sur AWS pour implémenter et mettre à l'échelle les études de cas du Big Data, comme le traitement des données en temps réel, la science des données interactives, les analyses prédictives, etc. Nous allons aborder les architectures communes, les bonnes pratiques pour créer rapidement des clusters Spark en utilisant Amazon EMR, ainsi que des manières d'intégrer Spark à d'autres services Big Data dans AWS. Objectifs d'apprentissage : se rendre compte du potentiel de Spark pour les analyses interactives ad hoc et le traitement de flux en temps réel ; déployer et ajuster des clusters scalables exécutant Spark sur Amazon EMR ; comment utiliser le système de fichiers EMR (EMRFS) avec Spark pour interroger des données directement dans Amazon S3 ; connaître les architectures communes pour tirer profit de Spark avec Amazon DynamoDB, Amazon Redshift, Amazon Kinesis, etc.
reInvent-emr-justgiving-thumbnail-2016
JustGiving: Serverless Data Pipelines, ETL & Stream Processing
Les organisations ont besoin de gagner en vision et en connaissances en se basant sur un nombre grandissant d'éléments de l'Internet des Objets (IoT), de parcours de navigation, d'interfaces de programmation applicatives (API), ainsi que de sources de données non structurées et de journaux. Cependant, les organisations sont souvent limitées par les entrepôts de données antérieurs et les processus ETL qui ont été conçus pour les données transactionnelles. La conception de pipelines scalables de Big Data avec des processus ETL (extract-transform-load) et d'apprentissage machine automatisés permet de dépasser ces limites. JustGiving est la plus grande plateforme sociale au monde pour la donation en ligne. Dans cette session, nous décrivons comment nous avons créé plusieurs pipelines ML et ETL pilotés par les événements, couplés, libres et scalables. Ces pipelines font partie de notre plateforme de science des données interne, appelée RAVEN. Vous apprenez comment tirer profit d'AWS Lambda, d'Amazon S3, d'Amazon EMR, d'Amazon Kinesis et d'autres services pour concevoir des pipelines de traitement de flux et de données sans serveur et pilotés par les événements au sein de votre organisation. Nous révisons des modèles de conception communs, les leçons apprises ainsi que les bonnes pratiques, en nous intéressant particulièrement aux architectures Big Data sans serveur avec AWS Lambda.