reInvent-emr-justgiving-thumbnail-2016
JustGiving: Serverless Data Pipelines, ETL & Stream Processing
Las organizaciones necesitan obtener información y conocimiento a partir de un creciente número de dispositivos compatibles con Internet de las cosas (IoT), interfaces de programación de aplicaciones (API), transmisiones de clics, orígenes de datos de logs y no estructurados. Sin embargo, a menudo las organizaciones están limitadas por procesos de ETL y data warehouses que se diseñaron para datos transaccionales. La creación de canalizaciones de big data de escala ajustable con procesos de aprendizaje automático y de extracción, transformación y carga (ETL) puede resolver estas limitaciones. JustGiving es la plataforma social más grande del mundo para realizar donaciones online. En esta sesión, describimos cómo creamos varias canalizaciones de aprendizaje automático y procesos ETL basados en eventos de estructura flexible y escala ajustable como parte de nuestra plataforma de ciencia de datos llamada RAVEN. Aprenderá cómo utilizar AWS Lambda, Amazon S3, Amazon EMR, Amazon Kinesis y otros servicios para crear canalizaciones de procesamiento de transmisiones y datos basadas en eventos y sin servidor en su organización. Analizamos patrones de diseño comunes, lecciones aprendidas y prácticas recomendadas, con un enfoque en arquitecturas de big data sin servidor con AWS Lambda.