Apache Spark es un sistema de procesamiento distribuido de código abierto que se usa con frecuencia para cargas de trabajo de big data. Apache Spark utiliza el almacenamiento en caché en memoria y la ejecución optimizada para ofrecer un desempeño rápido, y es compatible con el procesamiento general por lotes, el análisis de transmisiones, el aprendizaje automático, las bases de datos de gráficos y las consultas ad-hoc. 

Apache Spark en Hadoop YARN dispone de compatibilidad nativa con Amazon EMR. Además, puede crear de forma rápida y sencilla clústeres de Apache Spark administrados a través de la consola de administración de AWS, la CLI de AWS o la API de Amazon EMR. Asimismo, puede utilizar características adicionales de Amazon EMR, incluida la conectividad rápida con Amazon S3 mediante el sistema de archivos de Amazon EMR (EMRFS), la integración con el mercado de capacidad puntual de Amazon EC2 y el catálogo de datos de AWS Glue y Auto Scaling para agregar o eliminar instancias de su clúster. Además, puede usar Apache Zeppelin para crear cuadernos colaborativos e interactivos y explorar datos mediante el uso de Apache Spark, y usar marcos de aprendizaje profundo, como Apache MXNet, con sus aplicaciones de Spark.

Spark-logo-192x100px
S3_Sketch_Available

Al utilizar un motor de ejecución de gráficos acíclicos dirigidos (DAG), Apache Spark puede crear planes de consultas eficaces para transformaciones de datos. Apache Spark también almacena datos de entrada, de salida e intermedios en la memoria como conjuntos de datos distribuidos resistentes (RDD), lo que facilita un procesamiento rápido sin costos de E/S y mejora el desempeño de cargas de trabajo iterativas o interactivas.

S3_Sketch_HighPerformance

Apache Spark dispone de compatibilidad nativa con Java, Scala y Python, con lo que dispone de diversos lenguajes para crear sus aplicaciones. Además, puede enviar consultas SQL o HiveQL a Apache Spark a través del módulo Spark SQL. Además de ejecutar aplicaciones, puede usar el API de Apache Spark de forma interactiva con Python o Scala directamente en el shell de Apache Spark en su clúster. También puede utilizar Zeppelin para crear cuadernos interactivos y colaborativos con el fin de analizar y visualizar datos. Además, puede ajustar y depurar sus cargas de trabajo mediante el historial de aplicaciones de Spark en la consola de Amazon EMR o la interfaz nativa de Spark y el servidor de historiales de su clúster.

S3_Sketch_Simple

Apache Spark incluye varias bibliotecas para ayudar a crear aplicaciones de aprendizaje automático (MLlib), procesamiento de transmisiones (Spark Streaming) y procesamiento de gráficos (GraphX). Estas bibliotecas se integran a la perfección con el ecosistema de Apache Spark y se pueden utilizar tal y como están para diversos casos de uso. Además, puede usar marcos de aprendizaje profundo, como Apache MXNet, con sus aplicaciones de Spark.

Benefit_Workflow_Green

Envíe trabajos de Apache Spark con la API Step de Amazon EMR, use Apache Spark con EMRFS para acceder a datos directamente en Amazon S3, ahorre costos con la capacidad puntual de Amazon EC2, use Auto Scaling para agregar y eliminar capacidad dinámicamente e implemente clústeres de corta o larga ejecución en función de su carga de trabajo. También puede configurar de forma sencilla el cifrado en Spark y la autenticación con Kerberos mediante una configuración de seguridad de Amazon EMR. Además, puede usar el catálogo de datos de AWS Glue para almacenar metadatos de tabla de Spark SQL. Amazon EMR instala y administra Apache Spark en Hadoop YARN, y puede añadir otras aplicaciones del ecosistema de Hadoop en su clúster. Haga clic aquí para obtener más información sobre las características de Amazon EMR.


Yelp

El equipo de publicidad de Yelp realiza modelos de predicción para determinar las probabilidades de que un usuario interactúe con un anuncio. Al usar Apache Spark en Amazon EMR para procesar grandes cantidades de datos y perfilar los modelos de aprendizaje automático, Yelp incrementó sus ingresos y la tasa de clics en los anuncios.

The Washington Post

The Washington Post usa Apache Spark en Amazon EMR para crear modelos que potencian el motor de recomendaciones de su sitio web para incrementar la participación y satisfacción de los lectores. Utilizan la conectividad de alto desempeño de Amazon EMR con Amazon S3 para actualizar los modelos en tiempo real.

Intent Media

Intent Media posee una plataforma de publicidad en sitios de comercio de viajes. El equipo de datos utiliza Apache Spark y MLlib en Amazon EMR para recibir terabytes de datos de comercio electrónico todos los días y utilizar la información para potenciar sus servicios de decisión y optimizar los ingresos de los clientes. Haga clic aquí para obtener más información.

Krux

Como parte de su plataforma de administración de datos de información de los clientes, Krux ejecuta cargas de trabajo de aprendizaje automático y procesamiento general con Apache Spark. Krux utiliza clústeres de Amazon EMR de corta ejecución con la capacidad puntual de Amazon EC2 para ahorrar costos, así como Amazon S3 con EMRFS como capa de datos de Apache Spark.

Más información »

GumGum

GumGum, una plataforma de publicidad en pantalla y en imagen, usa Spark en Amazon EMR para predecir inventarios, procesar los registros de secuencias de clics y realizar análisis específicos de datos no estructurados en Amazon S3. Las mejoras en el desempeño que facilita Spark han permitido a GumGum ahorrar tiempo y dinero en estas cargas de trabajo.
 

Más información »

Hearst Corporation

Hearst Corporation, una compañia diversificada de medios e información de gran tamaño, cuenta con clientes que ven contenido de más de 200 propiedades en la web. Gracias a Apache Spark Streaming en Amazon EMR, el personal editorial de Hearst puede observar en tiempo real los artículos que tienen buena aceptación y los temas que son tendencia.
 

Más información »

CrowdStrike

CrowdStrike proporciona protección de extremos para evitar el acceso no autorizado. Utiliza Amazon EMR con Spark para procesar cientos de terabytes de datos de eventos y convertirlos en descripciones de comportamiento de alto nivel en los hosts. A partir de esos datos, CrowdStrike puede reunir datos de eventos y detectar la presencia de actividad maliciosa.
 

Más información »


Reciba y procese datos en tiempo real de Amazon Kinesis, Apache Kafka u otras transmisiones de datos con Spark Streaming en Amazon EMR. Realice el análisis de las transmisiones de forma tolerante a fallos y escriba los resultados en Amazon S3 o HDFS en clúster.

 

Apache Spark en Amazon EMR incluye MLlib para ofrecer una variedad de algoritmos de aprendizaje automático escalable, o también puede usar sus propias bibliotecas. Al almacenar conjuntos de datos en la memoria durante un trabajo, Spark ofrece un desempeño excelente en consultas iterativas comunes en cargas de trabajo de aprendizaje automático.

 

 

Use Spark SQL para consultas interactivas de baja latencia con SQL o HiveQL. Apache Spark en Amazon EMR puede usar EMRFS, de forma que disponga de acceso ad-hoc a sus conjuntos de datos en Amazon S3. Además, puede utilizar cuadernos de Zeppelin o herramientas de inteligencia empresarial a través de conexiones ODBC y JDBC.