Publicado en: Dec 22, 2017

Ahora puede usar Apache Spark 2.2.1, Apache Hive 2.3.2 y la integración de Amazon SageMaker con Apache Spark en Amazon EMR versión 5.11.0. Spark 2.2.1 y Hive 2.3.2 incluyen varias correcciones de errores y mejoras. Amazon SageMaker Spark es una biblioteca de Spark de código abierto para Amazon SageMaker, un servicio totalmente administrado que le permite compilar, entrenar e implementar modelos de aprendizaje automático según sus necesidades. Le permite intercalar etapas de Spark y etapas que interactúen con Amazon SageMaker en sus canalizaciones de ML de Spark, con lo que podrá entrenar modelos mediante Spark DataFrames en Amazon SageMaker con algoritmos de aprendizaje automático facilitados por Amazon como agrupación en clústeres K-Means o XGBoost.

Puede crear un clúster de Amazon EMR con la versión 5.11.0 eligiendo la etiqueta de versión “emr-5.11.0” de la consola de administración de AWS, la CLI de AWS o el SDK. Puede seleccionar Spark y Hive para instalar estas aplicaciones en el clúster. La biblioteca de Amazon SageMaker Spark se incluye automáticamente cuando instala Spark. Consulte la documentación de Amazon EMR para obtener más información acerca de la versión 5.11.0, Spark 2.2.1, Hive 2.3.2 y el uso de Amazon SageMaker con Spark

Amazon EMR versión 5.11.0 está disponible en todas las regiones admitidas con Amazon EMR