Publicado: Dec 22, 2017
Agora você pode usar a integração do Apache Spark 2.2.1, do Apache Hive 2.3.2 e do Amazon SageMaker com o Apache Spark no Amazon EMR versão 5.11.0. O Spark 2.2.1 e o Hive 2.3.2 incluem várias correções de erros e aprimoramentos. Amazon SageMaker Spark é uma biblioteca Spark de código aberto para o Amazon SageMaker, um serviço totalmente gerenciado que pode compilar, treinar e implantar modelos de aprendizagem de máquina em escala. Ele permite intercalar as etapas do Spark e as etapas que interagem com o Amazon SageMaker em seus Spark ML Pipelines, permitindo treinar modelos com Spark DataFrames no Amazon SageMaker com algoritmos ML fornecidos pela Amazon, como clustering K-Means ou XGBoost.
Você pode criar um cluster do Amazon EMR com a versão 5.11.0 escolhendo a etiqueta de versão “emr-5.11.0” no Console de Gerenciamento da AWS, AWS CLI ou SDK. Você pode selecionar Spark e Hive para instalar esses aplicativos em seu cluster. A biblioteca Amazon SageMaker Spark é incluída automaticamente quando você instala o Spark. Consulte a documentação do Amazon EMR para obter mais informações sobre o versão 5.11.0, o Spark 2.2.1, Hive 2.3.2 e o com o Amazon SageMaker com o Spark.
Amazon EMR release 5.11.0 está disponível em todas as regiões com suporte para o Amazon EMR.