Publicado en: Oct 1, 2021
Ahora puede utilizar marcos de código abierto, como Apache Spark, Apache Hive y Presto, ejecutándose en clústeres de Amazon EMR directamente desde blocs de notas de Amazon SageMaker Studio para ejecutar análisis de datos a escala de petabyte y machine learning. Amazon EMR instala y configura automáticamente marcos de código abierto y brinda un tiempo de ejecución optimizado para el rendimiento compatible y más rápido que el estándar de código abierto. Por ejemplo, Spark 3.0 en Amazon EMR es 1,7 veces más rápido que su equivalente de código abierto. Amazon SageMaker Studio proporciona una única interfaz visual basada en la web donde se pueden realizar todos los pasos de desarrollo de ML necesarios para preparar los datos, así como crear, formar e implementar los modelos. Analizar, transformar y preparar grandes cantidades de datos es un paso fundamental de cualquier ciencia de datos y flujo de trabajo de ML. Este lanzamiento hace que sea sencillo utilizar marcos populares, como Apache Spark, Hive y Presto, ejecutándose en clústeres de EMR directamente desde SageMaker Studio para simplificar los flujos de trabajo de ciencia de datos y ML.
Gracias a este lanzamiento, ahora puede examinar de manera visual una lista de clústeres de EMR directamente desde SageMaker Studio y conectarlos con tan solo unos clics. Una vez conectado a un clúster de EMR, puede utilizar Spark SQL, Scala, Python y HiveQL para consultar, explorar y visualizar datos de manera interactiva, además de poder ejecutar trabajos de Apache Spark, Hive y Preso para procesar datos. Los trabajos se ejecutan con rapidez ya que utilizan versiones optimizadas para el rendimiento de EMR de Spark, Hive y Presto. Además, los clústeres se pueden escalar horizontal o verticalmente según las cargas de trabajo e integrarse con instancias de spot y procesadores basados en Graviton2 para reducir costos. Por último, los usuarios de Sagemaker Studio pueden autenticarse cuando se conecten a clústeres de Amazon EMR mediante credenciales basadas en LDAP o Kerberos.
Estas características son totalmente compatibles con EMR 5.9.0 y superior, y están disponibles de manera general en todas las regiones de AWS donde SageMaker está disponible. Para obtener más información, vea la demostración Procesamiento de datos interactivos en Amazon EMR desde Amazon SageMaker, lea la publicación de blog Realizar flujos de trabajo de ingeniería de datos interactiva y ciencia de datos desde blocs de notas de Amazon SageMaker Studio o la documentación de SageMaker Studio aquí.