Publicado en: Dec 1, 2021
Amazon SageMaker Studio es el primer entorno de desarrollo completamente integrado (IDE) para machine learning (ML). Proporciona una única interfaz visual basada en la web donde se pueden llevar a cabo todos los pasos de desarrollo de ML necesarios para preparar los datos, así como crear, formar e implementar los modelos. Presentamos recientemente la posibilidad de navegar y conectarse visualmente a los clústeres de Amazon EMR directamente desde el bloc de notas de SageMaker Studio. A partir de hoy y mediante un solo clic, puede monitorear y depurar los trabajos de Apache Spark que se ejecutan en EMR directamente desde los blocs de notas de SageMaker Studio. Además, ahora puede descubrir, conectarse a, crear, terminar y administrar clústeres de EMR directamente desde SageMaker Studio. Por lo tanto, la integración incorporada con EMR le permite llevar a cabo una preparación de datos interactiva y machine learning a escala de petabytes directamente dentro del único bloc de notas universal de SageMaker Studio.
Analizar, transformar y preparar grandes cantidades de datos es un paso fundamental de cualquier ciencia de datos y flujo de trabajo de ML. Para la preparación rápida de datos, los empleados de datos, como los científicos e ingenieros de datos, aprovechan Apache Spark, Hive y Presto en ejecución en EMR. Hasta ahora, estos empleados de datos podían conectarse con facilidad a los clústeres de EMR desde los blocs de notas de Studio en la misma cuenta. Sin embargo, tenían que configurar complejas reglas de seguridad y proxy web para conectarse entre cuentas o con el fin de monitorear y depurar sus trabajos de Apache Spark que se ejecutan en EMR. Además, cuando estos empleados de datos necesitaban crear clústeres de EMR personalizados para sus cargas de trabajo específicas, tenían que solicitar a su administrador que lo hiciera por ellos o cambiar a otras herramientas y utilizar conocimientos técnicos detallados sobre la configuración de red, la informática y los clústeres para crearlos por sí mismos. Este proceso no solo suponía un reto y una interrupción a su flujo de trabajo, sino que también les distraía de sus tareas de preparación de datos. En consecuencia, aunque no sea rentable, muchos clientes mantenían clústeres persistentes en ejecución a la espera de cargas de trabajo entrantes, independientemente del uso activo.
A partir de hoy y directamente desde SageMaker Studio, los empleados de datos pueden descubrir y conectarse con facilidad a los clústeres de EMR en las configuraciones de cuenta única y entre cuentas. Además, los empleados de datos ahora pueden acceder con un solo clic a la interfaz de usuario de Apache Spark para monitorear y depurar los trabajos de Apache Spark que se ejecutan en EMR directamente desde los blocs de notas de SageMaker Studio, lo que simplifica mucho su flujo de trabajo de depuración. Los clientes también pueden utilizar AWS Service Catalog para definir y desplegar plantillas preconfiguradas a empleados de datos seleccionados y así permitirles crear clústeres de EMR directamente desde SageMaker Studio. Cuando los empleados de datos utilizan estas plantillas, los clientes pueden controlar totalmente las barreras de protección organizativas, de seguridad, informáticas y de redes. Directamente desde SageMaker Studio, los empleados de datos pueden navegar visualmente a través de un conjunto de plantillas puestas a su disposición, personalizarlas para sus cargas de trabajo específicas, crear clústeres de EMR bajo demanda y terminarlos con unos pocos clics. Los clientes pueden utilizar estas características para simplificar su flujo de trabajo de preparación de datos y utilizar de forma más óptima los clústeres de EMR para las cargas de trabajo interactivas de SageMaker Studio.
Por lo general, estas características están disponibles en las siguientes regiones de AWS y no hay cargos adicionales por utilizar esta capacidad: Este de EE. UU. (Norte de Virginia y Ohio), Oeste de EE. UU. (Norte de California y Oregón), Canadá (Central), Europa (Fráncfort), Europa (Irlanda), Europa (Estocolmo), Europa (París) y Europa (Londres), Asia-Pacífico (Mumbai), Asia-Pacífico (Seúl), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Tokio) y América del Sur (São Paulo). Para obtener más información, consulte esta publicación del blog y la guía del usuario de los blocs de notas de SageMaker Studio.