Publicado en: Dec 21, 2020
Amazon SageMaker Studio es el primer entorno de desarrollo completamente integrado (IDE) para el aprendizaje automático. Con un solo clic, los científicos de datos y desarrolladores pueden acelerar los blocs de notas de SageMaker Studio para explorar y preparar conjuntos de datos y crear, entrenar e implementar modelos de aprendizaje automático en un único panel. Amazon EMR es un servicio web que facilita el procesamiento rápido y rentable de grandes cantidades de datos. A partir de hoy, los clientes pueden utilizar blocs de notas de Studio para conectarse de manera fácil y segura a clústeres de Amazon EMR y preparar grandes cantidades de datos para análisis y generación de informes, entrenamiento de modelos o inferencia.
La preparación de los datos es un paso crucial del flujo de trabajo de aprendizaje automático. Con SageMaker Studio, tiene acceso a una variedad de herramientas para preparación de datos según sus preferencias. Si prefiere una interfaz visual, puede utilizar Amazon SageMaker Data Wrangler para conectarse a Amazon S3, Amazon RedShift o Amazon Athena y acceder, visualizar y analizar datos desde SageMaker Studio. Si prefiere escribir código, también puede utilizar los blocs de notas de SageMaker Studio para preparar datos de manera interactiva con bibliotecas y SDK, o procesar grandes cantidades datos en lotes con el procesamiento de Amazon SageMaker que utiliza un contenedor de Spark integrado. Sin embargo, si prefiere conectar blocs de notas de Studio con clústeres de EMR existentes para acceder y procesar datos, debe configurar de manera manual el entorno, utilizar su propio kernel de Sparkmagic, configurar la información del clúster de destino e instalar herramientas como Kerberos para la autenticación antes de ejecutar sus trabajos de Spark o consultar sus tablas de Hive.
Amazon SageMaker Studio ahora incorpora herramientas integradas que hacen que sea más fácil y rápido conectar su bloc de notas a un clúster de EMR para procesar grandes cantidades de datos. Puede crear un bloc de notas de Studio desde una imagen de SageMaker integrada con un kernel de PySpark, utilizar comandos integrados para conectarse a un clúster de EMR, y comenzar a consultar, analizar y procesar datos en tan solo unos pasos. Para mayor seguridad, puede conectarse a clústeres de EMR mediante la autenticación de Kerberos. La característica ahora está disponible en todas las regiones de AWS donde Amazon SageMaker Studio está disponible. Para obtener más información, consulte la documentación de Amazon SageMaker Studio.