Publicado en: Nov 30, 2022
Hoy, AWS anuncia la disponibilidad general de la compatibilidad con Amazon SageMaker Data Wrangler para más de 40 aplicaciones de terceros como orígenes de datos para machine learning (ML) a través de la integración con Amazon AppFlow. Amazon SageMaker Data Wrangler reduce, de semanas a minutos, el tiempo que se demora en agregar y preparar datos para machine learning (ML). La preparación de datos de alta calidad para ML suele ser compleja y lleva mucho tiempo, ya que requiere agregar datos en varios orígenes y formatos utilizando diferentes herramientas. Con SageMaker Data Wrangler, puede explorar e importar datos de diferentes orígenes conocidos, como Amazon S3, Amazon Athena, Amazon Redshift, Snowflake, Databricks y la plataforma de datos de clientes de Salesforce. A partir de hoy, facilitamos que los clientes agreguen datos para ML de más de 40 orígenes de datos de aplicaciones de terceros, incluidos Salesforce Marketing, SAP, Google Analytics, LinkedIn y más a través de Amazon AppFlow.
Amazon AppFlow es un servicio completamente administrado que permite a los clientes transferir datos de forma segura desde aplicaciones de terceros a servicios de AWS, como Amazon S3, y registrar los datos en el catálogo de datos de AWS Glue con solo unos pocos clics. Una vez que los orígenes de datos están configurados en AppFlow, usted puede explorar tablas y esquemas de estos orígenes de datos utilizando el explorador SQL de Data Wrangler. Puede escribir consultas de Athena para obtener una vista previa de los datos a fin de asegurarse de que sean relevantes para sus casos de uso e importar datos para prepararlos para el entrenamiento del modelo de machine learning (ML). También puede combinar datos de varios orígenes después de la importación para crear el conjunto de datos correcto para ML. Una vez que se importan los datos, puede comprender rápidamente la calidad de los datos, limpiarlos y crear funciones con más de 300 análisis y transformaciones de datos integrados. También puede entrenar e implementar el modelo con el Piloto automático de SageMaker y poner en funcionamiento el proceso de preparación de datos en una canalización de ingeniería, capacitación o implementación de características mediante la integración con la canalización de SageMaker desde Data Wrangler.
Data Wrangler admite más de 40 orígenes de datos de terceros en todas las regiones actualmente admitidas por AppFlow. Esta característica está disponible sin cargo adicional al costo de Data Wrangler y AppFlow.
Para comenzar, consulte los siguientes recursos:
- Nuevo: Amazon SageMaker Data Wrangler admite aplicaciones SaaS como orígenes de datos
- Importe datos de aplicaciones de terceros en la documentación técnica de AWS