Amazon SageMaker Data Wrangler

La forma más rápida y sencilla de preparar datos tabulares e imágenes para el machine learning

¿Por qué SageMaker Data Wrangler?

Amazon SageMaker Data Wrangler reduce el tiempo que lleva agregar y preparar datos tabulares y de imágenes para ML de semanas a minutos. Con SageMaker Data Wrangler, es posible simplificar el proceso de preparación de datos e ingeniería de características, así como completar cada paso del flujo de trabajo de preparación de datos (incluida la selección, limpieza, exploración, visualización y procesamiento de datos a escala) en una única interfaz visual. Puede usar SQL para seleccionar los datos que quiere de varios orígenes de datos e importarlos rápidamente. A continuación, puede usar el informe de calidad de datos e información para verificar automáticamente la calidad de los datos y detectar anomalías, como filas duplicadas y fugas de objetivos. SageMaker Data Wrangler contiene más de 300 transformaciones de datos incorporadas para que pueda transformar rápidamente los datos sin escribir ningún código.

Descripción general de Amazon SageMaker Data Wrangler

Beneficios de SageMaker Data Wrangler

Seleccione los datos, comprenda la información que proporcionan y transfórmelos a fin de prepararlos para su uso con machine learning (ML) en cuestión de minutos.
Estime rápidamente la precisión del modelo de ML y diagnostique los problemas antes de que los modelos se implementen en la producción.
Lleve la preparación de datos a producción más rápidamente sin necesidad de crear código PySpark, instalar Apache Spark o crear clústeres.

Funcionamiento

Funcionamiento de Amazon SageMaker Data Wrangler

Acceso a los datos y selección y consulta de datos con mayor rapidez

Con la herramienta de selección de datos SageMaker Data Wrangler, puede acceder y seleccionar rápidamente sus datos tabulares y de imágenes de varios orígenes populares (como Amazon Simple Storage Service [Amazon S3], Amazon Athena, Amazon Redshift, AWS Lake Formation, Snowflake y Databricks) y más de 50 orígenes de terceros (como Salesforce, SAP, Facebook Ads y Google Analytics). También puede escribir consultas para orígenes de datos por medio de SQL e importar datos directamente a SageMaker desde varios formatos de archivo, como CSV, Parquet y JSON, y tablas de base de datos.

Generación de información sobre los datos e información sobre su calidad

SageMaker Data Wrangler proporciona un informe de calidad de datos e información que verifica automáticamente la calidad de los datos (como los valores que faltan, filas duplicadas y tipos de datos) y ayuda a detectar anomalías (como valores atípicos, desequilibrio de clases y fuga de datos) en sus datos. Tras verificar eficazmente la calidad de los datos, puede aplicar rápidamente el conocimiento del dominio para procesar conjuntos de datos para el entrenamiento de modelos de ML.

Información de los datos con visualizaciones

SageMaker Data Wrangler le permite comprender sus datos e identificar potenciales errores y valores extremos con un conjunto de plantillas robustas de visualización preconfiguradas. Los histogramas, gráficos de dispersión, gráficos de caja y bigotes, gráficos de líneas y gráficos de barras están integrados para aplicarlos a sus datos. Además, hay disponibles visualizaciones específicas de ML más avanzadas (como el informe de sesgo, correlación de características, multicolinealidad, fuga de objetivos y series temporales) que muestran la importancia y las correlaciones de las características. Se puede acceder a esas herramientas desde la pestaña Análisis.

Transformación de los datos de manera más eficiente

SageMaker Data Wrangler ofrece una selección de más de 300 transformaciones de datos prediseñadas y basadas en PySpark para que pueda transformar sus datos y escalar el flujo de trabajo de preparación de datos sin necesidad de escribir una sola línea de código. Las transformaciones preconfiguradas incluyen casos de uso comunes, como el aplanamiento de archivos JSON, la eliminación de filas duplicadas, la imputación de datos faltantes con media o mediana, una codificación en caliente y transformadores específicos de series temporales para acelerar la preparación de datos de series temporales para ML. Para los datos de sus imágenes, SageMaker Data Wrangler ofrece aumentos de imágenes comunes (como desenfocar, mejorar y cambiar el tamaño) y operaciones de limpieza (como eliminar imágenes corruptas y duplicadas). También puede crear transformaciones personalizadas en PySpark, SQL y Pandas. SageMaker Data Wrangler ofrece bibliotecas de imágenes (imgaug, OpenCV) para crear transformaciones personalizadas para casos de uso de CV y una biblioteca enriquecida de fragmentos de código para simplificar la creación de transformaciones personalizadas.

El poder predictivo de los datos

La característica de modelado rápido de SageMaker Data Wrangler proporciona una estimación del poder predictivo esperado de sus datos. El modelado rápido divide automáticamente sus datos en conjuntos de datos de entrenamiento y de prueba y entrena los datos en un modelo XGBoost con hiperparámetros predeterminados. En función de la tarea que esté resolviendo (por ejemplo, clasificación o regresión), SageMaker Data Wrangler proporciona un resumen del modelo, un resumen de características y una matriz de confusión, que ayudan a iterar rápidamente en sus flujos de preparación de datos.

Automatice e implemente los flujos de trabajo de preparación de datos de ML

Con la interfaz de usuario de SageMaker Data Wrangler, puede lanzar la escalabilidad a conjuntos de datos grandes sin necesidad de crear código PySpark, instalar Apache Spark o crear clústeres. Puede lanzar o programar un trabajo para procesar rápidamente sus datos o exportarlos a un cuaderno de SageMaker Studio. SageMaker Data Wrangler ofrece varias opciones de exportación, entre las que se incluyen los trabajos de SageMaker Data Wrangler, el almacén de características de SageMaker y las canalizaciones de SageMaker, para que pueda integrar el flujo de preparación de datos en el flujo de trabajo del ML. Como alternativa, puede implementar su flujo de trabajo de preparación de datos en un punto de conexión alojado en SageMaker. Por último, puede exportar los datos directamente para entrenar el modelo de ML mediante una interfaz visual con SageMaker Canvas.

Clientes

Invista
“En INVISTA, nos impulsa la transformación y nos enfocamos en desarrollar productos y tecnologías que beneficien a clientes de todo el mundo. Consideramos el ML como una forma de mejorar la experiencia del cliente. Pero, con conjuntos de datos que abarcan cientos de millones de filas, necesitábamos una solución que nos ayudara a preparar los datos y desarrollar, implementar y administrar a escala modelos de ML. Con Amazon SageMaker Data Wrangler, ahora podemos seleccionar, borrar, explorar y comprender nuestros datos de forma interactiva de forma eficaz, lo que permite a nuestro equipo de ciencia de datos crear canalizaciones de ingeniería de características que se pueden escalar sin esfuerzo a conjuntos de datos que abarcan cientos de millones de filas. Con Amazon SageMaker Data Wrangler, podemos poner en funcionamiento nuestros flujos de trabajo de ML con mayor rapidez”.

Caleb Wilkinson, Former Lead Data Scientist de INVISTA

3M
“Con el uso del ML, 3M está mejorando los productos de eficacia probada, como el papel de lija, e innovando en muchos otros ámbitos, como el sanitario. A medida que planeamos escalar el proceso de ML en más áreas de 3M, vemos cómo la cantidad de datos y modelos crecen rápidamente y se multiplican año tras año. Estamos entusiasmados con las nuevas características de SageMaker porque nos ayudarán a escalar. Amazon SageMaker Data Wrangler facilita la preparación de datos para el entrenamiento de modelos, y Almacén de características de Amazon SageMaker elimina la necesidad de crear repetidamente las mismas características del modelo. Por último, Canalizaciones de Amazon SageMaker nos ayudará a automatizar la preparación de datos y la creación e implementación de modelos en un flujo de trabajo integral, para así poder acelerar el tiempo de comercialización de nuestros modelos. Nuestros investigadores esperan aprovechar el nuevo ritmo de la ciencia en 3M”.

David Frazee, Former Technical Director en Corporate Systems Research Lab de 3M

Deloitte
“Amazon SageMaker Data Wrangler nos permite abordar las necesidades de preparación de datos con una gran colección de herramientas de transformación que aceleran el proceso de preparación de datos de ML necesario para llevar nuevos productos al mercado. A su vez, nuestros clientes se benefician del ritmo al que escalamos los modelos implementados, lo que nos permite ofrecer resultados medibles y sostenibles que satisfagan las necesidades de los clientes en cuestión de días en lugar de meses”.

Frank Farrall, Principal, AI Ecosystems and Platforms Leader de Deloitte

NRI
“Como socio consultor premier de AWS, nuestros equipos de ingeniería están trabajando en conjunto con AWS para crear soluciones innovadoras a fin de ayudar a los clientes a mejorar de forma continua la eficacia de sus operaciones. El ML es la base de nuestras soluciones innovadoras, pero el flujo de trabajo de preparación de datos conlleva técnicas de preparación de datos sofisticadas que, como resultado, tardan bastante tiempo en rendir de forma operativa en un entorno de producción. Con Amazon SageMaker Data Wrangler, nuestros científicos de datos pueden completar todos los pasos del flujo de trabajo de preparación de datos, incluida la selección, limpieza, exploración y visualización de datos, lo que nos ayuda a acelerar el proceso de preparación de datos y a preparar con facilidad los datos para el ML. Gracias a Amazon SageMaker Data Wrangler, podemos preparar más rápidamente datos para el ML”.

Shigekazu Ohmoto, Senior Corporate Managing Director de NRI Japan

equilibrium
“A medida que nuestra presencia en el mercado de la administración sanitaria de la población continúa expandiéndose a más pagadores, proveedores, administradores de beneficios de farmacia y otras organizaciones sanitarias, necesitábamos una solución que permitiera automatizar los procesos de manera integral para los orígenes de datos que alimentan nuestros modelos de ML, incluidos los datos de reclamos, inscripciones y farmacia. Con Amazon SageMaker Data Wrangler, ahora podemos acelerar el tiempo que toma agregar y preparar los datos para el ML mediante un conjunto de flujos de trabajo que son más fáciles de validar y reutilizar. Esto ha mejorado de manera considerable el tiempo de entrega y la calidad de nuestros modelos, ha aumentado la eficacia de nuestros científicos de datos y ha reducido en casi un 50 % el tiempo de preparación de datos. Además, SageMaker Data Wrangler nos ha permitido ahorrar iteraciones de ML y bastante tiempo de GPU, lo que aceleró todo el proceso de principio a fin para nuestros clientes, ya que ahora podemos crear mercados de datos con miles de características, incluidas las de farmacia, códigos de diagnósticos, visitas a sala de urgencias, estadías en el hospital, así como otros determinantes demográficos y sociales. Gracias a SageMaker Data Wrangler, podemos transformar datos con una eficacia superior para crear conjuntos de datos de entrenamiento, generar conocimientos sobre los datos antes de ejecutar los modelos de ML y preparar los datos del mundo real para la inferencia y predicción a escala”.

Lucas Merrow, CEO de Equilibrium Point IoT

Introducción a SageMaker Data Wrangler

Blogs

BLOG

Acelere la preparación de datos con calidad e información de datos en Amazon SageMaker Data Wrangler

BLOG

Amazon SageMaker Data Wrangler admite aplicaciones SaaS como orígenes de datos

Blog

Prepare datos de Databricks para machine learning con Amazon SageMaker Data Wrangler

BLOG

Prepare datos con fragmentos de código de PySpark y Altair en Amazon SageMaker Data Wrangler

BLOG

Importe datos de Amazon Redshift entre cuentas a Amazon SageMaker Data Wrangler

Read more » (Más información »)

BLOG

Use Amazon SageMaker Data Wrangler en Amazon SageMaker Studio con una configuración de ciclo de vida predeterminada

Ejercicios prácticos

Tutorial

Tutorial paso a paso de introducción a SageMaker Data Wrangler

TALLERES

Explore cómo usar SageMaker Data Wrangler en distintos casos de uso

Videos de demostración

Video

re:Invent 2022: Acelere la preparación de datos con SageMaker Data Wrangler

re:Invent 2022: Acelere la preparación de datos (56:45)
VIDEO

Prepare datos de forma rápida para ML con el taller virtual de SageMaker Data Wrangler

Prepare datos de forma rápida para el taller virtual de ML (1:18:08)
VIDEO

AWS On Air 2020: AWS What’s Next ft. SageMaker Data Wrangler

AWS On Air 2020: AWS What’s Next ft. SageMaker Data Wrangler (27:51)
VIDEO

Demostración detallada de SageMaker Data Wrangler

Demostración detallada de SageMaker Data Wrangler (28:13)

Novedades

  • Fecha (de más reciente a más antigua)
No se encontraron resultados
1