Almacén de características de Amazon SageMaker

Un repositorio completamente administrado para las características de machine learning

El almacén de características de Amazon SageMaker es un repositorio completamente administrado y creado específicamente para almacenar, actualizar, recuperar y compartir características de machine learning (ML).

Las características son los atributos o las propiedades que los modelos utilizan durante el entrenamiento y la inferencia para hacer predicciones. Por ejemplo, en una aplicación de ML que recomiende una lista de reproducción de música, las características que se podrían incluir son las calificaciones de las canciones, cuáles fueron las canciones que se escucharon anteriormente y cuánto tiempo lo hicieron. La precisión de un modelo de ML se basa en un conjunto y una composición exactos de características. A menudo, estas se utilizan de forma reiterada por distintos equipos que entrenan varios modelos. Además, cualquiera sea el conjunto de características utilizado para entrenar el modelo, debe estar disponible para hacer predicciones en tiempo real (inferencia). Es difícil mantener un único origen de características que sea consistente y esté actualizado en estos diferentes patrones de acceso, ya que la mayoría de las organizaciones cuentan con dos almacenes de características diferentes, uno para el entrenamiento y otro para la inferencia.

El almacén de características de Amazon SageMaker es un repositorio creado especialmente para almacenar y obtener acceso a las características, de modo que es mucho más fácil asignarles un nombre, organizarlas y reutilizarlas en todos los equipos. Además, provee un almacén unificado para las características durante el entrenamiento y la inferencia en tiempo real sin la necesidad de escribir código adicional ni de crear procesos manuales para mantener las características consistentes. Realiza un seguimiento de los metadatos de las características almacenadas (por ejemplo, el nombre o el número de versión) a fin de que pueda consultar las características en busca de los atributos adecuados por lotes o en tiempo real mediante Amazon Athena, un servicio de consulta interactivo. También mantiene las características actualizadas, ya que, a medida que se generan nuevos datos durante la inferencia, el repositorio único se actualiza de manera tal que las nuevas características están siempre disponibles para que los modelos las utilicen durante el entrenamiento y la inferencia.

SageMaker Feature Store Overview and Demo (Información general y demostración del almacén de características de SageMaker) (21:54)

Características clave

Incorporación de datos de varios orígenes

Existen diversas formas de incorporar características al almacén de características de Amazon SageMaker. Puede utilizar orígenes de datos en streaming como Amazon Kinesis Data Firehose. También puede crear características en herramientas de preparación de datos como Amazon SageMaker Data Wrangler, y almacenarlas directamente en el almacén de características de SageMaker con tan solo unos pocos clics.

Búsqueda y detección

El almacén de características de Amazon SageMaker etiqueta e indexa las características para que puedan localizarse de manera sencilla a través de una interfaz visual en SageMaker Studio. La navegación por el catálogo de características permite a los equipos comprenderlas mejor y determinar si una de ellas es útil para un determinado modelo.

Garantizar la consistencia de las características

El almacén de características de Amazon SageMaker garantiza que los modelos realicen predicciones precisas, puesto que las mismas características se encuentran disponibles para el entrenamiento y la inferencia. Estos son casos de uso muy distintos y los requisitos de almacenamiento difieren para cada uno de ellos. El almacén de características de SageMaker cumple con ambos requisitos. Durante el entrenamiento, los modelos utilizan un conjunto de datos completo que suele tardar horas, en tanto que la inferencia debe producirse en cuestión de milisegundos y, por lo general, requiere un subconjunto de los datos. Por ejemplo, en un modelo que predice la siguiente mejor canción de una lista de reproducción, el modelo se entrena con miles de canciones; sin embargo, durante la inferencia, el almacén de características de SageMaker solo accede a las últimas tres para predecir la siguiente. El almacén de características de SageMaker permite que los modelos accedan al mismo conjunto de características para las ejecuciones de entrenamiento (que suelen realizarse sin conexión y por lotes) y la inferencia en tiempo real.

Estandarización de las características

Es habitual encontrar diferentes definiciones para características similares en una empresa. Por ejemplo, la “temperatura” podría definirse en grados Celsius o Fahrenheit o las “fechas” podrían presentarse como fecha-mes-año o mes-fecha-año. El almacén de características de Amazon SageMaker evita cualquier tipo de confusión entre los equipos, ya que almacena las definiciones de las características en un único repositorio para que quede claro cómo se define cada una de ellas. Tener las características bien definidas facilita la reutilización de estas en diferentes aplicaciones.

Integración con Amazon SageMaker Pipelines

El almacén de características de Amazon SageMaker se integra conAmazon SageMaker Pipelines a fin de crear, agregar la búsqueda y la detección de características y reutilizar los flujos de trabajo automatizados de machine learning. De este modo, es fácil agregar la búsqueda, la detección y la reutilización de características a su flujo de trabajo de ML.

Clientes

The Climate Corporation
“En Climate, nos gusta proporcionar a los agricultores de todo el mundo información precisa para que tomen decisiones controladas por datos y puedan optimizar el rendimiento de cada hectárea. Para lograrlo, invertimos en tecnologías como las herramientas de machine learning que permiten crear modelos a partir de entidades medibles conocidas como características, por ejemplo, el rendimiento de un campo de cultivo. Gracias al almacén de características de Amazon SageMaker, podemos acelerar el desarrollo de modelos de ML mediante un almacén de características central al que se puede acceder y reutilizar en varios equipos con facilidad. Asimismo, facilita el acceso a las características en tiempo real con el almacén en línea o la ejecución de estas de forma programada mediante el almacén sin conexión para diferentes casos de uso. Gracias al almacén de características de SageMaker, podemos desarrollar modelos de ML mucho más rápido”.

Daniel McCaffrey, vicepresidente de datos y análisis de Climate

Intuit
“En 2017, optamos por crear la nueva plataforma de machine learning de Intuit en AWS, con lo que combinamos las potentes capacidades de Amazon SageMaker en cuanto al desarrollo, el entrenamiento y el alojamiento de modelos con las capacidades propias de Intuit relativas a la orquestación y la ingeniería de características. Gracias a ello, redujimos el ciclo de vida del desarrollo de nuestros modelos de forma drástica. Lo que antes nos llevaba seis meses completos ahora nos lleva menos de una semana, lo que nos permite introducir las capacidades de IA en nuestros productos TurboTax, QuickBooks y Mint con gran rapidez. Trabajamos en estrecha colaboración con AWS para el lanzamiento del almacén de características de Amazon SageMaker y, por ello, estamos muy entusiasmados ante la posibilidad de contar con un almacén completamente administrado, que nos permita prescindir de mantener varios repositorios de características en toda nuestra organización. Nuestros científicos de datos podrán utilizar las características existentes desde un almacén central e impulsar tanto la estandarización como la reutilización de estas en todos los equipos y modelos”.

Mammad Zadeh, vicepresidente de ingeniería de la plataforma de datos de Intuit

Experian
“En Experian, creemos que es nuestra responsabilidad brindar a los consumidores los medios para comprender y utilizar los créditos en lo que respecta a su vida financiera, y ayudar a los acreedores a administrar el riesgo crediticio. A medida que sigamos aplicando prácticas recomendadas para crear nuestros modelos financieros, buscaremos soluciones que agilicen la elaboración de productos que utilicen la tecnología de machine learning. El almacén de características de Amazon SageMaker nos proporciona un modo seguro de almacenar y reutilizar características en nuestras aplicaciones de ML. La capacidad de mantener la consistencia de las aplicaciones en tiempo real y por lotes en varias cuentas supone un requisito clave para nuestra empresa. El uso de las nuevas capacidades del almacén de características de Amazon SageMaker nos permite capacitar a nuestros clientes para que asuman el control de su crédito y reduzcan los costos en la nueva economía”.

Geoff Dzhafarov, arquitecto comercial principal de servicios al consumidor de Experian

“En DeNA, nuestra misión es generar efectos positivos e interés mediante el uso de Internet y la IA o el ML. Nuestro objetivo principal es prestar servicios de valor y, por ello, queremos asegurarnos de que nuestras empresas y servicios están preparados para alcanzarlo… Nos gustaría detectar y reutilizar características en toda la organización, y el almacén de características de Amazon SageMaker nos ofrece una forma fácil y eficaz de hacerlo en diferentes aplicaciones. También nos ayuda a mantener definiciones de características estándar y a contar con una metodología consistente a medida que entrenamos los modelos y los implementamos en la fase de producción. Con estas nuevas capacidades de Amazon SageMaker, podemos entrenar e implementar modelos de ML con mayor rapidez, lo que nos lleva a continuar con nuestro propósito de ofrecer a nuestros clientes los mejores servicios”.

Kenshin Yamada, gerente general de la unidad del Departamento de Sistemas de IA, de DeNA

Care.com
“Una industria de atención donde los suministros satisfagan la demanda es esencial para el crecimiento económico tanto de una familia particular como del PBI de la nación. Estamos muy entusiasmados con el almacén de características de Amazon SageMaker, ya que creemos que nos ayudará a mejorar la escalabilidad de nuestros equipos de ciencia de datos y de desarrollo, mediante el uso de un conjunto consistente de datos seleccionados. Con las capacidades de Amazon SageMaker recientemente anunciadas, podemos acelerar el desarrollo y la implementación de nuestros modelos de ML para diferentes aplicaciones, a fin de ayudar a nuestros clientes a tomar mejores decisiones mediante recomendaciones más rápidas en tiempo real”.

Clemens Tummeltshammer, gerente de ciencia de datos de Care.com

“Con el uso de ML, 3M está mejorando los productos de eficacia comprobada, como el papel de lija, e innovando en muchos otros ámbitos, incluido el de la sanidad. A medida que planeamos escalar el proceso de machine learning en más áreas de 3M, vemos cómo la cantidad de datos y modelos crecen rápidamente y se multiplican año tras año. Estamos entusiasmados con las nuevas características de SageMaker porque nos ayudarán a escalar. Amazon SageMaker Data Wrangler facilita la preparación de datos para el entrenamiento de modelos y el almacén de características de Amazon SageMaker elimina la necesidad de crear repetidamente las mismas características del modelo. Por último, Amazon SageMaker Pipelines nos ayudará a automatizar la preparación de datos y la creación e implementación de modelos en un flujo de trabajo integral, para así poder acelerar el tiempo de comercialización de nuestros modelos. Nuestros investigadores esperan aprovechar el nuevo ritmo de la ciencia en 3M”.

David Frazee, director técnico del Laboratorio de Sistemas de Investigación Corporativa de 3M

Blog de AWS Machine Learning

Build accurate ML training datasets using point-in-time queries with Amazon SageMaker Feature Store and Apache Spark (Cree conjuntos de datos de formación de ML precisos con consultas en un momento dado mediante el almacén de características de Amazon SageMaker y Apache Spark)

Lea la publicación del blog »

Blog de AWS Machine Learning

Automate feature engineering pipelines with Amazon SageMaker (Automatice las canalizaciones de ingeniería de características con Amazon SageMaker)

Lea la publicación del blog »

Blog de AWS Machine Learning

Enable feature reuse across accounts and teams using Amazon SageMaker Feature Store (Permita la reutilización de características en todas las cuentas y equipos mediante el almacén de características de Amazon SageMaker)

Lea la publicación del blog »

Blog de AWS Machine Learning

Understanding the key capabilities of Amazon SageMaker Feature Store (Comprenda las capacidades clave del almacén de características de Amazon SageMaker)

Lea la publicación del blog »

Blog de AWS Machine Learning

Using streaming ingestion with Amazon SageMaker Feature Store to make ML-backed decisions in near-real time (Utilice la ingesta de streaming con el almacén de características de Amazon SageMaker para tomar decisiones respaldadas por ML en tiempo casi real)

Lea la publicación del blog »

Blog de novedades de AWS

Nuevo: Store, Discover, and Share Machine Learning Features with Amazon SageMaker Feature Store (Almacene, actualice, recupere y comparta características de machine learning con el almacén de características de Amazon SageMaker)

Lea la publicación del blog »

Introducción al almacén de características de Amazon SageMaker