Cree con Amazon SageMaker

Amazon SageMaker facilita la creación de modelos de aprendizaje automático a escala y los prepara para el entrenamiento, ya que proporciona todo lo que necesita para etiquetar los datos de entrenamiento, para acceder a los blocs de notas y compartirlos, y para utilizar los algoritmos y los marcos incorporados.

Características

Experiencia colaborativa en el bloc de notas

Los blocs de notas de Amazon SageMaker Studio son blocs de notas de Jupyter de un solo clic con informática elástica que se puede iniciar con rapidez. Los blocs de notas contienen todo lo necesario para ejecutar o volver a crear un flujo de trabajo de aprendizaje automático, y se integran en Amazon SageMaker Studio. Ya vienen cargados con todos los controladores CUDA y cuDNN comunes, los paquetes de Anaconda y las bibliotecas de marco.

El entorno del bloc de notas le permite explorar y visualizar sus datos, además de documentar sus hallazgos en flujos de trabajo reutilizables. Desde el interior del bloc de notas, puede incorporar sus datos almacenados en Amazon S3. También puede usar AWS Glue para migrar datos fácilmente desde Amazon RDS, Amazon DynamoDB y Amazon Redshift a S3 a fin de realizar análisis.

Sin los blocs de notas elásticos, si desea visualizar, ejecutar o compartir un bloc de notas, es necesario iniciar una instancia de informática para que funcione el bloc de notas. Si necesita más potencia de cómputo, debe iniciar una nueva instancia, transferir el bloc de notas y desactivar la instancia anterior. Además, dado que el bloc de notas suele combinarse con la instancia de informática y que suele existir en la estación de trabajo de un usuario, no hay una forma sencilla de compartir los blocs de notas y de iterar de forma colaborativa.

Los bloc de notas de SageMaker Studio superan los siguientes desafíos. Ya no necesita perder tiempo a la hora de desactivar la instancia anterior y volver a crear el trabajo en una nueva instancia. Esto permite empezar a crear un modelo en mucho menos tiempo.

Puede escribir en el bloc de notas, importarlo o utilizar uno de los muchos blocs de notas prediseñados que vienen con SageMaker para diferentes casos de uso. Después del lanzamiento, puede aumentar y reducir los recursos informáticos (incluidos los recursos de la GPU) sin interrupciones. Además, su estado se guarda automáticamente, por lo que puede retomar exactamente donde lo dejó la próxima vez que regrese al bloc de notas.

Los blocs de notas de SageMaker Studio se pueden compartir fácilmente con los colegas, de forma que puedan visualizar y reproducir los resultados.

Blocs de notas

Cree conjuntos de datos precisos para los entrenamientos

Amazon SageMaker Ground Truth lo ayuda a crear conjuntos de datos de entrenamiento de alta precisión con rapidez mediante el aprendizaje automático. Además, le permite reducir los costos de etiquetado de datos hasta en un 70 %. Los modelos de aprendizaje automático correctos se entrenan con datos que se han etiquetado para enseñar al modelo a tomar las decisiones adecuadas. Este proceso suele requerir meses y grandes equipos de personas para completarse. SageMaker Ground Truth ofrece una solución innovadora para reducir el costo y la complejidad, además de aumentar la precisión del etiquetado de datos mediante la combinación del etiquetado humano con el proceso de aprendizaje automático denominado aprendizaje activo.

Funcionamiento

Procesamiento de datos totalmente administrado a escala

Con frecuencia, las cargas de trabajo de procesamiento y análisis de datos para el aprendizaje automático se ejecutan en una infraestructura autoadministrada que es difícil de asignar y escalar, a medida que cambian los requisitos de la empresa. El uso de diferentes herramientas para lograr esto se vuelve complicado, lo que resulta en un rendimiento inferior al óptimo y en un aumento de los gastos de capital y de operación. El procesamiento de Amazon SageMaker supera este desafío mediante la ampliación de la facilidad, la escalabilidad y la confiabilidad de SageMaker a una experiencia de administración completa para la ejecución de cargas de trabajo de procesamiento de datos a escala. El procesamiento de SageMaker le permite conectarse a orígenes de datos de sistemas de archivos o de almacenamiento existentes, activar los recursos necesarios para ejecutar su trabajo, guardar los resultados en almacenamiento persistente y brindar los registros y las métricas. También puede usar sus propios contenedores con los marcos que prefiera y aprovechar la ejecución de cargas de trabajo de procesamiento y de análisis de datos.

Algoritmos integrados de alto rendimiento

Amazon SageMaker ofrece algoritmos de aprendizaje automático escalables y de alto rendimiento que se optimizaron para brindar velocidad, escala y precisión, y pueden realizar entrenamiento en conjuntos de datos con escala de petabytes. Puede elegir algoritmos supervisados en los que las respuestas correctas se conocen durante el entrenamiento y puede indicar al modelo dónde cometió errores. SageMaker incluye algoritmos supervisados, como regresión o clasificación lineal/logística, y XGBoost, para resolver problemas de predicción de serie temporal y recomendaciones. SageMaker también admite el aprendizaje no supervisado (es decir, los algoritmos deben encontrar las respuestas correctas por sí mismos), como agrupación en clústeres k-means y análisis de componente principal (PCA), para resolver problemas como la identificación de agrupaciones de clientes en función de su comportamiento de compra.

SageMaker pone a su disposición los algoritmos de aprendizaje automático más comunes de manera automática. Tan solo debe especificar el origen de datos a la hora de comenzar a ejecutar agrupaciones en clústeres k-means para fragmentación de datos, máquinas de factorización para recomendaciones, previsión de serie temporal, regresión lineal, análisis de componente principal o muchos otros algoritmos que estén listos para su uso inmediato.

Algoritmo Descripción
BlazingText Word2Vec Implementación de BlazingText del algoritmo Word2Vec para ajustar la escala y agilizar la generación de inclusiones de palabras a partir de un gran número de documentos.
DeepAR Un algoritmo que genera previsiones precisas mediante el aprendizaje de patrones de muchas series temporales relacionadas a través de redes neuronales recurrentes (RNN).
Máquinas de factorización Un modelo con la capacidad de calcular todas las interacciones entre características, incluso con un volumen muy pequeño de datos
Árboles con potenciación del gradiente (XGBoost) XGBoost, la abreviatura de árboles con potenciación del gradiente, es una biblioteca de potenciación del gradiente distribuida y optimizada.
Clasificación de imágenes (ResNet) Una red neuronal conocida para el desarrollo de sistemas de clasificación de imágenes.
Información de IP Un algoritmo para detectar usuarios malintencionados o aprender los patrones de uso de las direcciones IP
Agrupación en clústeres K-means Uno de los algoritmos de aprendizaje automático más simples que se utiliza para encontrar grupos entre datos no etiquetados
Vecino k más próximo (k-NN) Un algoritmo basado en índice para tratar problemas relacionados con la clasificación y la regresión.
Asignación latente Dirichlet (LDA) Un modelo adecuado para detectar automáticamente los temas principales que están presentes en un conjunto de archivos de texto.
Aprendizaje lineal (clasificación) La clasificación lineal usa las características de un objeto para identificar el grupo correcto al cual pertenece.
Aprendizaje lineal (regresión) La regresión lineal se utiliza para predecir la relación lineal entre dos variables.
Modelado de temas neuronal (NTM) Una estrategia basada en redes neuronales para temas de aprendizaje a partir de conjuntos de datos de imágenes y textos
Object2Vec Un algoritmo de integración neuronal para calcular los vecinos más cercanos y para visualizar los clústeres naturales
Detección de objetos Detecta y clasifica varios objetos de una imagen, además de colocar recuadros que los rodean.
Análisis de componente principal (PCA) Este algoritmo, que se utiliza a menudo para el procesamiento de previo de los datos, toma una tabla o una matriz de muchas características, y la reduce a un número menor de características representativas.
Bosque de corte aleatorio Un algoritmo de aprendizaje automático no supervisado para la detección de anomalías.
Segmentación semántica Realiza particiones de una imagen para identificar lugares de interés asignando una etiqueta a los píxeles individuales de la imagen.
Secuencia a secuencia Un codificador-decodificador de uso general para texto que se utiliza a menudo para la traducción automática de idiomas, resúmenes de textos, etc.

Más información »

También puede usar su propio marco o algoritmo mediante un contenedor Docker, o puede seleccionar entre cientos de algoritmos y modelos entrenamiento previo que se encuentran disponibles en AWS Marketplace

Amplia compatibilidad con marcos

Amazon SageMaker es compatible con muchos marcos populares para el aprendizaje profundo, como TensorFlow, Apache MXNet, PyTorch, Chainer y otros. Estos marcos se configuran y optimizan automáticamente para alcanzar un alto rendimiento. No necesita configurar estos marcos de forma manual y puede utilizarlos dentro de los contenedores incorporados. También puede incorporar cualquier marco que desee en SageMaker. Para ello, debe crearlo en un contenedor Docker que pueda almacenar en Amazon EC2 Container Registry.

Más información »

Pruebas y prototipos en entornos locales

Los contenedores Docker de código abierto Apache MXNet y TensorFlow que se usan en Amazon SageMaker están disponibles en GitHub. Puede descargarlos en su entorno local y usar el SDK para Python de SageMaker a fin de probar scripts antes de la implementación en entornos de entrenamiento o alojamiento de SageMaker. Cuando esté listo para trasladarse de un entorno de pruebas local a uno de alojamiento o entrenamiento de producción, solo necesitará modificar una única línea de código. 

Aprendizaje mediante refuerzo

Amazon SageMaker admite el aprendizaje mediante refuerzo además del aprendizaje tradicional supervisado y no supervisado. Dispone de algoritmos de aprendizaje reforzado integrados y completamente administrados, incluidos algunos de los mejores y más recientes de la literatura académica. SageMaker admite el aprendizaje mediante refuerzo en varios marcos de trabajo (incluidos TensorFlow y MXNet), así como marcos más recientes, diseñados desde un principio para este tipo de aprendizaje, como Intel Coach y Ray RL. Se admiten diversos entornos de simulación de física 2D y 3D, incluidos entornos basados en la interfaz OpenGym de código abierto. Asimismo, SageMaker RL le permitirá entrenar con entornos 3D virtuales integrados en Amazon Sumerian y Amazon RoboMaker. Para ayudarlo a empezar, SageMaker también proporciona una serie de blocs de notas y tutoriales de ejemplo.

La mayor parte del aprendizaje automático entra en una categoría denominada aprendizaje supervisado. Este método requiere una gran cantidad de datos de entrenamiento etiquetados, pero los modelos que cree son capaces de tomar decisiones sofisticadas. Es el enfoque habitual en los modelos de visión, voz y lenguaje informático. Otra categoría habitual pero menos utilizada de aprendizaje automático se denomina aprendizaje no supervisado. En este caso, los algoritmos tratan de identificar una estructura oculta en datos sin etiquetar. El listón para entrenar un modelo no supervisado está mucho más bajo, pero la desventaja es que el modelo toma decisiones mucho menos sofisticadas. Los modelos no supervisados se suelen utilizar para identificar anomalías en los datos, tales como fluctuaciones anómalas de la temperatura o señales de intrusiones en la red.

El aprendizaje mediante refuerzo (RL) ha emergido como un tercer enfoque complementario al aprendizaje automático. El RL adopta un enfoque muy distinto de los modelos de entrenamiento. No necesita prácticamente datos de entrenamiento etiquetados, pero puede alcanzar (y en algunos caso superar) niveles de sofisticación humanos. Lo mejor del RL es que puede aprender a modelar una serie compleja de comportamientos para llegar a un resultado deseado, en lugar de tomar simplemente una decisión única. Una de las aplicaciones más comunes hoy día para RL es el entrenamiento de vehículos autónomos para desplazarse hasta un destino.

Una forma sencilla de entender cómo funciona el RL consiste en pensar en un videojuego sencillo donde un personaje tiene que avanzar por un laberinto recogiendo banderas y evitando a los enemigos. En lugar de un humano jugando, el algoritmo controla al personaje y juega millones de partidas. Todo lo que tiene que saber para empezar es que el personaje puede moverse hacia arriba, abajo, izquierda y derecha y que obtiene puntos como recompensa. El algoritmo aprenderá a continuación cómo jugar para conseguir la máxima puntuación posible. Aprenderá comportamientos que mejoran la puntuación (como, por ejemplo, recoger banderas o aprovechar los multiplicadores de puntuación) y a evitar las penalizaciones (por ejemplo, evitar los golpes del enemigo). Con el tiempo, los algoritmos de RL pueden aprender estrategias avanzadas para dominar el juego como, por ejemplo, limpiar primero la parte inferior del laberinto y cuándo utilizar poderes especiales y cómo explotar los comportamientos del enemigo.

RL puede ser una fuerza multiplicadora respecto a las técnicas de aprendizaje automático tradicionales. Por ejemplo, RL y el aprendizaje supervisado se han combinado para crear regímenes de tratamiento personalizado en sanidad, optimizar cadenas de suministro de fabricación, mejorar el rendimiento de turbinas eólicas, conducir vehículos autónomos, operar robots de forma segura e incluso crear clases personalizadas y planes de aprendizaje para alumnos.

Recursos

Una guía paso a paso para crear modelos de aprendizaje automático

Aprenda a crear modelos de aprendizaje automático en Amazon SageMaker.

Blocs de notas de muestra de Amazon SageMaker

Acceda a amplios repositorios de blocs de notas de muestra de Amazon SageMaker en GitHub.

Cree entornos de aprendizaje automático seguros
 
Explore las características de seguridad de Amazon SageMaker.