Desafío	Solución de AWS	Cómo
Etiquetado manual de datos	Amazon Mechanical Turk	Proporciona recursos humanos escalables y bajo demanda para completar las tareas.
Etiquetado manual de datos	Amazon SageMaker Ground Truth	Automatiza el etiquetado mediante el entrenamiento de Ground Truth a partir de datos etiquetados por seres humanos para que el servicio aprenda a etiquetar los datos de forma independiente.
Gestione y amplíe el procesamiento de datos	Procesamiento de Amazon SageMaker	Extienda una experiencia administrada completa a las cargas de trabajo de procesamiento de datos. Conéctese a los orígenes de datos de sistemas de archivos o de almacenamiento existentes, active los recursos necesarios para ejecutar su trabajo, guarde los resultados en un almacenamiento persistente y examine los registros y las métricas.
Administración de grandes cantidades de datos necesarios para entrenar los modelos	Amazon EMR	Procesa de forma rápida y rentable grandes cantidades de datos a escala.
Almacenamiento de archivos compartidos de grandes cantidades de datos necesarios para entrenar los modelos	Amazon S3	Ofrece una disponibilidad global de almacenamiento duradero de datos a largo plazo en un formato de acceso fácil de obtener y utilizar.

Desafío	Solución de AWS	Cómo
Acceso a los cuadernos de Jupyter	Cuadernos de Jupyter alojados	Cuadernos de Jupyter alojados que se ejecutan en una instancia de EC2 de su elección.
Uso compartido y colaboración en los cuadernos de Jupyter	Cuadernos de Amazon SageMaker	Cuadernos de Jupyter completamente administrados con los que podrá empezar a trabajar en cuestión de segundos y compartirlos con un solo clic. Las dependencias del código se capturan automáticamente, de forma que puede colaborar fácilmente con los demás. Los compañeros reciben exactamente el mismo cuaderno, que se guarda en el mismo lugar.
Creación de algoritmos	Algoritmos preintegrados de Amazon SageMaker	Algoritmos de machine learning escalables y de alto rendimiento optimizados para brindar velocidad y precisión, que pueden realizar entrenamiento en conjuntos de datos a escala de petabytes.
Optimización del marco de aprendizaje profundo	Amazon SageMaker	Los principales marcos se configuran y optimizan automáticamente para alcanzar un alto rendimiento. No necesita configurar los marcos de forma manual y puede utilizarlos dentro de los contenedores incorporados.
Introducción al uso de múltiples marcos de ML	AMI de aprendizaje profundo de AWS	Permite a los usuarios lanzar rápidamente instancias de Amazon EC2 preinstaladas con marcos e interfaces de aprendizaje profundo populares, como TensorFlow, PyTorch y Apache MXNet.
Introducción al uso de contenedores con múltiples marcos de trabajo de ML	Contenedores de aprendizaje profundo de AWS	Las imágenes de Docker preinstaladas con marcos de aprendizaje profundo facilitan el despliegue rápido de entornos de machine learning personalizados.

Desafío	Solución de AWS	Cómo
Entrenamiento a gran escala, con plazos definidos y ajustado a los costes	Instancias Trn1 de EC2 impulsadas por AWS Trainium	Las instancias Trn1 de Amazon EC2, impulsadas por los chips de AWS Trainium, están diseñadas específicamente para el aprendizaje profundo de alto rendimiento y ofrecen el mejor rendimiento de precio para el entrenamiento de modelos de aprendizaje profundo en la nube.
Entrenamiento ajustado a los costes	Instancias DL1 de EC2 impulsadas por Habana Gaudi	Las instancias DL1 de Amazon EC2, impulsadas por los aceleradores Gaudi de Habana Labs, una empresa de Intel, están diseñadas para el entrenamiento de modelos de aprendizaje profundo. Utilizan hasta 8 aceleradores Gaudi y mejoran en hasta un 40 % la relación rendimiento-precio en comparación con las actuales instancias de EC2 basadas en GPU para el entrenamiento de modelos de aprendizaje profundo.
Entrenamiento a gran escala y con plazos definidos	Instancias P4 de Amazon EC2	Las instancias P4d ofrecen el entrenamiento de machine learning de mayor rendimiento en la nube con 8 GPU NVIDIA A100 con núcleo Tensor, red de instancia de 400 Gbps y soporte para Elastic Fabric Adapter (EFA) con NVIDIA GPUDirect RDMA (acceso remoto directo a memoria). Las instancias P4d se despliegan en clústeres de hiperescala denominados UltraClusters EC2 que proporcionan un rendimiento de clase superordenador para los desarrolladores de ML, investigadores y científicos de datos de todos los días.
Entrenamiento a gran escala y con plazos definidos	Instancias P3 de Amazon EC2	Las instancias P3 ofrecen hasta un petaflop de rendimiento de precisión mixta por instancia con hasta 8 GPU NVIDIA® V100 con núcleo Tensor y hasta 100 Gbps de rendimiento de red.
Entrenamiento a pequeña escala y ajustado a los costes	Instancias G5 de Amazon EC2	Las instancias G5 ofrecen un rendimiento hasta 3,3 veces mayor para el entrenamiento del machine learning en comparación con las instancias G4dn.
Entrenamiento a pequeña escala y ajustado a los costes	Instancias G4 de Amazon EC2	Las instancias G4 ofrecen hasta 65 TFLOPS de rendimiento FP16 y son una atractiva solución para los trabajos de entrenamiento a pequeña escala.

Desafío	Solución de AWS	Cómo
Entrenamiento de varios nodos	Elastic Fabric Adapter	EFA permite a los clientes ejecutar aplicaciones que requieren altos niveles de comunicación entre nodos a escala utilizando una interfaz de hardware de derivación del sistema operativo (OS) personalizada.
Orquestación de contenedores complejos altamente escalables	Amazon Elastic Container Service (ECS)	ECS es un servicio de orquestación de contenedores completamente administrado.
Orquestación de Kubernetes altamente escalable	Amazon Elastic Kubernetes Service (EKS)	Puede usar Kubeflow con EKS para modelar sus flujos de trabajo de machine learning y ejecutar de manera eficaz trabajos de entrenamiento distribuidos.
Entrenamiento a gran escala	AWS Batch	Batch aprovisiona de manera dinámica la cantidad y el tipo óptimos de recursos de computación en función del volumen y los requisitos específicos de recursos de los trabajos por lotes enviados.
Optimización del rendimiento para el entrenamiento a gran escala	AWS ParallelCluster	AWS ParallelCluster configura automáticamente los recursos informáticos necesarios y los sistemas de archivos compartidos para los proyectos de entrenamiento de ML a gran escala.

Desafío	Solución de AWS	Cómo
Almacenamiento escalable	Amazon S3	S3 puede alcanzar fácilmente miles de transacciones por segundo como nivel de almacenamiento.
Rendimiento y latencia del acceso al almacenamiento	Amazon FSx para Lustre	FSx para Lustre integrado con S3 ofrece un almacenamiento de archivos compartido con un alto rendimiento y unas latencias bajas y constantes.
Procesamiento por lotes en ubicaciones centrales	Amazon Elastic File System (EFS)	EFS proporciona un fácil acceso a grandes conjuntos de datos de machine learning o a código compartido, directamente desde un entorno de ordenador portátil, sin necesidad de proporcionar almacenamiento o preocuparse por la administración del sistema de archivos de la red.
Alto rendimiento de E/S para el almacenamiento temporal de trabajo	Amazon Elastic Block Store (EBS)	EBS permite una latencia de un dígito de milisegundo para las necesidades de almacenamiento de alto rendimiento.

Desafío	Solución de AWS	Cómo
Administración y seguimiento de experimentos	Amazon SageMaker Experiments	Evalúe y organice los experimentos de entrenamiento de forma fácil y escalable, organice miles de experimentos de entrenamiento, registre los artefactos de los experimentos y visualice los modelos rápidamente.
Modelos de depuración	Depurador de Amazon SageMaker	Una interfaz visual para analizar los datos de depuración y observar indicadores visuales sobre posibles anomalías en el proceso de entrenamiento.
Adaptación de modelos	Ajuste automático de modelos de Amazon SageMaker	Puede ajustar automáticamente modelos mediante la adecuación de miles de combinaciones diferentes de parámetros de algoritmos para lograr las predicciones más precisas que el modelo es capaz de generar.

Desafío	Solución de AWS	Cómo
Alto coste y bajo rendimiento	Instancias Inf1 de Amazon EC2	Las instancias Inf1 ofrecen hasta 16 chips de AWS Inferentia, chips de inferencia de machine learning de alto rendimiento diseñados y creados por AWS.
Inferencia para modelos que usan las bibliotecas NVIDIA CUDA, CuDNN o TensorRT	Instancias G5 de Amazon EC2	Las instancias G5 cuentan con hasta 8 GPU NVIDIA A10G con núcleo Tensor y ofrecen un rendimiento hasta 3 veces mayor para la inferencia de machine learning en comparación con las instancias G4dn.
Inferencia para modelos que usan las bibliotecas NVIDIA CUDA, CuDNN o TensorRT	Instancias G4 de Amazon EC2	Las instancias G4 están equipadas con las GPU T4 de NVIDIA, que ofrecen un rendimiento de baja latencia hasta 40 veces mayor al de las CPU.
Inferencia para modelos que aprovechan las instrucciones de redes neuronales vectoriales Intel AVX-512 (AVX512 VNNI)	Instancias C5 de Amazon EC2	Las instancias C5 incluyen Intel AVX-512 VNNI, que ayuda a agilizar las operaciones de machine learning normales, como la convolución, y mejora automáticamente el rendimiento de la inferencia en una amplia gama de cargas de trabajo de aprendizaje profundo.
Aceleración de la inferencia de tamaño adecuado para una óptima relación precio/rendimiento	Amazon Elastic Inference	Elastic Inference le permite adjuntar a las instancias de Amazon EC2 una aceleración de bajo coste basada en GPU.
Inferencia de baja latencia, procesamiento local de datos o requisitos de almacenamiento	AWS Outposts	AWS Outposts es un servicio completamente administrado que amplía la infraestructura de AWS, los servicios de AWS, las API y las herramientas a prácticamente cualquier centro de datos, espacio de coubicación o instalación local.

Desafío	Solución de AWS	Cómo
Escalado complejo de la infraestructura	AWS CloudFormation	CloudFormation permite utilizar lenguajes de programación o un archivo de texto simple para modelar y aprovisionar, de una manera segura y automatizada, todos los recursos necesarios para las aplicaciones en todas las regiones y cuentas.
Escalabilidad imprevisible de la infraestructura	AWS Auto Scaling	AWS Auto Scaling monitorea las aplicaciones y ajusta automáticamente la capacidad para mantener un rendimiento estable y predecible al menor coste posible.
Uso imprevisible de las instancias de EC2	Flota de Amazon EC2	Con una sola llamada a la API, puede aprovisionar capacidad entre distintos tipos de instancias de EC2 y modelos de compra, para conseguir la escala, el rendimiento y el coste deseados.
Garantizar la precisión del modelo	Monitor de modelos de Amazon SageMaker	Supervise continuamente la calidad de los modelos de machine learning en producción y reciba una alerta cuando haya desviaciones en la calidad del modelo sin necesidad de crear herramientas adicionales.
Administrar los costes de inferencia	Puntos de conexión de varios modelos de Amazon SageMaker	Despliegue varios modelos con un solo clic en un único punto de conexión y utilícelos usando un solo contenedor de servicio para proporcionar una forma escalable y rentable de desplegar un gran número de modelos.

Caso de uso	Solución de AWS	Cómo
Trabajos de entrenamiento a corto plazo	Precios de la modalidad bajo demanda	Con las instancias bajo demanda, paga por la capacidad de computación por hora o por segundo, según las instancias que use.
Trabajos de entrenamiento que tienen horarios flexibles de principio a fin	Precios de las instancias de spot	Las instancias de spot de Amazon EC2 le permiten solicitar capacidad de computación sobrante de Amazon EC2 con descuentos de hasta el 90 % en comparación con el precio de las instancias bajo demanda.
Cargas de trabajo de machine learning constantes sobre diferentes tipos de instancias durante un largo periodo de tiempo	Saving Plans	Saving Plans ofrece un ahorro significativo respecto a los precios bajo demanda, a cambio de un compromiso de uso de una cantidad específica de potencia de computación durante un periodo de uno o tres años.

Infraestructura de AWS Machine Learning

Elija entre un amplio conjunto de servicios de machine learning

Servicios de infraestructura de machine learning

Clientes destacados

Según los números

Ventajas

Computación: reduzca el tiempo de entrenamiento a minutos y sobrecargue su inferencia

Red de trabajo: infraestructura escalable para un entrenamiento distribuido eficiente o una inferencia a escala horizontal

Almacenamiento: opciones ideales para crear lagos de datos o administrar datos etiquetados

El coste más bajo de la industria para la inferencia ML

Amplia selección de instancias de GPU para optimizar el tiempo y el coste de entrenamiento, disponibles a escala

Compatibilidad con todos los principales marcos de machine learning

Optimizaciones que se conectan bajo los marcos

Opciones de precios

Recursos adicionales

Finalización de la compatibilidad con Internet Explorer