Infraestructura de AWS Machine Learning

Infraestructura de alto rendimiento, rentable y escalable para cada carga de trabajo

En AWS se crean más recursos de machine learning que en cualquier otra parte

Cada vez más clientes, procedentes de diferentes sectores, eligen AWS en comparación con cualquier otra nube para crear, entrenar y desplegar sus aplicaciones de machine learning (ML). AWS suministra la más amplia gama de opciones potentes de computación, redes de alta velocidad y almacenamiento escalable de alto rendimiento para cualquier proyecto o aplicación de ML.

Cada proyecto de ML es diferente y, con AWS, puede personalizar su infraestructura para que se ajuste a sus requisitos de rendimiento y presupuesto. Desde el uso del marco de ML que mejor funciona para el equipo, hasta la selección de la plataforma de hardware adecuada para alojar los modelos de ML, AWS ofrece una amplia gama de servicios para satisfacer sus necesidades.

Las empresas han encontrado nuevas formas de aprovechar el ML para los motores de recomendaciones, la detección de objetos, los asistentes de voz, la detección de fraudes y mucho más. Aunque el uso del ML está ganando adeptos, el entrenamiento y el despliegue de modelos de ML son costosos, el tiempo de desarrollo de los modelos es largo y la adquisición de la infraestructura adecuada para satisfacer las condiciones cambiantes del negocio puede ser todo un reto. Los servicios de infraestructura de ML de AWS eliminan las barreras para la adopción del ML al ser de alto rendimiento, rentables y altamente flexibles.

Infraestructura de ML de AWS: de alto rendimiento, rentable y altamente flexible (3:20)

Elija entre un amplio conjunto de servicios de machine learning

El siguiente gráfico ilustra la profundidad y amplitud de los servicios que ofrece AWS. Los servicios de flujo de trabajo, mostrados en la capa superior, le facilitan la gestión y el escalado de la infraestructura de ML subyacente. La siguiente capa destaca que la infraestructura de ML de AWS es compatible con todos los principales marcos de ML. La capa inferior muestra ejemplos de servicios de computación, redes y almacenamiento que constituyen los bloques fundacionales de la infraestructura de ML.

Elija entre un amplio conjunto de servicios de machine learning

Servicios de infraestructura de machine learning

El desarrollo tradicional del ML es un proceso complejo, caro e iterativo. En primer lugar, hay que preparar datos de ejemplo para entrenar un modelo. A continuación, los desarrolladores deben seleccionar el algoritmo o el marco que utilizarán para desarrollar el modelo. Luego, tienen que entrenar al modelo sobre cómo hacer predicciones y ajustarlo para que ofrezca las mejores predicciones posibles. Por último, tienen que integrar el modelo con su aplicación y desplegarla en una infraestructura que sea escalable.

  • Preparación
  • Los científicos de datos suelen dedicar mucho tiempo a la exploración y al preprocesamiento, o «debate», de datos de ejemplo antes de utilizarlos para el entrenamiento de modelos. Para el preprocesamiento de los datos, lo normal es que se recoja la información en un repositorio, se limpien los datos filtrándolos y modificándolos para que sean más fáciles de explorar, se preparen o transformen los datos en conjuntos de datos significativos filtrando las partes que no se quieren o necesitan, y se etiqueten los datos.

    Desafío Solución de AWS Cómo
    Etiquetado manual de datos Amazon Mechanical Turk Proporciona recursos humanos escalables y bajo demanda para completar las tareas.
    Etiquetado manual de datos Amazon SageMaker Ground Truth Automatiza el etiquetado mediante el entrenamiento de Ground Truth a partir de datos etiquetados por seres humanos para que el servicio aprenda a etiquetar los datos de forma independiente.
    Gestione y amplíe el procesamiento de datos Procesamiento de Amazon SageMaker Extienda una experiencia administrada completa a las cargas de trabajo de procesamiento de datos. Conéctese a los orígenes de datos de sistemas de archivos o de almacenamiento existentes, active los recursos necesarios para ejecutar su trabajo, guarde los resultados en un almacenamiento persistente y examine los registros y las métricas.
    Administración de grandes cantidades de datos necesarios para entrenar los modelos Amazon EMR Procesa de forma rápida y rentable grandes cantidades de datos a escala.
    Almacenamiento de archivos compartidos de grandes cantidades de datos necesarios para entrenar los modelos
    Amazon S3 Ofrece una disponibilidad global de almacenamiento duradero de datos a largo plazo en un formato de acceso fácil de obtener y utilizar.
  • Creación
  • Una vez que disponga de los datos de entrenamiento, deberá elegir un algoritmo de machine learning con un estilo de aprendizaje que se ajuste a sus necesidades. Estos algoritmos pueden clasificarse a grandes rasgos como aprendizaje supervisado, aprendizaje no supervisado o aprendizaje por refuerzo. Para ayudarle en el desarrollo de su modelo, existen diferentes marcos de machine learning, como TensorFlow, Pytorch y MXNet, con bibliotecas y herramientas que facilitan el desarrollo.

    Desafío Solución de AWS Cómo
    Acceso a los cuadernos de Jupyter Cuadernos de Jupyter alojados Cuadernos de Jupyter alojados que se ejecutan en una instancia de EC2 de su elección.
    Uso compartido y colaboración en los cuadernos de Jupyter Cuadernos de Amazon SageMaker Cuadernos de Jupyter completamente administrados con los que podrá empezar a trabajar en cuestión de segundos y compartirlos con un solo clic. Las dependencias del código se capturan automáticamente, de forma que puede colaborar fácilmente con los demás. Los compañeros reciben exactamente el mismo cuaderno, que se guarda en el mismo lugar.
    Creación de algoritmos Algoritmos preintegrados de Amazon SageMaker Algoritmos de machine learning escalables y de alto rendimiento optimizados para brindar velocidad y precisión, que pueden realizar entrenamiento en conjuntos de datos a escala de petabytes.
    Optimización del marco de aprendizaje profundo Amazon SageMaker Los principales marcos se configuran y optimizan automáticamente para alcanzar un alto rendimiento. No necesita configurar los marcos de forma manual y puede utilizarlos dentro de los contenedores incorporados.
    Introducción al uso de múltiples marcos de ML AMI de aprendizaje profundo de AWS Permite a los usuarios lanzar rápidamente instancias de Amazon EC2 preinstaladas con marcos e interfaces de aprendizaje profundo populares, como TensorFlow, PyTorch y Apache MXNet.
    Introducción al uso de contenedores con múltiples marcos de trabajo de ML   Contenedores de aprendizaje profundo de AWS Las imágenes de Docker preinstaladas con marcos de aprendizaje profundo facilitan el despliegue rápido de entornos de machine learning personalizados.
  • Entrenamiento
  • Después de crear su modelo, necesita recursos de computación, de red y de almacenamiento para entrenarlo. El entrenamiento de modelos más ágil puede permitir que los científicos de datos y los ingenieros de machine learning iteren en menos tiempo, entrenen más modelos e incrementen el nivel de precisión. Después de haber entrenado su modelo, lo evalúa para determinar si la precisión de las inferencias es aceptable.

    Instancias

    Desafío
    Solución de AWS            Cómo
    Entrenamiento a gran escala, con plazos definidos y ajustado a los costes Instancias Trn1 de EC2 impulsadas por AWS Trainium

    Las instancias Trn1 de Amazon EC2, impulsadas por los chips de AWS Trainium, están diseñadas específicamente para el aprendizaje profundo de alto rendimiento y ofrecen el mejor rendimiento de precio para el entrenamiento de modelos de aprendizaje profundo en la nube.

    Entrenamiento ajustado a los costes Instancias DL1 de EC2 impulsadas por Habana Gaudi

    Las instancias DL1 de Amazon EC2, impulsadas por los aceleradores Gaudi de Habana Labs, una empresa de Intel, están diseñadas para el entrenamiento de modelos de aprendizaje profundo. Utilizan hasta 8 aceleradores Gaudi y mejoran en hasta un 40 % la relación rendimiento-precio en comparación con las actuales instancias de EC2 basadas en GPU para el entrenamiento de modelos de aprendizaje profundo.

    Entrenamiento a gran escala y con plazos definidos Instancias P4 de Amazon EC2 Las instancias P4d ofrecen el entrenamiento de machine learning de mayor rendimiento en la nube con 8 GPU NVIDIA A100 con núcleo Tensor, red de instancia de 400 Gbps y soporte para Elastic Fabric Adapter (EFA) con NVIDIA GPUDirect RDMA (acceso remoto directo a memoria). Las instancias P4d se despliegan en clústeres de hiperescala denominados UltraClusters EC2 que proporcionan un rendimiento de clase superordenador para los desarrolladores de ML, investigadores y científicos de datos de todos los días.
    Entrenamiento a gran escala y con plazos definidos Instancias P3 de Amazon EC2 Las instancias P3 ofrecen hasta un petaflop de rendimiento de precisión mixta por instancia con hasta 8 GPU NVIDIA® V100 con núcleo Tensor y hasta 100 Gbps de rendimiento de red.
    Entrenamiento a pequeña escala y ajustado a los costes Instancias G5 de Amazon EC2

    Las instancias G5 ofrecen un rendimiento hasta 3,3 veces mayor para el entrenamiento del machine learning en comparación con las instancias G4dn.

    Entrenamiento a pequeña escala y ajustado a los costes Instancias G4 de Amazon EC2 Las instancias G4 ofrecen hasta 65 TFLOPS de rendimiento FP16 y son una atractiva solución para los trabajos de entrenamiento a pequeña escala.

    Servicios de orquestación

    Desafío Solución de AWS Cómo
    Entrenamiento de varios nodos Elastic Fabric Adapter EFA permite a los clientes ejecutar aplicaciones que requieren altos niveles de comunicación entre nodos a escala utilizando una interfaz de hardware de derivación del sistema operativo (OS) personalizada.
    Orquestación de contenedores complejos altamente escalables Amazon Elastic Container Service (ECS) ECS es un servicio de orquestación de contenedores completamente administrado.
    Orquestación de Kubernetes altamente escalable Amazon Elastic Kubernetes Service (EKS) Puede usar Kubeflow con EKS para modelar sus flujos de trabajo de machine learning y ejecutar de manera eficaz trabajos de entrenamiento distribuidos.
    Entrenamiento a gran escala AWS Batch Batch aprovisiona de manera dinámica la cantidad y el tipo óptimos de recursos de computación en función del volumen y los requisitos específicos de recursos de los trabajos por lotes enviados.
    Optimización del rendimiento para el entrenamiento a gran escala AWS ParallelCluster AWS ParallelCluster configura automáticamente los recursos informáticos necesarios y los sistemas de archivos compartidos para los proyectos de entrenamiento de ML a gran escala.

    Almacenamiento

    Desafío Solución de AWS Cómo
    Almacenamiento escalable Amazon S3 S3 puede alcanzar fácilmente miles de transacciones por segundo como nivel de almacenamiento.
    Rendimiento y latencia del acceso al almacenamiento Amazon FSx para Lustre FSx para Lustre integrado con S3 ofrece un almacenamiento de archivos compartido con un alto rendimiento y unas latencias bajas y constantes.
    Procesamiento por lotes en ubicaciones centrales Amazon Elastic File System (EFS) EFS proporciona un fácil acceso a grandes conjuntos de datos de machine learning o a código compartido, directamente desde un entorno de ordenador portátil, sin necesidad de proporcionar almacenamiento o preocuparse por la administración del sistema de archivos de la red.
    Alto rendimiento de E/S para el almacenamiento temporal de trabajo Amazon Elastic Block Store (EBS) EBS permite una latencia de un dígito de milisegundo para las necesidades de almacenamiento de alto rendimiento.

    Servicios completamente administrados

    Desafío Solución de AWS Cómo
    Administración y seguimiento de experimentos Amazon SageMaker Experiments Evalúe y organice los experimentos de entrenamiento de forma fácil y escalable, organice miles de experimentos de entrenamiento, registre los artefactos de los experimentos y visualice los modelos rápidamente.
    Modelos de depuración Depurador de Amazon SageMaker Una interfaz visual para analizar los datos de depuración y observar indicadores visuales sobre posibles anomalías en el proceso de entrenamiento.
    Adaptación de modelos Ajuste automático de modelos de Amazon SageMaker Puede ajustar automáticamente modelos mediante la adecuación de miles de combinaciones diferentes de parámetros de algoritmos para lograr las predicciones más precisas que el modelo es capaz de generar.
  • Despliegue
  • Una vez que haya completado el entrenamiento y la optimización de su modelo hasta el nivel deseado de exactitud y precisión, póngalo en funcionamiento para hacer predicciones. La inferencia es lo que realmente representa la gran mayoría del coste del machine learning. Según los clientes, la inferencia del machine learning puede representar hasta el 90 % de los costes operativos globales para ejecutar cargas de trabajo de machine learning.

    Instancias

    Desafío Solución de AWS Cómo
    Alto coste y bajo rendimiento Instancias Inf1 de Amazon EC2 Las instancias Inf1 ofrecen hasta 16 chips de AWS Inferentia, chips de inferencia de machine learning de alto rendimiento diseñados y creados por AWS.

    Inferencia para modelos que usan las bibliotecas NVIDIA CUDA, CuDNN o TensorRT

    Instancias G5 de Amazon EC2

    Las instancias G5 cuentan con hasta 8 GPU NVIDIA A10G con núcleo Tensor y ofrecen un rendimiento hasta 3 veces mayor para la inferencia de machine learning en comparación con las instancias G4dn.

    Inferencia para modelos que usan las bibliotecas NVIDIA CUDA, CuDNN o TensorRT Instancias G4 de Amazon EC2 Las instancias G4 están equipadas con las GPU T4 de NVIDIA, que ofrecen un rendimiento de baja latencia hasta 40 veces mayor al de las CPU.
    Inferencia para modelos que aprovechan las instrucciones de redes neuronales vectoriales Intel AVX-512 (AVX512 VNNI) Instancias C5 de Amazon EC2 Las instancias C5 incluyen Intel AVX-512 VNNI, que ayuda a agilizar las operaciones de machine learning normales, como la convolución, y mejora automáticamente el rendimiento de la inferencia en una amplia gama de cargas de trabajo de aprendizaje profundo.
    Aceleración de la inferencia de tamaño adecuado para una óptima relación precio/rendimiento Amazon Elastic Inference Elastic Inference le permite adjuntar a las instancias de Amazon EC2 una aceleración de bajo coste basada en GPU.
    Inferencia de baja latencia, procesamiento local de datos o requisitos de almacenamiento
    AWS Outposts AWS Outposts es un servicio completamente administrado que amplía la infraestructura de AWS, los servicios de AWS, las API y las herramientas a prácticamente cualquier centro de datos, espacio de coubicación o instalación local.

    Inferencia de escala

    Desafío Solución de AWS Cómo
    Escalado complejo de la infraestructura AWS CloudFormation CloudFormation permite utilizar lenguajes de programación o un archivo de texto simple para modelar y aprovisionar, de una manera segura y automatizada, todos los recursos necesarios para las aplicaciones en todas las regiones y cuentas.
    Escalabilidad imprevisible de la infraestructura AWS Auto Scaling AWS Auto Scaling monitorea las aplicaciones y ajusta automáticamente la capacidad para mantener un rendimiento estable y predecible al menor coste posible.
    Uso imprevisible de las instancias de EC2 Flota de Amazon EC2 Con una sola llamada a la API, puede aprovisionar capacidad entre distintos tipos de instancias de EC2 y modelos de compra, para conseguir la escala, el rendimiento y el coste deseados.
    Garantizar la precisión del modelo Monitor de modelos de Amazon SageMaker Supervise continuamente la calidad de los modelos de machine learning en producción y reciba una alerta cuando haya desviaciones en la calidad del modelo sin necesidad de crear herramientas adicionales.
    Administrar los costes de inferencia Puntos de conexión de varios modelos de Amazon SageMaker Despliegue varios modelos con un solo clic en un único punto de conexión y utilícelos usando un solo contenedor de servicio para proporcionar una forma escalable y rentable de desplegar un gran número de modelos.
Toyota

«Las instancias P3 nos ayudaron a reducir el tiempo de entrenamiento de los modelos de machine learning de días a horas y estamos deseando utilizar las instancias P4d, ya que la memoria GPU adicional y los formatos flotantes más eficientes nos permitirán formar modelos más complejos a una velocidad aún mayor».

Intuit

Intuit ha apostado por AWS y lo utiliza para servir mejor a sus clientes. Intuit usa Amazon SageMaker para entrenar sus modelos de machine learning de manera rápida y a escala, lo que permite disminuir el tiempo necesario para desplegar modelos en un 90 por ciento. Más información.

GE Healthcare

«Con clústeres GPU anteriores, nos tomaba días entrenar modelos de IA complejos, como GAN progresivas, para hacer simulaciones y ver resultados. Al utilizar las nuevas instancias P4d, redujimos el tiempo de procesamiento de días a horas. Vimos una velocidad entre dos y tres veces mayor en los modelos de entrenamiento».

Capital One

Capital One convierte datos en información a través de machine learning y permite que la empresa innove rápidamente en nombre de sus clientes. Capital One usa servicios de AWS, incluido Amazon S3, para respaldar sus proyectos de innovación basados en machine learning. Más información.

Zillow

Zillow ejecuta sus algoritmos de ML utilizando Spark en Amazon EMR para crear rápidamente clústeres escalables y utilizar las capacidades de procesamiento distribuido para procesar grandes conjuntos de datos casi en tiempo real, crear características y entrenar y puntuar millones de modelos de ML. Más información.

Según los números

Rendimiento

2,5 veces mejor

rendimiento del aprendizaje profundo para P4d en comparación con las instancias P3 de la generación anterior, ofreciendo el mayor rendimiento en la nube.

Rendimiento

62 minutos

es el tiempo récord para entrenar BERT con TensorFlow utilizando 256 instancias grandes P3dn.24x con 2048 GPU.

Bajo coste

40 % inferior

coste por inferencia para las instancias Inf1 en comparación con las instancias G4, ofreciendo el menor coste por inferencia en la nube.

Disponibilidad

22 a nivel mundial

regiones geográficas con hasta 69 zonas de disponibilidad a disposición de muchos servicios de infraestructura de machine learning de AWS.

Ventajas

  • Alto rendimiento
  • A menudo, la eficacia del desarrollo de los científicos de datos e ingenieros de ML está limitada por la frecuencia con la que pueden entrenar sus modelos de aprendizaje profundo para incorporar nuevas características, mejorar la precisión de las predicciones o ajustarse al desfase de datos. AWS proporciona una infraestructura de computación, redes y almacenamiento de alto rendimiento, disponible ampliamente en régimen de pago por uso, lo que permite a los equipos de desarrollo entrenar sus modelos en función de las necesidades y no dejar que la infraestructura frene su innovación.

    Computación: reduzca el tiempo de entrenamiento a minutos y sobrecargue su inferencia

    AWS proporciona las primeras instancias de la industria diseñadas específicamente para el entrenamiento e inferencia de ML.

    Las instancias Trn1 de Amazon EC2, impulsadas por los chips de AWS Trainium, están diseñadas específicamente para el entrenamiento de aprendizaje profundo de alto rendimiento y rentable. Estas instancias ofrecen un rendimiento líder en el sector y un ahorro de hasta el 50 % en el coste por entrenamiento en comparación con las instancias basadas en GPU. Las instancias Trn1 se basan en un máximo de 16 chips de AWS Trainium. Cada chip incluye dos aceleradores NeuronCore de segunda generación diseñados específicamente para algoritmos de aprendizaje profundo. Las instancias Trn1 son las primeras instancias de EC2 que tienen un ancho de banda de la red de hasta 800 Gbps para Elastic Fabric Adapter (EFA). Se despliegan en UltraClusters EC2 que permiten escalar hasta 30 000 aceleradores de Trainium, que se interconectan con redes a escala sin bloqueos de petabits para proporcionar hasta 6,3 exaflops de computación.

    Trn1 de Amazon EC2

    Para el despliegue de modelos entrenados en producción, las instancias Inf1 de Amazon EC2 ofrecen un alto rendimiento y la inferencia de aprendizaje profundo de máquinas de menor coste en la nube. Estas instancias cuentan con los chips de AWS Inferentia, chips de inferencia de machine learning de alto rendimiento diseñados y construidos por AWS. Cada instancia Inf1 tiene entre 1 y 16 chips de AWS Inferentia, por lo que pueden aumentar el rendimiento hasta 2000 teraoperaciones por segundo (TOPS).

    Inf1 de Amazon EC2

    Red de trabajo: infraestructura escalable para un entrenamiento distribuido eficiente o una inferencia a escala horizontal

    El entrenamiento de un modelo grande lleva tiempo, y cuanto más grande y complejo sea el modelo, más tiempo llevará el entrenamiento. AWS dispone de varias soluciones de red para ayudar a los clientes a escalar sus despliegues de varios nodos para reducir el tiempo de entrenamiento. Elastic Fabric Adapter (EFA) es una interfaz de red para instancias de Amazon EC2 que permite al cliente ejecutar aplicaciones que requieren altos niveles de comunicación entre nodos a escala en AWS. Su interfaz de hardware de desvío del sistema operativo diseñada a medida mejora el rendimiento de las comunicaciones entre instancias, lo cual es fundamental para ajustar la escala de forma eficiente. Con EFA, las aplicaciones de entrenamiento de machine learning que utilizan NVIDIA Collective Communications Library (NCCL) pueden escalar a miles de GPU. Junto con un ancho de banda de red de hasta 400 Gbps por instancia y NVIDIA GPUDirect RDMA (acceso directo remoto a la memoria) para una comunicación de baja latencia de GPU a GPU entre instancias, se obtiene el rendimiento de los costosos clústeres de GPU locales con la elasticidad y flexibilidad bajo demanda de la nube de AWS.

    Page-Illo_EC2 Overviews and Features_Enhanced Networking and EFA.png

    Almacenamiento: opciones ideales para crear lagos de datos o administrar datos etiquetados

    Organizaciones de todos los tamaños, en todos los sectores, están utilizando los lagos de datos para transformar los datos de un coste que debe administrarse en un activo empresarial que puede utilizarse para obtener valiosos conocimientos empresariales o para proporcionar experiencias mejoradas a los clientes con la ayuda del machine learning. Amazon Simple Storage Service (S3) es el mayor servicio de almacenamiento de objetos y el de mejor rendimiento para datos estructurados y no estructurados, y el principal servicio de almacenamiento para crear un lago de datos. Con Amazon S3, puede crear y escalar de forma rentable un lago de datos de cualquier tamaño en un entorno seguro donde los datos están protegidos por un 99,999999999 % (11 nueves) de durabilidad. Para el entrenamiento distribuido, si necesita un acceso más rápido a sus datos etiquetados, Amazon FSx para Lustre ofrece un rendimiento optimizado para latencias de menos de un milisegundo y un rendimiento que escala a cientos de gigabytes por segundo. FSx para Lustre se integra con Amazon S3, lo que facilita el procesamiento de conjuntos de datos con el sistema de archivos de Lustre. Cuando está vinculado a un bucket de S3, un sistema de archivos de FSx para Lustre presenta de manera transparente los objetos de S3 como archivos y le permite escribir nuevamente los datos modificados en S3.

    Amazon Simple Storage Service (S3)
  • Rentabilidad
  • Las organizaciones están adoptando rápidamente el uso del aprendizaje profundo para desarrollar aplicaciones nunca vistas. Junto con el rápido aumento de la complejidad de los modelos, el coste de crear, entrenar y desplegar aplicaciones de machine learning se eleva rápidamente. A medida que las empresas pasan de explorar y experimentar con el machine learning a desplegar sus aplicaciones a escala, AWS ofrece la combinación ideal de rendimiento y servicios de infraestructura de bajo coste en todo el ciclo de vida del desarrollo de aplicaciones.

    El coste más bajo de la industria para la inferencia ML

    La inferencia del machine learning puede representar hasta el 90 % de los costes operativos generales para ejecutar aplicaciones de machine learning en producción. Las instancias Inf1 de Amazon EC2 ofrecen un alto rendimiento y la inferencia de machine learning de menor coste en la nube. Las instancias Inf1 se crean desde cero para ser compatibles con las aplicaciones de inferencia de machine learning. Ofrecen hasta 16 chips de AWS Inferentia, chips de inferencia de machine learning de alto rendimiento diseñados y creados por AWS. Cada chip de AWS Inferentia admite hasta 128 TOPS (billones de operaciones por segundo) de rendimiento a baja potencia para permitir una alta eficiencia de rendimiento.

    Inf1 de Amazon EC2

    Para las aplicaciones que necesitan GPU para ejecutar sus modelos en producción, las instancias G4 de Amazon EC2 son las instancias GPU más rentables del sector. Con las GPU T4 de NVIDIA, estas instancias están disponibles en diferentes tamaños con acceso a una GPU o a varias GPU con diferentes cantidades de vCPU y memoria, lo que le ofrece la flexibilidad de elegir el tamaño de instancia adecuado para sus aplicaciones.

    G4 de Amazon EC2

    No todos los modelos de machine learning son iguales, y distintos modelos se benefician de diferentes niveles de aceleración de hardware. Las instancias C5 de Amazon EC2 basadas en Intel ofrecen el precio más bajo por vCPU de la familia de Amazon EC2 y son idóneas para ejecutar cargas de trabajo avanzadas que requieren el uso intensivo de recursos de computación. Estas instancias son compatibles con Intel Deep Learning Boost y pueden ofrecer un equilibrio ideal entre rendimiento y coste para ejecutar modelos de ML en producción.

    C5 de Amazon EC2

    Amazon Elastic Inference le permite adjuntar la aceleración impulsada por GPU de bajo coste a las instancias de Amazon EC2, las instancias de Amazon SageMaker o tareas de Amazon ECS para reducir el coste de ejecutar la inferencia de aprendizaje profundo hasta un 75 %.

    Amazon Elastic Inference

    Amplia selección de instancias de GPU para optimizar el tiempo y el coste de entrenamiento, disponibles a escala

    Dependiendo del tipo de aplicación de machine learning, los clientes prefieren optimizar sus ciclos de desarrollo para reducir el tiempo de entrenamiento de sus modelos de ML o reducir su coste total de entrenamiento. En la mayoría de los casos, los costes de entrenamiento incluyen no solo el coste del entrenamiento, sino también el de oportunidad del tiempo que los ingenieros de ML y los científicos de datos podrían haber dedicado a optimizar su modelo.

    Las instancias G4 de Amazon EC2 ofrecen la plataforma de GPU más rentable del sector. Estas instancias son óptimas para entrenar modelos menos complejos y resultan ideales para las empresas o instituciones que son menos sensibles al tiempo de entrenamiento. Las instancias G4 proporcionan acceso a hasta ocho GPU T4 de NVIDIA, cada una de las cuales ofrece hasta 65 TFLOPS de rendimiento FP16.

    G4 de Amazon EC2

    Las instancias P4 de Amazon EC2 ofrecen el mejor rendimiento de su clase en instancias individuales y en entrenamiento distribuido, lo que permite a los equipos de ingeniería reducir significativamente los tiempos de iteración de sus modelos, acelerar el tiempo de comercialización y optimizar sus gastos generales de ingeniería. Estas instancias ofrecen un coste hasta un 60 % menor en comparación con las instancias P3 de la generación anterior y pueden desplegarse a través de todas las opciones de precios de EC2 con un descuento de hasta un 90 % utilizando instancias de spot. Dado que el rendimiento de las GPU y los aceleradores de hardware de ML mejora al menos 2 veces cada 18 meses, el uso de la infraestructura de AWS en un modelo de pago por uso le ofrece la posibilidad de aprovechar el mejor rendimiento en cuanto a precio sin bloquear un valioso CapEx para clústeres locales que tienen una vida útil limitada.

    P4 de Amazon EC2

    Las instancias P3 y P3dn de Amazon EC2 ofrecen computación de alto rendimiento en la nube con hasta 8 GPU NVIDIA® P3dn con núcleo Tensor y hasta 100 Gbps de rendimiento de redes que puede utilizar en proyectos de machine learning y aplicaciones HPC. Estas instancias ofrecen hasta un petaflop de rendimiento de precisión combinada por instancia para acelerar significativamente el machine learning y las aplicaciones de computación de alto rendimiento. Las instancias P3 y P3dn se pueden encontrar en 4 tamaños que proporcionan hasta 8 GPU y 96 vCPU y están disponibles a nivel global en 18 regiones de AWS.

    Instancias P3 y P3dn de Amazon EC2
  • Alta flexibilidad
  • Compatibilidad con todos los principales marcos de machine learning

    Los marcos como TensorFlow y PyTorch sintetizan gran parte de los pequeños detalles sin importancia del despliegue de la creación de modelos de ML permitiendo a los desarrolladores centrarse en la lógica general y el flujo de datos de su modelo. Más del 70 % de las empresas que están desarrollando aplicaciones de machine learning han declarado que sus equipos utilizan una mezcla de diferentes marcos de ML. La infraestructura de ML de AWS admite todos los marcos de aprendizaje profundo más populares, lo que permite a sus equipos elegir el marco adecuado que se ajuste a sus preferencias y a la eficiencia del desarrollo.

    TensorFlow
    PyTorch
    mxnet
    Keras
    Gluon
    Horovod

    Optimizaciones que se conectan bajo los marcos

    En AWS, nos centramos mucho en permitir a los clientes no solo ejecutar sus cargas de trabajo de ML en AWS, sino también en darles la máxima libertad para elegir el marco de trabajo de ML o los servicios de infraestructura que mejor les funcionen. La optimización del software para entrenar y desplegar eficazmente los modelos en los servicios de infraestructura de AWS se integra con los marcos de ML más populares (TensorFlow, PyTorch y MXNet), lo que permite a los clientes seguir utilizando el marco de trabajo que prefieran y no estar limitados a un marco o arquitectura de hardware específicos. Operar a nivel de marco permite a los clientes la libertad de elegir siempre la mejor solución para sus necesidades, y no estar atados a una arquitectura de hardware o a un proveedor de nube específicos.

    AWS Neuron es el SDK para los chips de AWS Inferentia y AWS Trainium. Al utilizar AWS Neuron, puede ejecutar un entrenamiento de ML de alto rendimiento y rentable mediante instancias Trn1 de Amazon EC2 basadas en AWS Trainium. También puede ejecutar una inferencia de alto rendimiento y baja latencia utilizando instancias Inf1 de Amazon EC2 basadas en AWS Inferentia. AWS Neuron se integra de forma nativa con marcos populares como TensorFlow, PyTorch y MXNet. Para acelerar el entrenamiento con las instancias Trn1 de EC2 y la inferencia con las instancias Inf1 de EC2, puede utilizar sus modelos preentrenados y cambiar solo unas pocas líneas de código desde el marco.

    AWS Neuron

    Para dar soporte a un entrenamiento eficiente de varios nodos/distribuido, AWS ha integrado el Elastic Fabric Adapter (EFA) con NVIDIA Collective Communications Library (NCCL): una biblioteca para la comunicación entre múltiples GPU dentro de un solo nodo o a través de múltiples nodos. Al igual que con AWS Neuron, los clientes pueden seguir utilizando el marco de ML de su elección para crear sus modelos y aprovechar la optimización de la infraestructura de AWS.

    Nvidia

Opciones de precios

Las cargas de trabajo de entrenamiento e inferencia del machine learning pueden presentar características de estado estable (como el etiquetado por lotes de fotos cada hora para una gran población), de pico (como el lanzamiento de nuevos trabajos de entrenamiento o de recomendaciones de búsqueda durante los periodos de promoción), o ambas. AWS tiene opciones de precios y soluciones para ayudarle a optimizar el rendimiento y los costes de su infraestructura.

Opciones de precios

 

 

A: use instancias de spot para cargas de trabajo flexibles y tolerantes a fallos, como trabajos de entrenamiento de ML que no son sensibles al tiempo

B: use instancias bajo demanda para cargas de trabajo nuevas o con mucho estado, como los trabajos de entrenamiento de ML a corto plazo

C: use Saving Plans para cargas de trabajo de estado conocido/estable, como las cargas de trabajo de inferencia estable

Caso de uso Solución de AWS Cómo
Trabajos de entrenamiento a corto plazo Precios de la modalidad bajo demanda Con las instancias bajo demanda, paga por la capacidad de computación por hora o por segundo, según las instancias que use.
Trabajos de entrenamiento que tienen horarios flexibles de principio a fin Precios de las instancias de spot Las instancias de spot de Amazon EC2 le permiten solicitar capacidad de computación sobrante de Amazon EC2 con descuentos de hasta el 90 % en comparación con el precio de las instancias bajo demanda.
Cargas de trabajo de machine learning constantes sobre diferentes tipos de instancias durante un largo periodo de tiempo Saving Plans Saving Plans ofrece un ahorro significativo respecto a los precios bajo demanda, a cambio de un compromiso de uso de una cantidad específica de potencia de computación durante un periodo de uno o tres años.