Infraestrutura do AWS Machine Learning

Infraestrutura de alta performance, econômica e escalável para qualquer tipo de workload

Ocorre mais machine learning na AWS do que em qualquer outro lugar

Cada vez mais clientes em um conjunto diversificado de setores estão preferindo a AWS a qualquer outra nuvem para criar, treinar e implantar suas aplicações de machine learning (ML). A AWS oferece a mais ampla opção de computação poderosa, rede de alta velocidade e opções escaláveis de armazenamento de alta performance para qualquer projeto ou aplicação de ML.

Cada projeto de ML é diferente e, com a AWS, você pode personalizar sua infraestrutura de acordo com seus requisitos de performance e orçamento. Desde o uso da framework de ML mais apropriada para a sua equipe até a seleção da plataforma de hardware certa para hospedar seus modelos de ML, a AWS oferece uma ampla variedade de serviços para atender às suas necessidades.

As empresas descobriram novas maneiras de aproveitar o ML para mecanismos de recomendação, detecção de objetos, assistentes de voz, detecção de fraudes e muito mais. Embora o uso do ML esteja ganhando força, o treinamento e a implantação de modelos de ML são caros, o tempo de desenvolvimento de modelos é longo e adquirir a quantidade certa de infraestrutura para dar conta das mudanças nas condições dos negócios pode ser um grande desafio. Os serviços de infraestrutura do AWS ML removem as barreiras à adoção do ML por serem de alta performance, econômicos e altamente flexíveis.

Infraestrutura do AWS ML: alta performance, econômica e altamente flexível (3:20)

Escolha entre um amplo conjunto de serviços de machine learning

O gráfico abaixo ilustra a profundidade e a amplitude dos serviços que a AWS oferece. Os serviços de fluxo de trabalho, mostrados na camada superior, facilitam o gerenciamento e a escala da sua infraestrutura subjacente de ML. A próxima camada destaca que a infraestrutura de ML da AWS oferece suporte a todas as principais frameworks de ML. A camada inferior mostra exemplos de serviços de computação, rede e armazenamento que constituem os blocos fundamentais da infraestrutura de ML.

Escolha entre um amplo conjunto de serviços de machine learning

Serviços de infraestrutura de machine learning

O desenvolvimento tradicional do ML é um processo complexo, caro e iterativo. Primeiro, você precisa preparar dados de exemplo para treinar um modelo. Em seguida, os desenvolvedores precisam selecionar qual algoritmo ou framework utilizarão para criar o modelo. Em seguida, eles precisam treinar esse modelo sobre como fazer previsões e adaptá-lo para que ele forneça as melhores previsões possíveis. Finalmente, precisam integrar o modelo às suas aplicações e implantá-lo em uma infraestrutura que será ampliada.

  • Preparar
  • Os cientistas de dados geralmente gastam muito tempo explorando e pré-processando dados de exemplo, ou “queixando-se sobre eles”, antes de usá-los para treinamento de modelos. Para pré-processar dados, você normalmente os obtém em um repositório, limpe os dados filtrando-os e modificando-os para facilitar sua exploração, preparação ou transformação em conjuntos de dados significativos, com a remoção das partes indesejadas e desnecessárias, e depois rotula esses dados.

    Desafio Solução da AWS Como
    Rotulagem manual de dados Amazon Mechanical Turk Fornece uma força de trabalho humana sob demanda e escalável para concluir tarefas.
    Rotulagem manual de dados Amazon SageMaker Ground Truth Automatiza a rotulagem, treinando o Ground Truth a partir de dados rotulados por humanos, para que o serviço aprenda a rotular dados de maneira independente.
    Gerencie e amplie o processamento de dados Amazon SageMaker Processing Estenda uma experiência totalmente gerenciada a workloads de processamento de dados. Conecte-se a fontes de dados de sistema de arquivos ou armazenamento existentes, ative os recursos necessários para executar seu trabalho, salve a saída no armazenamento persistente e examine os logs e as métricas.
    Gerenciamento de grandes quantidades de dados necessários para treinar modelos Amazon EMR Processa grandes quantidades de dados em grande escala de maneira rápida e econômica.
    Armazenamento compartilhado de arquivos de grandes quantidades de dados necessários para treinar modelos
    Amazon S3 Oferece disponibilidade global de armazenamento durável de dados a longo prazo em um formato de obtenção/inserção prontamente acessível.
  • Desenvolver
  • Assim que tiver os dados de treinamento disponíveis, você precisará escolher um algoritmo de machine learning com um estilo de aprendizado que atenda às suas necessidades. Esses algoritmos podem ser amplamente classificados como aprendizado supervisionado, aprendizado não supervisionado ou aprendizado por reforço. Para ajudar você no desenvolvimento do seu modelo, diferentes frameworks de machine learning, como o TensorFlow, o Pytorch e o MXNet, estão disponíveis com bibliotecas e ferramentas para facilitar o desenvolvimento.

    Desafio Solução da AWS Como
    Acessar cadernos Jupyter Cadernos Jupyter hospedados Cadernos Jupyter hospedados em execução em uma instância do EC2 de sua escolha.
    Compartilhar e colaborar em cadernos Jupyter Blocos de anotações do Amazon SageMaker Cadernos Jupyter totalmente gerenciados nos quais você pode começar a trabalhar em segundos e compartilhar com um único clique. As dependências de código são capturadas automaticamente, para que você possa colaborar facilmente com outras pessoas. Os colegas recebem exatamente o mesmo cadernos, salvos no mesmo lugar.
    Criação de algoritmos Algoritmos pré-construídos do Amazon SageMaker Algoritmos de machine learning escaláveis e de alta performance, otimizados para velocidade e precisão e que podem executar treinamentos em conjuntos de dados em escala de petabytes.
    Otimização da framework de aprendizado profundo Amazon SageMaker As principais frameworks são configuradas e otimizadas automaticamente para alta performance. Você não precisa configurar manualmente essas frameworks e pode usá-las nos contêineres internos.
    Introdução ao uso de várias frameworks de ML AMIs de deep learning da AWS Permite que os usuários iniciem rapidamente instâncias do Amazon EC2 pré-instaladas com frameworks e interfaces populares de aprendizado profundo, como o TensorFlow, o PyTorch e o Apache MXNet.
    Introdução a contêineres usando várias frameworks de ML   Contêineres de deep learning da AWS Imagens do Docker pré-instaladas com frameworks de aprendizado profundo para facilitar a rápida implantação de ambientes personalizados de machine learning.
  • Treinar
  • Depois de criar seu modelo, você precisa de recursos de computação, rede e armazenamento para poder treiná-lo. O treinamento mais rápido de modelos permite que os cientistas de dados e os engenheiros de machine learning façam iterações com mais rapidez, treinem mais modelos e aumentem a precisão. Depois de treinar seu modelo, você o avalia para determinar se a precisão das inferências é aceitável.

    Instâncias

    Desafio
    Solução da AWS            Como
    Treinamento em grande escala com foco no tempo e nos custos Instâncias Trn1 do EC2 com a tecnologia AWS Trainium

    As instâncias Trn1 do Amazon EC2, equipadas com chips AWS Trainium, foram criadas sob medida para aprendizado profundo de alta performance e oferecem o melhor preço para treinar modelos de aprendizado profundo na nuvem.

    Treinamento com foco nos custos Instâncias DL1 do EC2 com a tecnologia Habana Gaudi

    As instâncias DL1 do Amazon EC2, com a tecnologia dos aceleradores Gaudi da Habana Labs, uma empresa da Intel, foram projetadas para treinar modelos de aprendizado profundo. Elas usam até 8 aceleradores Gaudi e oferecem preços até 40% melhores em comparação às instâncias atuais do EC2 baseadas em GPU para o treinamento de modelos de aprendizado profundo.

    Treinamento em grande escala com foco no tempo Instâncias P4 do Amazon EC2 As instâncias P4d oferecem o treinamento de machine learning de mais alta performance na nuvem, com 8 GPUs Tensor Core NVIDIA A100, redes de instâncias de 400 Gbps e suporte para Elastic Fabric Adapter (EFA) com acesso remoto direto à memória (RDMA) NVIDIA GPUDirect. As instâncias P4d são implantadas em clusters de hiperescala chamados de UltraClusters do EC2 que fornecem performance em nível de supercomputador para desenvolvedores, pesquisadores e cientistas de dados de ML comuns.
    Treinamento em grande escala com foco no tempo Instâncias P3 do Amazon EC2 As instâncias P3 oferecem até um petaflop de performance com precisão mista por instância com até 8 GPUs Tensor Core NVIDIA® V100 e até 100 Gbps de throughput de rede.
    Treinamento em pequena escala com foco nos custos Instâncias G5 do Amazon EC2

    As instâncias G5 oferecem performance até 3,3 vezes maior para treinamento de machine learning em comparação com instâncias G4dn.

    Treinamento em pequena escala com foco nos custos Instâncias G4 do Amazon EC2 As instâncias G4 oferecem até 65 TFLOPs de performance FP16 e são uma ótima solução para trabalhos de treinamento em pequena escala.

    Serviços de orquestração

    Desafio Solução da AWS Como
    Treinamento em vários nós Elastic Fabric Adapter O EFA permite que os clientes executem aplicações que exigem altos níveis de comunicação entre nós em grande escala usando uma interface de hardware de desvio de sistema operacional (SO) personalizada.
    Orquestração complexa e altamente escalável de contêineres Amazon Elastic Container Service (ECS) O ECS é um serviço totalmente gerenciado de orquestração de contêineres.
    Orquestração Kubernetes altamente escalável Amazon Elastic Kubernetes Service (EKS) Você pode usar o Kubeflow com o EKS para modelar seus fluxos de trabalho de machine learning e executar trabalhos de treinamento distribuídos com eficiência.
    Treinamento em grande escala AWS Batch O AWS Batch provisiona dinamicamente a quantidade e o tipo ideais de recursos computacionais com base nos requisitos de volume e recursos específicos dos trabalhos em lote enviados.
    Otimizar a performance para treinamentos em grande escala AWS ParallelCluster O AWS ParallelCluster configura automaticamente os recursos de computação necessários e os sistemas de arquivos compartilhados para projetos de treinamento de ML em grande escala.

    Armazenamento

    Desafio Solução da AWS Como
    Armazenamento escalável Amazon S3 O S3 pode facilmente alcançar milhares de transações por segundo como o nível de armazenamento.
    Throughput e latência de acesso ao armazenamento Amazon FSx para Lustre O FSx para Lustre integrado ao S3 oferece armazenamento compartilhado de arquivos com alto throughput e latências baixas e consistentes.
    Processamento em lotes em locais centrais Amazon Elastic File System (EFS) O EFS fornece acesso fácil a grandes conjuntos de dados de machine learning ou código compartilhado, diretamente de um ambiente de cadernos, sem a necessidade de provisionar armazenamento ou de se preocupar com o gerenciamento do sistema de arquivos da rede.
    Alta performance de E/S para armazenamento temporário de trabalho Amazon Elastic Block Store (EBS) O EBS permite latência inferior a dez milissegundos para necessidades de armazenamento de alta performance.

    Serviços totalmente gerenciados

    Desafio Solução da AWS Como
    Gerenciamento e rastreamento de experimentos Amazon SageMaker Experiments Avalie e organize experimentos de treinamento de maneira fácil e escalável, organize milhares de experimentos de treinamento, registre artefatos de experimentos e visualize modelos rapidamente.
    Modelos de depuração Amazon SageMaker Debugger Uma interface visual para analisar os dados de depuração e observar indicadores visuais sobre possíveis anomalias no processo de treinamento.
    Ajuste de modelos Ajuste Automático de Modelos do Amazon SageMaker Ajuste modelos automaticamente, ajustando milhares de combinações diferentes de parâmetros de algoritmo para chegar às previsões mais precisas que o modelo é capaz de produzir.
  • Implantar
  • Depois de concluir o treinamento e otimizar seu modelo para o nível desejado de exatidão e precisão, você o coloca em produção para fazer previsões. A inferência é o que realmente representa a grande maioria dos custos de machine learning. De acordo com os clientes, a inferência de machine learning pode representar até 90% dos custos operacionais gerais para executar workloads de machine learning.

    Instâncias

    Desafio Solução da AWS Como
    Alto custo e baixa performance Instâncias Inf1 do Amazon EC2 As instâncias Inf1 contam com até 16 chips AWS Inferentia, chips de inferência de machine learning de alta performance projetados e fabricados pela AWS.

    Inferência para modelos usando bibliotecas NVIDIA CUDA, CuDNN ou TensorRT

    Instâncias G5 do Amazon EC2

    As instâncias G5 apresentam até 8 GPUs Tensor Core NVIDIA A10G e oferecem performance até 3 vezes maior para inferência de machine learning em comparação com instâncias G4dn.

    Inferência para modelos usando bibliotecas NVIDIA CUDA, CuDNN ou TensorRT Instâncias G4 do Amazon EC2 As instâncias G4 são equipadas com GPUs T4 NVIDIA que oferecem um throughput de baixa latência até 40 vezes melhor em comparação com CPUs.
    Inferência para modelos que aproveitam a extensão Intel AVX-512 Vector Neural Network Instructions (AVX512 VNNI) Instâncias C5 do Amazon EC2 As instâncias C5 incluem a extensão Intel AVX-512 VNNI, que ajuda a acelerar operações típicas de machine learning, como convolução, e melhora automaticamente a performance de inferência em uma ampla variedade de workloads de aprendizado profundo.
    Aceleração de inferência com dimensionamento correto para otimizar a relação entre preço e performance Amazon Elastic Inference O Elastic Inference permite associar a aceleração de baixo custo ativada por GPU a instâncias do Amazon EC2.
    Requisitos de armazenamento, inferência de baixa latência e processamento local de dados
    AWS Outposts O AWS Outposts é um serviço totalmente gerenciado que estende a infraestrutura, os serviços, as APIs e as ferramentas da AWS a praticamente qualquer datacenter, espaço de colocalização ou instalação on-premises.

    Inferência de escalabilidade

    Desafio Solução da AWS Como
    Escalabilidade complexa da sua infraestrutura AWS CloudFormation O CloudFormation permite que você use linguagens de programação ou um arquivo de texto simples para modelar e fornecer de forma automática e segura todos os recursos necessários para os aplicativos em todas as regiões e contas.
    Escalabilidade imprevisível da sua infraestrutura AWS Auto Scaling O AWS Auto Scaling monitora suas aplicações e ajusta automaticamente a capacidade para manter uma performance constante e previsível pelo menor custo possível.
    Uso imprevisível de instâncias do EC2 Amazon EC2 Fleet Com uma única chamada de API, você pode provisionar capacidade em tipos de instância do EC2 e entre modelos de compra para atingir os níveis desejados de escala, performance e custo.
    Garantir a precisão dos modelos Amazon SageMaker Model Monitor Monitore continuamente a qualidade dos modelos de machine learning em produção e receba alertas quando houver desvios na qualidade dos modelos sem precisar desenvolver ferramentas adicionais.
    Gerenciar custos de inferência Endpoints de vários modelos do Amazon SageMaker Implemente vários modelos com um único clique em um único endpoint e sirva-os usando um único contêiner de serviços para fornecer uma maneira escalável e econômica de implantar um grande número de modelos.
Toyota

“As instâncias P3 nos ajudaram a reduzir o tempo de treinamento de modelos de machine learning de dias para horas e estamos ansiosos para utilizar instâncias P4d, pois a memória adicional da GPU e os formatos flutuantes mais eficientes nos permitirão treinar modelos mais complexos em uma velocidade ainda maior.”

Intuit

A Intuit está totalmente comprometida com a AWS e usa a AWS para melhor atender aos clientes. A Intuit usa o Amazon SageMaker para treinar rapidamente modelos de machine learning em grande escala, reduzindo o tempo necessário para implantar os modelos em 90%. Saiba mais.

GE Healthcare

Com os clusters de GPU anteriores, eram necessários vários dias para treinar modelos complexos de IA, como GANs progressivos, para simulações e visualização dos resultados. A utilização das novas instâncias P4d reduziu o tempo de processamento de dias para horas. Percebemos uma velocidade de duas a três vezes maior nos modelos de treinamento.”

Capital One

A Capital One transforma dados em insights por meio do machine learning, permitindo que a empresa inove rapidamente em nome dos seus clientes. A Capital One usa serviços da AWS, incluindo o Amazon S3, como base para a inovação usando machine learning. Saiba mais.

Zillow

A Zillow executa seus algoritmos de ML usando o Spark no Amazon EMR para criar rapidamente clusters escaláveis e usar recursos de processamento distribuído para processar grandes conjuntos de dados quase em tempo real, criar recursos, treinar e pontuar milhões de modelos de ML. Saiba mais.

Segundo os números

Performance

Aumento de 2,5 vezes

na performance de aprendizado profundo para P4d em comparação com as instâncias P3 da geração anterior, oferecendo a performance mais alta da nuvem.

Performance

62 minutos

é o tempo de configuração recorde para treinar o BERT com o TensorFlow usando 256 instâncias P3dn.24xlarge com 2.048 GPUs.

Baixo custo

40% de redução

no custo por inferência para instâncias Inf1 em comparação com instâncias G4, oferecendo o menor custo por inferência da nuvem.

Disponibilidade

22 regiões geográficas mundiais

com até 69 zonas de disponibilidade disponíveis para muitos serviços de infraestrutura de machine learning da AWS.

Benefícios

  • Alta performance
  • Muitas vezes, a eficiência do desenvolvimento dos cientistas de dados e engenheiros de ML é limitada pela frequência com que eles são capazes de treinar seus modelos de aprendizado profundo para incorporar novos recursos, melhorar a precisão da previsão ou ajustar desvios de dados. A AWS fornece uma infraestrutura de computação, rede e armazenamento de alta performance, disponível amplamente com base em um modelo de preço conforme o uso, permitindo que as equipes de desenvolvimento treinem seus modelos de acordo com a necessidade e não deixem que a infraestrutura gere obstáculos para sua inovação.

    Computação: reduza o tempo de treinamento para minutos e aumente sua inferência

    A AWS fornece as primeiras instâncias do setor criadas especificamente para treinamento e inferência de ML.

    As instâncias Trn1 do Amazon EC2, com a tecnologia dos chips AWS Trainium, foram desenvolvidas especificamente para treinamento de aprendizado profundo econômico e de alta performance. Essas instâncias oferecem a melhor performance do setor e até 50% de economia no custo do treinamento em relação a instâncias comparáveis baseadas em GPU. As instâncias Trn1 funcionam com até 16 chips AWS Trainium. Cada chip inclui dois aceleradores NeuronCore de segunda geração, criados especificamente para algoritmos de aprendizado profundo. As instâncias Trn1 são as primeiras instâncias do EC2 com até 800 Gbps de largura de banda da rede Elastic Fabric Adapter (EFA). Elas são implantadas em UltraClusters do EC2, que permitem escalar até 30.000 aceleradores Trainium, que são interconectados a uma rede sem bloqueio em escala de petabits para proporcionar até 6,3 exaflops de computação.

    Trn1 do Amazon EC2

    Para implantar modelos treinados em produção, as instâncias Inf1 do Amazon EC2 oferecem alta performance e a inferência de aprendizado profundo de máquina de menor custo na nuvem. Essas instâncias contam com chips AWS Inferentia, que são chips de machine learning de alta performance projetados e fabricados pela AWS. Com 1 a 16 chips AWS Inferentia por instância, as instâncias Inf1 podem ter uma performance de até 2.000 trilhões de operações por segundo (TOPS).

    Inf1 do Amazon EC2

    Rede: infraestrutura escalável para treinamento distribuído eficiente ou inferência para aumento horizontal da escala

    Treinar um modelo grande leva tempo, e quanto maior e mais complexo for esse modelo, mais longo será o treinamento. A AWS tem várias soluções de rede para ajudar os clientes a escalar suas implantações em vários nós para reduzir o tempo de treinamento. O Elastic Fabric Adapter (EFA) é uma interface de rede para instâncias do Amazon EC2 que permite aos clientes executar aplicações que exigem altos níveis de comunicação entre nós em grande escala na AWS. Sua interface personalizada de hardware de desvio do sistema operacional (OS) aumenta a performance das comunicações entre instâncias, o que é fundamental para escalar com eficiência. Com o EFA, aplicações de treinamento de machine learning que usam a NVIDIA Collective Communications Library (NCCL – Biblioteca de comunicações coletivas) podem ser escaladas para milhares de GPUs. Juntamente com largura de banda de rede de até 400 Gbps por instância e acesso remoto direto à memória (RDMA) NVIDIA GPUDirect para comunicação de GPU para GPU de baixa latência entre instâncias, você obtém a performance de clusters de GPU on-premises de alto preço com a elasticidade e a flexibilidade sob demanda da nuvem AWS.

    Page-Illo_EC2 Overviews and Features_Enhanced Networking and EFA.png

    Armazenamento: opções ideais para criar data lakes ou gerenciar dados rotulados

    Organizações de todos os portes e em todos os setores estão usando data lakes para transformar dados de um custo que deve ser gerenciado em um ativo de negócios que pode ser usado para obter insights comerciais valiosos ou proporcionar experiências aprimoradas aos clientes com a ajuda do machine learning. O Amazon Simple Storage Service (S3) é o serviço de armazenamento de objetos mais amplo e eficiente para dados estruturados e não estruturados, além de ser ideal para criar um data lake. Com o Amazon S3, você pode criar e escalar um data lake de qualquer porte de forma econômica, em um ambiente seguro com proteção dos dados com 99,999999999% (11 9s) de durabilidade. Para treinamento distribuído, se você precisa de acesso mais rápido aos seus dados rotulados, o Amazon FSx para Lustre oferece performance otimizada para latências abaixo de um milissegundo e um throughput que pode chegar a centenas de gigabytes por segundo. O FSx para Lustre se integra ao Amazon S3, facilitando o processamento de conjuntos de dados com o sistema de arquivos Lustre. Quando vinculado a um bucket do S3, um sistema de arquivos FSx para Lustre apresenta de maneira transparente os objetos do S3 como arquivos e permite que você grave os dados alterados no S3.

    Amazon Simple Storage Service (S3)
  • Economia
  • As organizações estão adotando rapidamente o uso do aprendizado profundo para criar aplicações nunca antes vistas. Juntamente com um rápido aumento na complexidade dos modelos, os custos de criar, treinar e implantar aplicações de machine learning se acumulam rapidamente. À medida que as empresas deixam de explorar e fazer experimentos com o machine learning para implantar suas aplicações em grande escala, a AWS oferece a combinação ideal de performance e serviços de infraestrutura de baixo custo em todo o ciclo de vida do desenvolvimento de aplicações.

    Os menores custos do setor para inferência de ML

    A inferência de machine learning pode representar até 90% dos custos operacionais gerais para a execução de aplicações de machine learning em produção. As instâncias Inf1 do Amazon EC2 oferecem alta performance e a menor inferência de machine learning na nuvem. As instâncias Inf1 são criadas do zero para dar suporte a aplicações de inferência de machine learning. Elas contam com até 16 chips AWS Inferentia, chips de machine learning de alta performance projetados e fabricados pela AWS. Cada chip AWS Inferentia oferece suporte a até 128 TOPS (trilhões de operações por segundo) de performance com baixo consumo de energia para possibilitar alta eficiência de performance.

    Inf1 do Amazon EC2

    Para aplicações que precisam de GPUs para executar seus modelos em produção, as instâncias G4 do Amazon EC2 são as instâncias de GPU mais econômicas do setor. Com GPUs T4 NVIDIA, essas instâncias estão disponíveis em diferentes tamanhos com acesso a uma ou várias GPUs com diferentes quantidades de vCPU e memória, oferecendo a você a flexibilidade de escolher o tamanho certo de instância para suas aplicações.

    G4 do Amazon EC2

    Nem todos os modelos de machine learning são iguais, e diferentes modelos se beneficiam de níveis diversificados de aceleração de hardware. As instâncias C5 do Amazon EC2 com base na Intel oferecem o menor preço por vCPU da família do Amazon EC2 e são ideais para executar workloads avançadas que exigem muita computação. Essas instâncias oferecem suporte ao Intel Deep Learning Boost e podem oferecer um equilíbrio ideal entre performance e custo para executar modelos de ML em produção.

    C5 do Amazon EC2

    O Amazon Elastic Inference permite associar a aceleração de baixo custo ativada por GPU a instâncias do Amazon EC2, instâncias do Amazon SageMaker ou tarefas do Amazon ECS, a fim de reduzir em até 75% o custo da execução de inferências de aprendizado profundo.

    Amazon Elastic Inference

    Ampla variedade de instâncias de GPU para otimizar o tempo e os custos de treinamento, disponíveis em grande escala

    Dependendo do tipo de aplicação de machine learning, os clientes preferem otimizar seus ciclos de desenvolvimento para reduzir o tempo necessário para treinar seus modelos de ML ou para reduzir os custos totais do treinamento. Na maioria dos casos, esses custos incluem não só o custo do treinamento propriamente dito, como também o custo de oportunidade do tempo ocioso que engenheiros de ML e cientistas de dados poderiam ter dedicado à otimização de seus modelos.

    As instâncias G4 do Amazon EC2 oferecem a plataforma de GPU mais econômica do setor. Essas instâncias são perfeitas para treinar modelos menos complexos e ideais para empresas ou instituições menos dependentes do tempo de treinamento. As instâncias G4 fornecem acesso a até oito GPUs NVIDIA T4, cada uma oferecendo até 65 TFLOPs de performance FP16.

    G4 do Amazon EC2

    As instâncias P4 do Amazon EC2 oferecem as melhores instâncias únicas da classe e a mais alta performance de treinamento distribuído, permitindo que as equipes de engenharia reduzam significativamente os tempos de iteração de seus modelos, acelerem o tempo de introdução no mercado e otimizem suas despesas gerais de engenharia. Essas instâncias oferecem um custo até 60% menor em relação às instâncias P3 da geração anterior e podem ser implantadas por meio de todas as opções de preços do EC2 com até 90% de desconto usando o padrão Spot. Como a performance das GPUs e dos aceleradores de ML de hardware melhora pelo menos duas vezes a cada 18 meses, o uso da infraestrutura da AWS em um modelo de preço conforme o uso permite que você aproveite o melhor custo-benefício sem comprometer o valioso CapEx para clusters on-premises de vida útil limitada.

    P4 do Amazon EC2

    As instâncias P3 e P3dn do Amazon EC2 fornecem computação de alta performance na nuvem com até 8 GPUs P3dn Tensor Core NVIDIA® e até 100 Gbps de throughput de rede para aplicações de machine learning e HPC. Essas instâncias possuem até um petaflop de performance de precisão mista para acelerar significativamente as aplicações de machine learning e computação de alta performance. As instâncias P3 e P3dn estão disponíveis em quatro tamanhos, fornecendo até 8 GPUs e 96 vCPUs, e estão disponíveis globalmente em 18 regiões da AWS.

    Instâncias P3 e P3dn do Amazon EC2
  • Altamente flexível
  • Suporte a todas as principais frameworks de machine learning

    Frameworks como o TensorFlow e o PyTorch abstraem muitas das minúcias de se lidar com a implementação da construção de modelos de ML, permitindo que os desenvolvedores se concentrem na lógica geral e no fluxo de dados de seus modelos. Mais de 70% das empresas que estão criando aplicações de machine learning declararam que suas equipes usam uma combinação de diferentes frameworks de ML. A infraestrutura do AWS ML oferece suporte a todas as frameworks populares de aprendizado profundo, permitindo que as suas equipes escolham a framework certa de acordo com suas preferências e eficiência de desenvolvimento.

    TensorFlow
    PyTorch
    mxnet
    Keras
    Gluon
    Horovod

    Otimizações que se encaixam nas frameworks

    Na AWS, temos um forte foco em permitir que os clientes não só executem suas workloads de ML na AWS, como também em lhes proporcionar a máxima liberdade de escolher a framework de ML ou os serviços de infraestrutura que funcionam melhor para eles. A otimização de software para treinar e implantar modelos com eficiência nos serviços de infraestrutura da AWS é integrada às frameworks de ML mais populares (TensorFlow, PyTorch e MXNet), permitindo que os clientes continuem usando a estrutura de sua preferência, sem se restringirem a uma framework e/ou arquitetura de hardware específica. Operar no nível da framework permite que os clientes tenham a liberdade de sempre escolher a melhor solução para suas necessidades, sem estarem vinculados a uma arquitetura de hardware ou provedor de nuvem específico.

    O AWS Neuron é o SDK para chips AWS Inferentia e AWS Trainium. Ao usar o AWS Neuron, você pode realizar treinamentos de ML econômicos de alta performance usando instâncias Trn1 do Amazon EC2 baseadas no AWS Trainium. Você também pode executar inferências de alta performance e baixa latência usando instâncias Inf1 do Amazon EC2 baseadas no AWS Inferentia. O AWS Neuron está integrado nativamente a frameworks populares, como o TensorFlow, o PyTorch e o MXNet. Para acelerar seu treinamento com instâncias Trn1 do EC2 e a inferência com instâncias Inf1 do EC2, você pode usar seus modelos pré-treinados e alterar apenas algumas linhas de código dentro da framework.

    AWS Neuron

    Para oferecer suporte ao treinamento distribuído/de vários nós eficiente, a AWS integrou o Elastic Fabric Adapter (EFA) à NVIDIA Collective Communications Library (NCCL), uma biblioteca para comunicação entre várias GPUs em um único nó ou entre em vários nós. Assim como o AWS Neuron, os clientes podem continuar usando a framework de ML de sua escolha para criar seus modelos e aproveitar a otimização em segundo plano para a infraestrutura da AWS.

    Nvidia

Opções de preços

As workloads de treinamento e inferência de machine learning podem apresentar características de estado estável (como marcar fotos em lote por hora para uma grande população) e/ou instável (como iniciar novos trabalhos de treinamento ou recomendações de pesquisa durante períodos promocionais). A AWS tem opções de preços e soluções para ajudar você a otimizar a performance e os custos da sua infraestrutura.

Opções de preços

 

 

A: usar instâncias spot para workloads flexíveis e tolerantes a falhas, como trabalhos de treinamento de ML que não são urgentes

B: usar instâncias sob demanda para workloads novas ou instáveis com reconhecimento de estado, como trabalhos de treinamento de ML em curto prazo

C: usar Savings Plans para workloads de estado conhecido/estável, como workloads de inferência estáveis

Caso de uso Solução da AWS Como
Trabalhos de treinamento em curto prazo Preços sob demanda Com instâncias sob demanda, você paga pela capacidade computacional por hora ou por segundo, dependendo das instâncias executadas.
Trabalhos de treinamento com horários flexíveis de início e término Preço do spot As instâncias spot do Amazon EC2 permitem solicitar capacidade computacional extra do Amazon EC2 com desconto de até 90% em relação ao preço das instâncias sob demanda.
Workloads de machine learning estáveis em diferentes tipos de instância por um longo período de tempo Savings Plans Os Savings Plans oferecem economias significativas em relação aos preços sob demanda, em troca de um comprometimento de usar uma quantidade específica de poder de computação por um período de um ou três anos.