Instâncias P3 do Amazon EC2

Acelere o machine learning e os aplicativos de computação de alta performance com poderosas GPUs

Por que usar instâncias P3 do Amazon EC2?

As instâncias P3 do Amazon EC2 fornecem computação de alta performance na nuvem com até 8 GPUs com NVIDIA® V100 Tensor Core e taxa de transferência de rede de até 100 Gbps para machine learning e aplicativos de HPC. As instâncias possuem até 1 petaflop de desempenho de precisão mista para acelerar significativamente o machine learning e os aplicativos de computação de alta performance. As instâncias P3 do Amazon EC2 demonstraram ser capazes de reduzir o tempo de treinamento de machine learning de dias para minutos, além de aumentar o número de simulações finalizadas para computação de alta performance em 3-4x.

Com até quatro vezes a largura de banda de instâncias P3.16xlarge, as instâncias P3dn.24xlarge do Amazon EC2 são os membros mais novos da família P3, otimizadas para aplicações HPC e machine learning distribuído. Essas instâncias fornecem até 100 Gbps de taxa de transferência de redes, 96 vCPUs Intel® Xeon® escaláveis (Skylake) personalizadas, 8 GPUs NVIDIA® V100 Tensor Core com 32 GiB de memória cada e 1,8 TB de armazenamento SSD baseado em NVMe. As instâncias P3dn.24xlarge também oferecem suporte ao Elastic Fabric Adapter (EFA), que acelera as aplicações distribuídas de machine learning que usam a NVIDIA Collective Communications Library (NCCL). O EFA pode escalar milhares de GPUs, melhorando consideravelmente o rendimento e a escalabilidade dos modelos de treinamento de aprendizagem profunda e possibilitando resultados mais rápidos.

Visão geral de instâncias P3 do Amazon EC2

Benefícios

Para cientistas de dados, pesquisadores e desenvolvedores que precisam aumentar a velocidade de suas aplicações de machine learning, as instâncias P3 do Amazon EC2 são as mais rápidas disponíveis na nuvem para treinamento de machine learning. As instâncias P3 do Amazon EC2 apresentam até oito GPUs NVIDIA V100 Tensor Core de última geração e fornecem até 1 petaflop de desempenho de precisão mista para acelerar significativamente as cargas de trabalho do ML. O treinamento de modelo mais rápido permite que os cientistas de dados e os engenheiros de machine learning façam iterações mais rápidas, treinem mais modelos e aumentem a precisão.

Uma das mais poderosas instâncias de GPU na nuvem combinada com planos flexíveis de definição de preço. O resultado é uma solução extremamente econômica para o treinamento de machine learning. Assim como as instâncias do Amazon EC2 em geral, as instâncias P3 estão disponíveis como instâncias sob demanda, reservadas ou spot. As instâncias spot aproveitam a capacidade de instâncias não utilizadas do EC2 e podem reduzir substancialmente os custos do Amazon EC2 em até 70% em relação aos preços sob demanda.

Ao contrário dos sistemas no local, a execução de computação de alta performance em instâncias P3 do Amazon EC2 oferece capacidade praticamente ilimitada de escalabilidade horizontal da infraestrutura, além da flexibilidade para alterar com facilidade os recursos com a frequência exigida pelas cargas de trabalho. Você pode configurar os recursos para atender às demandas dos seus aplicativos e executar um cluster de HPC em minutos, pagando apenas pelo que usar.

Use imagens do Docker pré-empacotadas para implantar ambientes de aprendizado profundo em minutos. As imagens contêm as bibliotecas e ferramentas necessárias para as estruturas de aprendizado profundo (no momento, TensorFlow e Apache MXNet) e são totalmente testadas. Você pode facilmente adicionar a essas imagens suas próprias bibliotecas e ferramentas para obter um maior controle sobre o monitoramento, a conformidade e o processamento de dados. Além disso, as instâncias P3 do Amazon EC2 funcionam perfeitamente com o Amazon SageMaker para fornecer uma plataforma de machine learning completa eficiente e intuitiva. O Amazon SageMaker é uma plataforma de machine learning gerenciada que permite que você construa, treine e implante de forma rápida e fácil modelos de machine learning. Além disso, as instâncias P3 do Amazon EC2 podem ser integradas às imagens de máquina da Amazon (AMIs) do AWS Deep Learning, pré-instaladas com estruturas populares de aprendizado profundo. Assim, iniciar o treinamento de machine learning e inferências fica mais fácil e rápido.

Depoimentos de clientes

Aqui estão alguns exemplos de como clientes e parceiros alcançaram suas metas de negócios com as instâncias P3 do Amazon EC2.

  • Airbnb

    A Airbnb está usando o machine learning para otimizar recomendações de pesquisa e aprimorar a orientação para a definição de preço dinâmica para os anfitriões. O resultado: aumento das conversões das reservas. Com as instâncias P3 do Amazon EC2, a Airbnb pode agilizar a execução de cargas de trabalho de treinamento, executar mais iterações, criar melhores modelos de machine learning e reduzir custos.

  • Celgene

    A Celgene é uma empresa de biotecnologia global que está desenvolvendo terapias direcionadas para buscar o melhor tratamento para cada paciente. A empresa executa seu volume de trabalho de HPC para o sequenciamento de genoma de próxima geração e simulações químicas nas instâncias P3 do Amazon EC2. Com este poder computacional, a Celgene pode treinar modelos de aprendizagem profunda para distinguir células malignas das benignas. Antes de começar a usar as instâncias P3, a empresa levava dois meses para executar tarefas de larga escala computacional. Agora, leva apenas quatro horas. A tecnologia da AWS permitiu à Celgene acelerar o desenvolvimento de medicamentos terapêuticos para câncer e doenças inflamatórias.

  • Hyperconnect

     

    A Hyperconnect é especializada na aplicação de novas tecnologias baseadas em machine learning no processamento de imagens e vídeos e foi a primeira empresa a desenvolver webRTC para plataformas móveis.

    Leia o estudo de caso completo

    A Hyperconnect usa classificação de imagem baseada em AI em seu aplicativo de comunicação por vídeo para reconhecer o ambiente atual em que um usuário está situado. Reduzimos o tempo de treinamento do modelo de ML de mais de uma semana para menos de um dia, migrando de estações de trabalho no local para várias instâncias do Amazon EC2 P3 usando o Horovod. Usando o PyTorch como nossa estrutura de trabalho de machine learning, conseguimos desenvolver rapidamente modelos e alavancar bibliotecas disponíveis na comunidade de código aberto.

    – Sungjoo Ha, diretor do AI Lab, Hyperconnect
  • NerdWallet

    A NerdWallet é uma startup de finanças pessoais que fornece ferramentas e conselhos para facilitar aos clientes o pagamento de dívidas, a escolha dos melhores produtos e serviços financeiros e lidar com os principais objetivos da vida, como comprar uma casa ou poupar para a aposentadoria. A empresa depende muito de ciência de dados e machine learning (ML) para conectar clientes com produtos financeiros personalizados.

    Leia o estudo de caso completo

    O uso das instâncias do Amazon SageMaker e Amazon EC2 P3 com GPUs NVIDIA V100 Tensor Core também melhorou a flexibilidade e a performance do NerdWallet e reduziu o tempo necessário para os cientistas de dados treinarem modelos de ML. Costumávamos levar meses para lançar e iterar nos modelos; agora leva apenas dias.

    Ryan Kirkman, Gerente de engenharia sênior, NerdWallet
  • PathWise Solutions Group

    Líder em soluções de sistemas de qualidade, o PathWise da Aon é um conjunto de aplicações SaaS baseado em nuvem voltado para a modelagem de gerenciamento de riscos corporativos que fornece velocidade, confiabilidade, segurança e serviços sob demanda a uma variedade de clientes.

    Leia o estudo de caso

    O PathWise Solutions Group da Aon fornece uma solução de gerenciamento de riscos que permite que nossos clientes aproveitem a tecnologia mais recente para resolver rapidamente os principais desafios de seguros atuais, como gerenciamento e teste de estratégias de hedge, previsão regulatória e econômica e orçamento. O PathWise opera com a AWS em produção desde 2011 e, no momento, usa instâncias do Amazon EC2 P-Series para acelerar os cálculos necessários para resolver esses desafios para nossos clientes em todo o mundo em um mercado em constante avanço e evolução.

    Van Beach, líder global de soluções de vida do Aon Pathwise Strategy and Technology Group
  • Pinterest

    O Pinterest usa treinamento de precisão mista em instâncias P3 na AWS para acelerar o treinamento de modelos de aprendizagem profunda. Também usa essas instâncias para acelerar a inferência desses modelos, permitindo uma experiência de descoberta rápida e exclusiva para os usuários. O Pinterest utiliza PinSage, criado usando PyTorch na AWS. Este modelo de IA agrupa imagens com base em determinados temas. Com 3 bilhões de imagens na plataforma, há 18 bilhões de associações diferentes que conectam as imagens. Essas associações ajudam o Pinterest a contextualizar temas e estilos e a produzir experiências de usuário mais personalizadas.

  • Salesforce

     

    A Salesforce está usando o machine learning para impulsionar o Einstein Vision, permitindo que os desenvolvedores aproveitem o poder do reconhecimento de imagens para casos de uso, como pesquisa visual, detecção de marca e identificação de produto. As instâncias P3 do Amazon EC2 permitem que os desenvolvedores treinem modelos de aprendizado profundo com mais rapidez para que possam atingir rapidamente suas metas de machine learning.

  • Schrodinger

    A Schrodinger usa a computação de alta performance (HPC) para desenvolver modelos preditivos a fim de ampliar a escala da descoberta e da otimização e oferecer aos clientes a capacidade de acelerar a disponibilização no mercado de medicamentos que salvam vidas. As instâncias P3 do Amazon EC2 permitem que a Schrodinger realize quatro vezes mais simulações em um dia do que com instâncias P2.  

  • Subtle Medical

    A Subtle Medical é uma empresa de tecnologia da área de saúde que trabalha para melhorar a eficiência das imagens médicas e a experiência do paciente com soluções inovadoras de aprendizado profundo. Sua equipe é formada por renomados cientistas de imagem, radiologistas e especialistas em AI de Stanford, MIT, MD Anderson dentre outras.

    Leia o estudo de caso completo

    Hospitais e centros de imagem desejam adotar esta solução sem sobrecarregar seus departamentos de TI para adquirir experiência em GPU e criar e manter data centers ou mini-nuvens dispendiosos. Eles querem ter êxito em suas implantações com o mínimo de esforço e investimento… A AWS torna isso possível.

    – Enhao Gong, fundador e CEO, Subtle Medical
  • Western Digital

    A Western Digital usa HPC para executar dezenas de milhares de simulações de ciências de materiais, fluxos de calor, magnetismo e transferência de dados para melhorar a performance e a qualidade das unidades de disco e armazenamento. Com base nos testes iniciais, as instâncias P3 permitem que as equipes de engenharia executem simulações pelo menos três vezes mais rápido do que as soluções implantadas anteriormente.  

Instâncias P3 do Amazon EC2 e Amazon SageMaker

Com o Amazon SageMaker, é mais fácil criar, treinar e implementar modelos de machine learning, e deixá-los prontos para treinamento. O serviço fornece tudo de que você precisa para se conectar rapidamente aos dados de treinamento e selecionar e otimizar o melhor algoritmo e a melhor estrutura para os aplicativos. O Amazon SageMaker inclui blocos de anotações Jupyter hospedados que facilitam a exploração e visualização dos dados de treinamento armazenados no Amazon S3.  Você também pode usar a instância do bloco de anotações para escrever código para criar trabalhos de treinamento de modelo, implantar modelos no Amazon SageMaker e testar ou validar seus modelos.

Você pode começar a treinar um modelo com apenas um clique no console ou com uma simples chamada de API. O Amazon SageMaker é pré-configurado com as versões mais recentes do TensorFlow e do Apache MXNet, e oferece suporte à biblioteca CUDA9 para proporcionar a performance ideal em GPUs NVIDIA. Além disso, a otimização de hiperparâmetros pode ajustar automaticamente o modelo, definindo com inteligência diferentes combinações de parâmetros do modelo para chegar rapidamente às previsões mais precisas. Para necessidades de escala maiores, você pode escalar para dezenas de instâncias a fim de oferecer suporte à criação de modelo mais rápida.

Após o treinamento, clique uma vez para implantar seu modelo em instâncias do Amazon EC2 de escalabilidade automática em várias zonas de disponibilidade. Em produção, o Amazon SageMaker gerencia a infraestrutura de computação para você, fazendo verificações de integridade, aplicando patches de segurança e realizando manutenções de rotina, tudo com o monitoramento e o registro em logs do Amazon CloudWatch.