- Amazon EC2›
- Tipos de instância›
- Instâncias DL1
Instâncias DL1 do Amazon EC2
Baixo custo de treinamento para modelos de aprendizado profundo
Por que escolher instâncias DL1 do Amazon EC2?
As instâncias DL1 do Amazon EC2 alimentadas por aceleradores Gaudi da Habana Labs (uma empresa da Intel) oferecem modelos de aprendizado profundo de baixo custo de treinamento para processamento de linguagem natural, detecção de objetos e casos de uso de reconhecimento de imagem. As instâncias DL1 oferecem uma relação preço-performance até 40% melhor para treinar modelos de aprendizado profundo em comparação com as instâncias do EC2 baseadas em GPU da geração atual.
As instâncias DL1 do Amazon EC2 incluem oito aceleradores Gaudi com 32 GiB de memória de alta largura de banda (HBM) por acelerador, 768 GiB de memória de sistema, processadores Intel Xeon escalável de segunda geração personalizados, 400 Gbps de taxa de transferência de redes e 4 TB de armazenamento NVMe local.
As instâncias DL1 incluem o SDK Habana SynapseAI®, que é integrado aos principais frameworks de machine learning, como TensorFlow e PyTorch.
É fácil começar a usar instâncias DL1 com AMIs do Amazon Deep Learning e o AWS Deep Learning Containers, ou com o Amazon EKS e o ECS para aplicações em contêineres. O suporte para instâncias DL1 no Amazon SageMaker estará disponível em breve.
Vídeo com a visão geral das novas instâncias DL1 do Amazon EC2
Benefícios
-
As instâncias DL1 oferecem uma relação preço-performance até 40% melhor para treinar modelos de aprendizado profundo em comparação com as instâncias do EC2 baseadas em GPU da geração mais recente. Essas instâncias contam com aceleradores Gaudi, desenvolvidos especificamente para treinar modelos de aprendizado profundo. Também é possível economizar mais usando o Savings Plan do EC2 para reduzir consideravelmente o custo de treinamento de seus modelos de aprendizado profundo.
-
Desenvolvedores de todos os níveis de especialização podem começar a usar facilmente as instâncias DL1. Podem continuar usando seus próprios serviços de gerenciamento de fluxo de trabalho com AMIs do AWS DL e DL Containers para começar a usar as instâncias DL1. Usuários avançados também podem desenvolver kernels personalizados para otimizar a performance de seu modelo usando Tensor Processing Cores programáveis da Gaudi. (TPCs). Com ferramentas Habana SynapseAI®, eles poderão migrar facilmente seus modelos existentes, em execução em instâncias baseadas em GPU ou CPU, para instâncias DL1, com alterações mínimas de código.
-
As instâncias DL1 são compatíveis com os principais frameworks de ML, como TensorFlow e PyTorch, permitindo que você continue usando os fluxos de trabalho de ML de sua preferência. É possível acessar modelos otimizados, como Mask R-CNN para detecção de objetos e BERT para processamento de linguagem natural no repositório do Habana no GitHub para criar, treinar e implantar seus modelos rapidamente. A vasta biblioteca de kernel Tensor Processing Core (TPC) da SynapseAI oferece suporte a uma ampla variedade de operadores e a vários tipos de dados para atender a uma gama de necessidades de modelo e performance.
Recursos
-
As instâncias DL1 são alimentadas por aceleradores Gaudi da Habana Labs (uma empresa Intel), que contam com oito TPCs totalmente programáveis e 32 GiB de memória de alta largura de banda por acelerador. Têm uma arquitetura de computação heterogênea para maximizar a eficiência do treinamento e um mecanismo centralizado configurável para operações matemáticas de matriz. Também são as únicas do setor com integração nativa de dez portas 100 Gigabit Ethernet em cada acelerador Gaudi para comunicação de baixa latência entre aceleradores.
-
O SDK do SynapseAI® é composto por um compilador gráfico e runtime, biblioteca de kernel TPC, firmware, drivers e ferramentas. É integrado aos principais frameworks, como TensorFlow e PyTorch. As bibliotecas de comunicação ajudam a aumentar a escala na vertical rapidamente para vários aceleradores usando as mesmas operações que você usa atualmente para instâncias baseadas em GPU. Essa escalabilidade determinística resulta em maior utilização e aumento de eficiência em uma variedade de topologias de rede neural. Migre e execute perfeitamente seus modelos existentes em instâncias DL1 com alterações mínimas de código usando as ferramentas do SynapseAI®.
-
As instâncias DL1 oferecem 400 Gbps de throughput de redes e conectividade com o Elastic Fabric Adapter (EFA) e o Adaptador de Rede Elástica (ENA) da AWS para aplicações que necessitam de acesso a redes de alta velocidade. Para acesso rápido a grandes conjuntos de dados, as instâncias DL1 também oferecem 4 TB de armazenamento NVMe local e throughput de leitura de 8 GB/s.
As instâncias DL1 são criadas no AWS Nitro System, que é uma coleção abundante de componentes básicos que transfere muitas das funções tradicionais de virtualização para hardware e software dedicados para fornecer alta performance, alta disponibilidade e alta segurança, além de reduzir a sobrecarga de virtualização.
Detalhes do produto
|
Tamanho da instância
|
vCPU
|
Memória da instância (GiB)
|
Aceleradoras Gaudi
|
Largura de banda da rede (Gbps)
|
Acelerador entre pares bidirecional (Gbps)
|
Armazenamento de instâncias (GB)
|
Largura de banda do EBS (Gbps)
|
Sob demanda (preço/h)
|
Instância reservada por 1 ano, por hora
|
Instância reservada por 3 anos, por hora*
|
|---|---|---|---|---|---|---|---|---|---|---|
|
dl1.24xlarge
|
96 |
768 |
8 |
400 |
100 |
4 x 1000
|
19 |
USD 13,11 |
USD 7,87 |
USD 5,24 |
*Preços informados para as regiões Leste dos EUA (Norte da Virgínia) e Oeste dos EUA (Oregon).
Seagate
A Seagate Technology é líder mundial na oferta de soluções de armazenamento e gerenciamento de dados há mais de 40 anos. Os engenheiros de ciência de dados e machine learning da Seagate desenvolveram um sistema de detecção de defeitos de aprendizado profundo (DL) avançado e o implantaram globalmente nas instalações de fabricação da empresa. Em um projeto de prova de conceito recente, o Habana Gaudi excedeu as metas de performance ao treinar um dos modelos de segmentação semântica de DL usados atualmente na produção da Seagate.
“Esperamos que a vantagem significativa na relação preço/performance das instâncias DL1 do Amazon EC2, com aceleradores Habana Gaudi, futuramente possa ser uma adição determinante aos clusters de computação da AWS. Como a Habana Labs continua a evoluir e permite uma cobertura mais ampla de operadoras, há um potencial de expansão para outros casos de uso empresariais, aproveitando assim mais economia de custos.”
Leidos
A Leidos é reconhecida como um dos dez principais provedores de TI no setor de saúde, oferecendo uma ampla gama de soluções personalizáveis e escaláveis para hospitais e sistemas de saúde, organizações biomédicas e todas as agências federais dos EUA voltadas para a saúde.
Uma das diversas tecnologias que atualmente estamos viabilizando para o avanço da saúde é o uso de machine learning e aprendizado profundo para diagnóstico de doenças com base em dados de imagens médicas. Nossos robustos conjuntos de dados exigem treinamento oportuno e eficiente para ajudar pesquisadores que buscam solucionar alguns dos mistérios médicos de maior urgência. Diante da necessidade da Leidos e de seus clientes de um treinamento rápido, fácil e com bom custo-benefício para modelos de aprendizado profundo, tivemos o prazer de começar esta jornada com a Intel e a AWS para usar instâncias DL1 do Amazon EC2 baseadas em processadores de IA Habana Gaudi. Ao utilizar instâncias DL1, esperamos ver um aumento na velocidade e eficiência do treinamento de modelo, consequentemente reduzindo o risco e o custo de pesquisa e desenvolvimento.”
Intel
A Intel criou a tecnologia 3D Athlete Tracking, que analisa vídeos de atletas em ação em tempo real para embasar os processos de treinamento de performance e aprimorar as experiências do público durante as competições.
“Treinar nossos modelos em instâncias DL1 do Amazon EC2, alimentadas por aceleradores Gaudi da Habana Labs, nos permitirá processar com precisão e confiabilidade milhares de vídeos e gerar dados de performance associados, reduzindo o custo de treinamento. Com instâncias DL1, agora podemos treinar na velocidade e com o custo necessários para atender, de maneira produtiva, atletas, equipes e emissoras de todos os níveis em diversos esportes.”
Riskfuel
A Riskfuel fornece avaliações em tempo real e sensibilidades a risco para empresas que gerenciam carteiras financeiras, ajudando-as a aumentar a precisão e a performance das negociações.
“Dois fatores nos atraíram para as instâncias DL1 do Amazon EC2 baseadas em aceleradores de IA Habana Gaudi. Primeiro, queremos garantir que nossos clientes bancários e de seguros possam executar modelos da Riskfuel que utilizam hardware mais recente. Felizmente, achamos que a migração de nossos modelos para instâncias DL1 foi simples e direta. Na verdade, bastou apenas alterar algumas linhas de código. Segundo, os custos com treinamento representam uma grande parte de nossos gastos, e a promessa de melhoria de até 40% na relação preço/performance oferece um benefício extremamente significativo para nossos resultados financeiros.”
Fractal
A Fractal é líder mundial em inteligência artificial e analytics e potencializa decisões de empresas da Fortune 500.
“A IA e o aprendizado profundo estão na essência de nossa capacidade de visão mecânica, permitindo que os clientes de todos os setores que atendemos tomem decisões melhores. Para melhorar a precisão, os conjuntos de dados estão se tornando maiores e mais complexos, o que demanda modelos maiores e mais complexos. Isso está impulsionando a necessidade de melhorar a relação preço-performance computacional. As novas instâncias DL1 do Amazon EC2 prometem treinamento com custo consideravelmente menor do que as instâncias do EC2 baseadas em GPU. Esperamos que isso torne o treinamento de modelos de IA na nuvem muito mais competitivo e acessível do que antes para uma ampla gama de clientes.”
Conceitos básicos
AWS Deep Learning AMIs (DLAMI) e AWS Deep Learning Containers (DLC)
Amazon Elastic Kubernetes Service (EKS) ou Elastic Container Service (ECS)
Você encontrou o que estava procurando hoje?
Informe-nos para que possamos melhorar a qualidade do conteúdo em nossas páginas