Crie

Blocos de anotações gerenciados para modelos de criação

O Amazon SageMaker oferece blocos de anotações Jupyter Esses blocos de anotações são disponibilizados com drivers CUDA e cuDNN pré-carregados para plataformas de aprendizado profundo populares, pacotes do Anaconda e bibliotecas para TensorFlow, Apache MXNet, Chainer e PyTorch.

Com apenas um clique, você pode acessar um ambiente de bloco de anotações de Machine Learning totalmente gerenciado usando o popular formato de bloco de anotações de código aberto Jupyter.

Esses espaços de trabalho de bloco de anotações permitem explorar e visualizar dados e documentar suas descobertas em fluxos de trabalho reutilizáveis usando praticamente todas as bibliotecas, estruturas e interfaces mais populares. No bloco de anotações, você pode importar seus próprios dados já armazenados no Amazon S3. Você também pode usar o AWS Glue para mover dados facilmente do Amazon RDS, do Amazon DynamoDB e do Amazon Redshift para o S3 para fins de análise. Você pode escrever ou importar seu próprio bloco de anotações ou usar um dos vários blocos de anotações já criados e pré-carregados no Amazon SageMaker. Os blocos de anotações já criados estão disponíveis para todos os algoritmos internos de Machine Learning. Além disso, existem modelos de blocos de anotações disponíveis para ajudá-lo a começar a usar o Machine Learning em cenários comuns e outros recursos mais avançados do Amazon SageMaker.

Modelos para usos comuns de Machine Learning

Modelos para recursos mais avançados do SageMaker

Previsão de série temporal

Traga seus próprios contêineres do TensorFlow, do MXNet e do Chainer

Marketing direto direcionado

Traga seu próprio scikit ou modelo ou algoritmo em R

Previsão de cancelamento de clientes

Fragmentação de dados em treinamento distribuído

Algoritmos internos de alto desempenho

O Amazon SageMaker oferece algoritmos de Machine Learning dimensionáveis e de alto desempenho, otimizados para velocidade, escala e precisão. Esses algoritmos podem realizar treinamento em conjuntos de dados de petabytes e oferecer até 10x o desempenho de outras implementações. Você pode escolher entre algoritmos supervisionados, em que as respostas corretas são conhecidas durante o treinamento e é possível instruir o modelo quando ele comete erros. - O Amazon SageMaker inclui algoritmos supervisionados, como XGBoost e regressão ou classificação linear/lógica, para tratar de problemas de recomendação e previsão de série temporal. - O Amazon SageMaker também inclui suporte a aprendizado não supervisionado (ou seja, os algoritmos precisam descobrir as respostas certas por conta própria), por exemplo, com clustering k-means e análise de componente principal (PCA), para resolver problemas como a identificação de agrupamentos de clientes com base no comportamento de compra.

O Amazon SageMaker disponibiliza automaticamente os algoritmos de Machine Learning mais comuns para você. Especifique sua fonte de dados e comece a executar imediatamente clustering k-means para segmentação de dados, máquinas de fatoração para recomendações, previsão de séries temporais, regressão linear ou análise de componentes principais.  

Word2Vec na BlazingText A implementação do algoritmo Word2Vec pela BlazingText para escalabilidade e aceleração da geração de incorporação de palavras de um grande número de documentos.
DeepAR Um algoritmo que gera previsões precisas aprendendo padrões de várias séries temporais relacionadas usando redes neurais recorrentes (RNN).
Máquinas de fatoração Um modelo com a capacidade de estimar todas as interações entre recursos mesmo com pouquíssimos dados.
Gradient Boosted Trees (XGBoost) Abreviação de "Extreme Gradient Boosting", XGBoost é uma biblioteca de gradient boosting distribuída.
Classificação de imagens (ResNet) Uma rede neural popular para desenvolver sistemas de classificação de imagens.
Clustering K-Means Um dos algoritmos de Machine Learning mais simples. Também é possível usá-lo para encontrar grupos em dados sem rótulos.

Latent Dirichlet Allocation (LDA)

Um modelo adequado para descobrir automaticamente os principais tópicos presentes em um conjunto de arquivos de texto.
Aprendiz linear (classificação) A classificação linear usa características de um objeto para identificar o grupo correto a que ele pertence.
Aprendiz linear (regressão) A regressão linear é usada para prever o relacionamento linear entre duas variáveis.
Modelagem tópica neural (NTM) Uma abordagem baseada em rede neural para aprender tópicos a partir de conjuntos de dados de imagens e textos.
Análise de componente principal (PCA) Normalmente usado no pré-processamento dos dados, esse algoritmo usa uma tabela ou matriz de vários recursos e a reduz ao menor número de recursos representativos.
Random Cut Forest Um algoritmo de Machine Learning não supervisionado para detecção de anomalias.
Seqence2Sequence Um codificador-decodificador de propósito geral para texto que costuma ser usado em tradução automática, resumo de textos, etc.
k-Nearest-Neighbor (kNN) Um modelo não paramétrico, adequado a problemas de classificação de endereços e regressão.
Detecção de objetos
Detecta, classifica e coloca caixas delimitadores em volta de vários objetos em uma imagem.

Esses algoritmos foram otimizados para que o desempenho seja até 10x mais rápido do que o que seria possível em implantações tradicionais. Já fizemos isso implementando esses algoritmos para que eles não precisem voltar e olhar dados já examinados. Tradicionalmente, os algoritmos costumam passar várias vezes pelo seu conjunto de dados para referenciar dados anteriores. Isso é bom para conjuntos de dados pequenos, mas o impacto no desempenho com grandes conjuntos de dados pode atrasar bastante o treinamento. Ao criar para aprovação única, você conseguirá treinar com conjuntos de dados de petabytes de maneira eficiente e com bom custo-benefício.

Amplo suporte a estruturas

O Amazon SageMaker configura e otimiza automaticamente o TensorFlow, o Apache MXNet, o Chainer e o PyTorch para facilitar o uso dessas estruturas. Adicionaremos outras estruturas principais nos próximos meses. Mas você pode importar a qualquer momento a estrutura que quiser para o Amazon SageMaker. Basta incorporá-la a um contêiner do Docker armazenado no Amazon EC2 Container Registry.

Teste e crie protótipos localmente

Os contêineres Docker de código aberto do Apache MXNet e do Tensorflow usados no Amazon SageMaker estão disponíveis no GitHub. Você pode fazer download desses contêineres para seu ambiente local e usar o SDK para Python do Amazon SageMaker para testar seus scripts antes de implantá-los nos ambientes de treinamento ou de hospedagem do Amazon SageMaker. Quando você estiver pronto para passar dos testes locais para o treinamento e hospedagem em produção, basta alterar uma única linha de código. 

Treine

Treinamento em um clique

Quando você estiver pronto para treinar no Amazon SageMaker, basta especificar a localização dos dados no Amazon S3 e indicar o tipo e a quantidade de instâncias de Machine Learning do Amazon SageMaker necessárias para começar a usar com um único clique no console. O Amazon SageMaker configura um cluster de computação distribuído, faz o treinamento, envia o resultado para o Amazon S3 e desfaz o cluster após a conclusão.

O treinamento de modelos é fácil com o SageMaker; basta especificar a localização dos seus dados no S3 e o Amazon SageMaker executará seu algoritmo em um cluster de treinamento isolado na própria rede definida de software configurada para suas necessidades. Basta escolher o tipo de instância (inclusive instâncias de GPU P3, que são ideais para treinamento rápido e eficiente) e o Amazon SageMaker criará um cluster em um grupo de escalabilidade automática; anexará volumes do EBS a cada nó; configurará os pipelines de dados; e começará a treinar com seu script do TensorFlow, do MXNet, do Chainer ou do PyTorch, com os próprios algoritmos da Amazon ou com os algoritmos fornecidos no contêiner. Quando concluído, ele envia os resultados ao S3 e desfaz o cluster automaticamente.

Para facilitar a realização de treinamento em larga escala, otimizamos o stream dos dados de treinamento vindos do S3. Pela API, você pode especificar se deseja que todos os dados sejam enviados para cada nó no cluster ou se gostaria que o Amazon SageMaker gerencie a distribuição dos dados pelos nós, dependendo das necessidades do seu algoritmo.

Combinado com algoritmos internos, o dimensionamento do treinamento que é viabilizado pelo Amazon SageMaker pode reduzir bastante o tempo e o custo dos ciclos de treinamento.

Ajuste automático de modelos

O Amazon SageMaker pode ajustar seu modelo automaticamente ajustando milhares de combinações de parâmetros de algoritmo diferentes a fim de obter as previsões mais exatas que o modelo é capaz de produzir.

Ao ajustar seu modelo para uma maior exatidão, você terá duas alavancas: modificar as fontes de dados fornecidas ao modelo (por exemplo, usar o log de um número) ou ajustar os parâmetros do algoritmo. Eles são chamados de hiperparâmetros, e encontrar os valores certos pode ser um desafio. Normalmente, você começa com algo aleatório e vai iterando com ajustes conforme vai vendo o impacto das alterações. O ciclo pode ser longo, dependendo de quantos hiperparâmetros o seu modelo tem.

O Amazon SageMaker simplifica isso oferecendo ajuste automático de modelos como opção durante o treinamento. Na verdade, o Amazon SageMaker usará machine learning para ajustar o modelo de machine learning. Ele funciona aprendendo o que afeta os diferentes tipos de dados que estão no modelo e aplicando esse conhecimento em várias cópias do modelo para localizar rapidamente o melhor resultado possível. Como desenvolvedor ou cientista de dados, isso significa que você só precisa mesmo se preocupar com os ajustes que deseja fazer nos dados que serão passados para o modelo, o que reduz bastante a quantidade de preocupações durante o treinamento.

Ao iniciar o ajuste automático de modelos, basta especificar o número de trabalhos de treinamento por meio da API e o Amazon SageMaker fará o resto.

Implante

Implantação com um clique

Também é possível implantar seu modelo em instâncias do Amazon Machine Learning com escalabilidade automática entre várias zonas de disponibilidade para obter alta redundância. Basta especificar o tipo de instância e os números mínimo e máximo desejados e o Amazon SageMaker cuidará do resto. O serviço inicia as instâncias, implanta o modelo e configura o endpoint HTTPS seguro para o aplicativo. O aplicativo precisa apenas incluir uma chamada à API para esse endpoint a fim de obter inferência de baixa latência/alto throughput. Essa arquitetura permite integrar novos modelos aos minutos do seu uso, já que as alterações do modelo não exigem mais alterações de código.

Testes A/B automáticos

O Amazon SageMaker também pode gerenciar os testes A/B do modelo para você. Você pode configurar o ponto de extremidade para espalhar o tráfego por até cinco modelos diferentes e definir a porcentagem de chamadas de inferência com que cada um deve lidar. Você pode mudar tudo isso na hora, o que é bem flexível na hora de fazer experiências e determinar qual modelo produz os resultados mais exatos no mundo real.

Hospedagem gerenciada com o Auto Scaling

O Amazon SageMaker gerencia a infraestrutura de computação de produção por você para fazer verificações de integridade, aplicar patches de segurança e realizar manutenções de rotina, tudo com o monitoramento e o registro em logs do Amazon CloudWatch.

Batch Transform

O Batch Transform permite que você execute previsões em dados em lotes grandes ou pequenos. Não há necessidade de dividir o conjunto de dados em diversas partes nem gerenciar endpoints em tempo real. Com uma API simples, você pode solicitar previsões para um grande número de registros de dados e transformar os dados de maneira rápida e fácil.

 

Saiba mais sobre a definição de preço do Amazon SageMaker

Acesse a página de definição de preço
Pronto para começar?
Cadastrar-se
Mais dúvidas?
Entre em contato conosco
Conteúdo da página
Crie Treine Implante