Rotulagem de dados automatizada

O Amazon SageMaker Ground Truth oferece rotulagem de dados automatizada usando Machine Learning. Primeiro, o SageMaker Ground Truth seleciona uma amostra aleatória de dados e a envia para rotulagem por humanos. Os resultados são usados ​​para treinar um modelo de rotulagem que tenta rotular automaticamente uma nova amostra de dados brutos. Os rótulos são confirmados quando o modelo consegue rotulá-los com uma pontuação de confiança que atende ou excede o limite que você definiu. Quando a pontuação de confiança fica abaixo desse limite, os dados são enviados para rotulagem por humanos. Alguns dos dados rotulados por humanos são usados ​​para gerar um novo conjunto de dados de treinamento para o modelo de rotulagem. O modelo é treinado automaticamente mais uma vez para melhorar a precisão. Esse processo se repete a cada amostra de dados brutos a ser rotulada. A cada iteração, aumenta a capacidade de rotulagem automática de dados brutos pelo modelo e menos dados são encaminhados para rotulagem por humanos. 

Flexibilidade na forma de trabalho com profissionais de rotulagem

O Amazon SageMaker Ground Truth oferece suporte a várias escolhas de rotulagem por humanos diretamente no console do SageMaker Ground Truth. Você pode usar sua própria equipe de rotuladores para tarefas de rotulagem internas, particularmente para processar dados que precisam ficar dentro da organização.

Se quiser aumentar a escala para um grande número de rotuladores e seus dados não tiverem informações confidenciais ou de identificação pessoal, você terá acesso sob demanda a uma força de trabalho 24 horas por dia, 7 dias por semana, com mais de 500.000 contratados independentes em todo o mundo, baseada no Amazon Mechanical Turk. O Mechanical Turk é um marketplace de crowdsourcing que conecta tarefas de rotulagem a uma força de trabalho distribuída que pode executar virtualmente essas tarefas.

Como alternativa, você pode usar um fornecedor externo especializado em rotulagem de dados. Esses fornecedores foram avaliados pela Amazon, fornecem rótulos de alta qualidade e seguem processos de segurança. Os serviços de rotulagem desses fornecedores são fornecidos por meio do AWS Marketplace. Todos os detalhes relevantes são fornecidos, incluindo definição de preço e avaliações de clientes, para ajudar a selecionar o melhor fornecedor para as suas necessidades.

Instruções fáceis para rotulagem por humanos

Com o Amazon SageMaker Ground Truth, você fornece orientações de rotulagem a rotuladores humanos para ajudar a assegurar a consistência. Essas instruções detalhadas são disponibilizadas aos rotuladores na interface de rotulagem. As instruções incluem exemplos visuais de rótulos bons e ruins para ajudar os rotuladores a gerar rótulos precisos e de alta qualidade. Você pode atualizar essas instruções a qualquer momento, o que facilita a adição de mais detalhes a tarefas que alguns rotuladores não compreendem corretamente ou o ajuste das instruções de acordo com a evolução das necessidades. Uma instrução simples é mostrada abaixo. 

SamurAI Instructions for Bounding Box

Use fluxos de trabalho para simplificar as tarefas de rotulagem

O Amazon SageMaker Ground Truth oferece fluxos de trabalho de rotulagem incorporados que mostram as tarefas passo a passo para os rotuladores humanos e oferecem ferramentas para ajudá-los a produzir bons resultados. No momento, os fluxos de trabalho incorporados estão disponíveis para tarefas de rotulagem de detecção de objetos, classificação de imagens, classificação de textos e segmentação semântica. 

Além dos fluxos de trabalho incorporados, o SageMaker Ground Truth oferece a opção de fazer upload de fluxos de trabalho personalizados. Um fluxo de trabalho personalizado consiste em uma interface HTML e um algoritmo de melhoria de precisão, os dois fornecidos por você. A interface HTML fornece aos rotuladores humanos todas as instruções e ferramentas necessárias para concluir a tarefa de rotulagem. O algoritmo de melhoria de precisão é uma função criada por você para informar ao SageMaker Ground Truth como o serviço deve avaliar a qualidade dos rótulos fornecidos pelos humanos. O algoritmo é usado para obter consenso sobre o que está “certo” quando os mesmos dados são fornecidos a vários rotuladores humanos, além de identificar e restringir rotuladores que tendem a fornecer dados de baixa qualidade. Você faz upload da interface HTML e do algoritmo de melhoria de precisão usando o console do SageMaker Ground Truth. 

Detecção de objetos

Você pode usar o fluxo de trabalho da caixa delimitadora para identificar e rotular objetos em imagens. Uma caixa delimitadora é uma caixa bidimensional desenhada em volta de um ou mais elementos de uma imagem. Modelos de visão computadorizada treinados com imagens com caixas delimitadoras rotuladas aprendem que os pixels dentro da caixa correspondem ao rótulo especificado. É uma maneira muito rápida e econômica de rotular imagens. No entanto, como as caixas muitas vezes contêm pixels não relacionados ao assunto do rótulo, pode ser necessário dispor de maiores quantidades de dados de treinamento antes que um modelo atinja uma alta precisão.

A imagem abaixo mostra a interface de caixa delimitadora com uma tarefa de exemplo para identificar todos os cachorros em uma determinada imagem. A interface permite especificar exemplos claros de caixas delimitadoras boas e ruins para ajudar a manter a alta precisão. Além disso, a interface fornece um link para o conjunto completo de instruções de rotulagem e uma IU clara e otimizada para criação de caixas delimitadoras. 

Bounding box

Classificação de imagens

A classificação de imagens envolve a categorização de imagens em relação a um conjunto de rótulos predefinido. A tarefa é diferente da detecção de objetos porque toda a imagem é rotulada, em vez de elementos individuais dentro da imagem. A classificação de imagens é útil para modelos de detecção de cena que precisam considerar todo o contexto da imagem. Por exemplo, na imagem abaixo, os rotuladores devem identificar o esporte praticado em uma determinada imagem. 

Image classification

Classificação de textos

A classificação de textos envolve a categorização de strings de texto em relação a um conjunto de rótulos predefinido. A categorização de textos em rótulos diferentes é frequentemente usada para modelos de Natural Language Processing (NLP – Processamento de linguagem natural) que identificam coisas como tópicos (por exemplo, descrições de produtos, avaliações de filmes), entidades (por exemplo, nomes lugares, datas) e sentimentos. 

Text classification

Segmentação semântica

Para a rotulagem avançada de imagens, você pode usar a segmentação semântica para rotular as partes exatas de uma imagem que correspondem ao que o modelo precisa aprender. A segmentação semântica exige mais tempo e habilidade que as caixas delimitadoras. No entanto, ela oferece dados de treinamento muito limpos, rotulando apenas os pixels associados ao assunto. Por exemplo, a forma irregular de um carro em uma imagem pode ser capturada exatamente com a segmentação semântica, mas uma caixa delimitadora inclui inevitavelmente elementos de fundo não relacionados ao carro porque a caixa pode ter apenas quatro lados retos.

Semantic Segmentation

Integração transparente com o Amazon SageMaker

O treinamento de conjuntos de dados criados com o SageMaker Ground Truth pode ser facilmente importado para o Amazon SageMaker para uso no desenvolvimento e treinamento de modelos. 

O Amazon SageMaker facilita a criação e a preparação de modelos de Machine Learning para treinamento, fornecendo tudo o que você precisa para rotular com rapidez dados de treinamento, além de selecionar e otimizar o melhor algoritmo e a melhor estrutura para o seu aplicativo. O Amazon SageMaker inclui blocos de anotações Jupyter hospedados que facilitam a exploração e visualização dos dados de treinamento armazenados no Amazon S3. Você pode se conectar diretamente aos dados no S3 ou usar o AWS Glue para mover dados do Amazon RDS, Amazon DynamoDB e Amazon Redshift para o S3 para análise no seu bloco de notas.

Para ajudar você a selecionar um algoritmo, o Amazon SageMaker inclui os algoritmos de Machine Learning mais comuns, pré-instalados e otimizados para oferecer até 10 vezes a performance que você encontrará executando esses algoritmos em qualquer outro lugar. O Amazon SageMaker também é fornecido pré-configurado para executar TensorFlow, Apache MXNet, PyTorch e Chainer em contêineres do Docker. Você também pode fazer download desses contêineres de código aberto para o ambiente local e usar o SDK do Python do Amazon SageMaker para testar os scripts em modo local antes de usar o Amazon SageMaker para treinar ou hospedar o modelo em produção. Se desejar, você também pode usar a sua estrutura.

Para começar a treinar seu modelo, basta um único clique no console do Amazon SageMaker. O Amazon SageMaker gerencia toda a infraestrutura subjacente para você e pode escalar facilmente para treinar modelos na escala de petabytes. Para que o processo de treinamento seja ainda mais rápido e fácil, o Amazon SageMaker pode ajustar automaticamente um modelo para alcançar a maior precisão possível.

Depois que o modelo estiver treinado e ajustado, o Amazon SageMaker facilita a implantação na produção para que você possa começar a gerar previsões (um processo chamado inferência) para dados em lote ou em tempo real. O Amazon SageMaker implanta seu modelo em um cluster de escalabilidade automática de instâncias de Machine Learning do Amazon SageMaker distribuídas em várias zonas de disponibilidade para oferecer altos níveis de performance e disponibilidade. O Amazon SageMaker também inclui recursos integrados de teste A/B para ajudar você a testar seu modelo e experimentar versões diferentes a fim de atingir os melhores resultados.

Com o Amazon SageMaker, você elimina o trabalho pesado do Machine Learning e pode se concentrar em criar, treinar e implantar os modelos de Machine Learning de forma rápida e fácil.

Product-Page_Standard-Icons_01_Product-Features_SqInk
Saiba mais sobre a definição de preço do Amazon SageMaker Ground Truth

Comece a usar o Amazon SageMaker Ground Truth sem compromissos antecipados ou contratos de longo prazo. Para obter mais detalhes, confira a página de definição de preço do Amazon SageMaker Ground Truth.

Product-Page_Standard-Icons_02_Sign-Up_SqInk
Cadastre-se para obter uma conta gratuita

Obtenha acesso instantâneo ao nível gratuito da AWS. 

Cadastrar-se 
Product-Page_Standard-Icons_03_Start-Building_SqInk
Comece a criar no console

Comece a criar com o Amazon SageMaker Ground Truth no Console de Gerenciamento da AWS.

Faça login