Amazon SageMaker Ground Truth Plus
Quadro de funcionários especializado
Com o Amazon SageMaker Ground Truth Plus, a rotulagem é feita por um quadro de funcionários especializado, treinado em tarefas de machine learning (ML) que pode ajudar a atender aos seus requisitos de segurança, privacidade e conformidade de dados. Por exemplo, se você precisa de pessoas com experiência em rotular arquivos de áudio, poderá especificar esse requisito nas diretrizes fornecidas ao SageMaker Ground Truth Plus, e o serviço selecionará automaticamente rotuladores com essas habilidades.
Gerenciamento de rotulagem de dados de ponta a ponta
Com o Amazon SageMaker Ground Truth Plus, você pode criar facilmente conjuntos de dados de treinamento de alta qualidade sem criar aplicações de rotulagem ou gerenciar seus próprios quadros de funcionários de rotulagem. Você pode carregar dados junto com os requisitos de rotulagem no Amazon S3. Depois de carregar os dados, o SageMaker Ground Truth Plus se encarrega de configurar os fluxos de trabalho de rotulagem de dados e operá-los em seu nome.
Técnicas de rotulagem de ML
O Amazon SageMaker Ground Truth Plus usa técnicas de ML, incluindo aprendizado ativo, pré-rotulagem e validação de máquina, o que aumenta a qualidade do conjunto de dados de saída e diminui os custos de rotulagem de dados. Um fluxo de trabalho de rotulagem de várias etapas inclui modelos de ML para aprendizado ativo que permite ao Ground Truth Plus reduzir custos selecionando objetos (que podem ser uma imagem, uma gravação de áudio, uma seção de texto etc.) que precisam ser rotulados e modelos de ML para pré-rotular dados selecionados que reduzem o esforço humano. O Ground Truth Plus usa validação de máquina para identificar erros potenciais que são então enviados a uma etapa adicional de revisão humana. Isso melhora significativamente a qualidade do rótulo ao detectar erros humanos. Além disso, o Ground Truth Plus também usa recursos de rotulagem auxiliares, como “encaixe automático de cuboide 3D”, “previsão da próxima rotulagem de vídeo” e “segmento automático” por meio de uma interface de usuário intuitiva para reduzir o tempo necessário para tarefas de rotulagem de dados, melhorando, ao mesmo tempo, a qualidade.
Painéis interativos
O SageMaker Ground Truth Plus fornece painéis interativos e interfaces de usuário, para que você possa monitorar o progresso dos conjuntos de dados de treinamento em vários projetos, rastrear as métricas do projeto, como taxa de transferência diária, inspecionar a qualidade dos rótulos e fornecer feedback sobre os dados rotulados.
Amazon SageMaker Ground Truth
Nuvens de pontos 3D | Vídeo | Imagens | Texto | Fluxos de trabalho personalizados | Forças de trabalho | Geração de dados sintéticos
Nuvens de pontos 3D
Normalmente, as nuvens de pontos tridimensionais (3D) são capturadas usando dispositivos de Light Detection and Ranging (LIDAR – Detecção e determinação de distância por meio de luz) para gerar uma interpretação 3D de um espaço físico em um determinado momento. O SageMaker Ground Truth oferece fluxos de trabalho de rotulagem incorporados para dados de nuvem de pontos 3D, incluindo detecção de objetos, rastreamento de objetos e segmentação semântica.
Detecção de objetos
O fluxo de trabalho de detecção de objetos permite identificar e rotular objetos de interesse em uma nuvem de pontos 3D. Por exemplo, em um caso de uso de veículo autônomo, você pode rotular veículos, pistas e pedestres com precisão.

Rastreamento de objetos
Com o fluxo de trabalho de rastreamento de objetos, você pode rastrear a trajetória de objetos de interesse. Por exemplo, um veículo autônomo precisa rastrear o movimento de outros veículos, linhas e pedestres. O Ground Truth permite rastrear a trajetória desses objetos em uma sequência de dados de nuvem de pontos 3D.

Segmentação semântica
Com o fluxo de trabalho de segmentação semântica, você pode segmentar os pontos de uma nuvem de pontos 3D em categorias predefinidas. No exemplo de veículos autônomos, o Ground Truth poderia categorizar a presença de ruas, vegetação e estruturas.

Vídeo
O SageMaker Ground Truth é compatível com casos de uso comuns de legendagem de vídeo com fluxos de trabalho integrados, incluindo detecção de objetos de vídeo, rastreamento de objetos de vídeo e classificação de clipes de vídeo.
Detecção de objetos de vídeo
Com o fluxo de trabalho de detecção de objetos de vídeo, é possível identificar objetos de interesse em uma sequência de quadros de vídeo. Por exemplo, na criação de um sistema de percepção para um veículo autônomo, você pode detectar outros veículos na cena ao redor do veículo.

Rastreamento de objetos de vídeo
Com o fluxo de trabalho de rastreamento de objetos de vídeo, é possível rastrear objetos de interesse em uma sequência de quadros de vídeo. Por exemplo, em um caso de uso de jogo esportivo, é possível rotular os jogadores com precisão durante todo o jogo.

Classificação de clipes de vídeo
Com o fluxo de trabalho de classificação de clipes de vídeo, é possível classificar um arquivo de vídeo em uma categoria pré-especificada. Por exemplo, você pode selecionar categorias pré-especificadas que melhor descrevem o vídeo, como uma partida esportiva ou congestionamento de tráfego em um cruzamento movimentado.

Imagens
O SageMaker Ground Truth oferece fluxos de trabalho de rotulagem incorporados para dados de imagens, incluindo classificação de imagens, detecção de objetos e segmentação semântica.
Classificação de imagens
A classificação de imagens é o processo de identificar uma imagem com base na sua representação no mundo real. Esse processo envolve a categorização de imagens em relação a um conjunto de rótulos predefinido. A classificação de imagens é útil para modelos de detecção de cena que precisam considerar todo o contexto da imagem. Por exemplo, podemos criar um modelo de classificação de imagens para que veículos autônomos detectem diversos objetos do mundo real, como outros veículos, pedestres, semáforos e sinalização.

Detecção de objetos
Você pode usar o fluxo de trabalho de detecção de objetos para identificar e rotular objetos de interesse (por exemplo, pedestres, cães e gatos) em imagens. A tarefa de rotulagem envolve desenhar uma caixa delimitadora (uma caixa bidimensional, ou 2D) em volta dos objetos de interesse em uma imagem. Modelos de visão computadorizada treinados com imagens que têm caixas delimitadoras rotuladas aprendem que os pixels dentro da caixa correspondem ao objeto especificado.

Segmentação semântica
Você pode usar fluxos de trabalho de segmentação semântica para rotular as partes exatas de uma imagem que correspondem ao que o modelo precisa aprender. Esses fluxos oferecem dados de treinamento de alta precisão porque os pixels individuais são rotulados. Por exemplo, a forma irregular de um carro em uma imagem pode ser capturada de forma exata com a segmentação semântica.

Texto
O SageMaker Ground Truth oferece fluxos de trabalho de rotulagem incorporados para dados em texto, incluindo classificação de textos e reconhecimento de entidades nomeadas.
Classificação de textos
A classificação de textos envolve a categorização de strings de texto em relação a um conjunto de rótulos predefinido. Muitas vezes, a categorização de textos em rótulos diferentes é usada para modelos de Natural Language Processing (NLP – Processamento de linguagem natural) que identificam coisas como tópicos (por exemplo, descrições de produtos, avaliações de filmes) ou sentimentos.

Reconhecimento de entidades nomeadas
O Named Entity Recognition (NER – Reconhecimento de entidades nomeadas) envolve a pesquisa de dados em texto para localizar frases denominadas entidades. Cada entidade é categorizada com um rótulo, como “pessoa”, “organização” ou “marca”. Assim, na declaração “Assinei recentemente o Amazon Prime”, “Amazon Prime” seria a entidade nomeada e poderia ser categorizada como uma “marca”.

Fluxos de trabalho personalizados
Você pode criar o seu próprio fluxo de trabalho de rotulagem no Ground Truth. Um fluxo de trabalho personalizado consiste em três componentes: (1) um modelo de IU que fornece aos rotuladores humanos todas as instruções e ferramentas necessárias para concluir a tarefa de rotulagem; (2) a lógica de pré-processamento encapsulada em uma função do AWS Lambda, se houver; e (3) a lógica de pós-processamento encapsulada em uma função do AWS Lambda, se houver. Há uma grande variedade de modelos de IU disponíveis. Você também pode carregar o seu próprio modelo JavaScript/HTML. A função de pré-processamento do Lambda pode fornecer os dados a serem rotulados e contexto adicional para o rotulador. A função de pós-processamento do Lambda pode ser usada para inserir um algoritmo de aprimoramento de precisão. O algoritmo pode avaliar a qualidade das anotações humanas ou pode encontrar um consenso sobre o que é “certo” quando os mesmos dados são fornecidos a vários rotuladores humanos. Os três componentes podem ser carregados usando o console do SageMaker Ground Truth.

Forças de trabalho
O SageMaker Ground Truth oferece várias opções de força de trabalho humana para rotulagem de dados: (1) seus próprios funcionários; (2) provedores de serviços de rotulagem de dados terceirizados disponíveis no AWS Marketplace; e (3) força de trabalho obtida via crowdsourcing usando o Amazon Mechanical Turk.



Geração de dados sintéticos


Comece a usar a rotulagem de dados do Amazon SageMaker sem compromissos antecipados ou contratos de longo prazo.

Obtenha acesso instantâneo ao nível gratuito da AWS.

Comece a criar com a rotulagem de dados do Amazon SageMaker no Console de Gerenciamento da AWS.