Publicado: Sep 21, 2021

O Amazon Comprehend lançou um pacote de recursos para o Comprehend Custom a fim de viabilizar o aprimoramento contínuo de modelos ao permitir que os desenvolvedores possam criar novas versões de modelos, fazer testes contínuos em conjuntos de teste específicos e migrar novos modelos para endpoints existentes. Usando o AutoML, o reconhecimento personalizado de entidade permite que você personalize o Amazon Comprehend para identificar entidades específicas ao seu domínio. A classificação personalizada permite que você crie facilmente modelos personalizados de classificação de texto usando rótulos específicos de seus negócios. Posteriormente, é possível usar os modelos personalizados para fazer inferência em documentos de texto nos modos de processamento em lote e em tempo real. A criação de um modelo personalizado é um processo simples e não requer experiência em machine learning. Veja abaixo uma descrição detalhada desses recursos:

Gerenciamento aprimorado de modelo - Para a maioria dos projetos de Natural language processing (NLP – Processamento de linguagem natural), os modelos são retreinados continuamente com o passar do tempo conforme novos dados são coletados ou se houver um desvio entre o conjunto de dados do treinamento e os documentos processados na inferência. Com o versionamento de modelos e atualizações dinâmicas de endpoint, é possível retreinar continuamente novas versões do modelo, comparar as métricas de exatidão entre versões e atualizar dinamicamente os endpoints com o modelo de melhor performance com apenas um clique.

  • O versionamento de modelos permite que você retreine novas versões de um modelo existente, facilitando a iteração e o monitoramento das alterações na exatidão. É possível identificar cada nova versão com um ID exclusivo de versão.
  • A atualização dinâmica de endpoint permite a atualização de um endpoint síncrono ativo com um novo modelo. Isso garante que você possa implantar a versão de um novo modelo na produção sem nenhum tempo ocioso.

Controle aprimorado para treinamento/avaliação de modelo - Muitas vezes a preparação de dados e a avaliação de modelos são as partes mais entediantes de qualquer projeto de NLP. Frequentemente o processo de avaliar e solucionar problemas em modelos pode ser confuso se não houver uma indicação clara quanto à divisão dos dados de treinamento e de teste. Agora você pode fornecer conjuntos de dados distintos de treinamento e de teste durante o treinamento do modelo. Também lançamos um novo modo de treinamento que aprimora a exatidão da inferência em documentos longos, abrangendo vários parágrafos.

  • O conjunto de dados de teste fornecido pelo cliente permite que você forneça um conjunto opcional de dados de teste durante o treinamento do modelo. Anteriormente, era necessário executar manualmente um trabalho de inferência em um conjunto de teste para avaliar um modelo. Conforme mais dados são coletados e novas versões do modelo são treinadas, a avaliação da performance do modelo usando o mesmo conjunto de dados de teste pode oferecer uma comparação imparcial entre versões do modelo.
  • O novo modo de treinamento aprimora a exatidão do modelo de reconhecimento de entidade para documentos longos contendo vários parágrafos. Durante o treinamento do modelo usando anotações em CSV, a escolha do formato de entrada ONE_DOC_PER_FILE para documentos longos permite que o modelo aprenda mais incorporações contextuais, aprimorando significativamente a exatidão do modelo.

Para saber mais e começar a usar o serviço, acesse a página do produto Amazon Comprehend ou nossa documentação.