A University of Oxford apresenta um protótipo de ML líder do setor para reconhecimento de imagens visando ampliar a digitalização na área de numismática

2021

A University of Oxford conta com 21 milhões de objetos nas coleções do seu Gardens, Libraries & Museums (GLAM), artefatos e espécimes que estão entre os mais significativos do mundo. Um aspecto da missão do GLAM é preservar esses ativos e torná-los acessíveis mundialmente para a educação e pesquisa. No entanto, a organização tem espaço para exibir apenas cerca de 10% do seu acervo por vez, e há um imenso atraso de artefatos que ainda estão por catalogar. Para superar esse obstáculo, o GLAM utilizou a Amazon Web Services (AWS) para construir um sistema de reconhecimento de imagens que ajudaria a acelerar o processo de catalogação dos artefatos.

A equipe de TI do Gardens and Museums usou o Amazon SageMaker, um serviço totalmente gerenciado que fornece aos desenvolvedores e cientistas de dados a capacidade de criar, treinar e implantar modelos de machine learning (ML) rapidamente. Equipado com as instâncias (Amazon EC2) do Amazon Elastic Compute Cloud, os modelos foram treinados e implantados a um custo baixo para automaticamente catalogar a ampla coleção de moedas do Ashmolean Museum, o primeiro museu público do Reino Unido e o primeiro museu universitário do mundo. Na AWS, o sistema de reconhecimento de imagens identifica e cataloga moedas em uma fração do tempo que voluntários humanos levariam para concluir a mesma tarefa.

Exterior do Ashmolean Museum.
kr_quotemark

Pensei que este projeto seria complexo e consumiria muito tempo, mas a AWS facilitou tudo.”

Anjanesh Babu
Arquiteto de sistemas e gerente de rede, TI de Gardens e Museums, University of Oxford's Gardens, Libraries & Museums

Atualização de infraestrutura e criação de um sistema de catalogação baseado em ML na AWS

O GLAM compreende quatro museus, Ashmolean Museum of Art and Archaeology, Oxford University Museum of Natural History, Pitt Rivers Museum e History of Science Museum, além das bibliotecas Bodleian Libraries e do Oxford Botanic Garden & Harcourt Arboretum. Em 2019, 900.000 visitantes acessaram as coleções digitais do GLAM. Os 21 milhões de objetos do seu acervo incluem espécimes e plantas vivas, artefatos históricos e até mesmo imagens de objetos danificados, perdidos ou devolvidos aos colecionadores. “Durante muitos anos, os museus foram pouco ativos ao investir e gerenciar a infraestrutura de tecnologia da informação que fundamenta todos os nossos serviços digitais”, diz Anjanesh Babu, arquiteto de sistemas e gerente de rede no departamento de TI do Gardens e Museums. “Após anos investindo muito pouco na atualização da infraestrutura, a University of Oxford unificou um foco estratégico na transformação digital por meio do programa GLAM Digital.” Como parte desse programa, o projeto Digital Estate Improvement foi parte fundamental para entregar melhorias de raiz e de ramificações para a infraestrutura, atendendo às aspirações estabelecidas nos objetivos. Em 2017, o projeto carregou 60 TB de registros digitais no Amazon Simple Storage Service (Amazon S3), um serviço de armazenamento de objetos que oferece escalabilidade, disponibilidade de dados, segurança e performance líderes do setor.

Para melhorar o acesso às coleções para ensino e pesquisa digitais, o GLAM visou uma solução de ML que reduzisse o tempo necessário para um departamento de pesquisa identificar e catalogar um objeto. Para isso, Anjanesh precisou identificar uma coleção bem catalogada ideal que se tornasse candidata à prototipagem. Jerome Mairat, curador da Heberden Coin Room no Ashmolean Museum, tinha experiência prévia no desenvolvimento, a partir do zero, de coleções digitais e se ofereceu para apoiar essa exploração. A solução seria trabalhar primeiro com o Roman Provincial Coinage, um projeto de pesquisa em numismática online. “Eu queria ter um exemplo prático do que poderíamos fazer para demonstrar às partes interessadas”, explica Anjanesh. “Moedas são um portador natural dessa mensagem e têm grande poder de engajamento, assim nos levou à jornada para envolver a equipe de ciência de dados na AWS.” O primeiro passo em machine learning é decidir o que você quer prever; nesse caso, Anjanesh queria prever um resultado simples: cara ou coroa, ou seja, anverso ou reverso. Considerando um conjunto de dados de treinamento conhecidos, poderia uma solução de ML prever o lado correto de uma moeda com um alto grau de precisão? Esta era a questão tão necessária no mundo do ML. O resultado ultrapassou um simples “cara ou coroa”, chegando a uma classificação de dados muito enriquecedora.

Economia de tempo e dinheiro ao automatizar o processamento de imagens na AWS

O GLAM utilizou a AWS para criar e implantar 11 modelos de ML no Amazon SageMaker em cerca de dez semanas. Nesse tempo, a parte de pesquisa e experimentação levou aproximadamente um mês. “A prototipagem foi rápida e ultrapassou minhas expectativas”, diz Anjanesh. Recorrendo a um conjunto de dados inicial de 100.000 imagens, o GLAM usou primeiro o Amazon SageMaker Notebooks para criar, treinar e experimentar modelos. Depois, houve a troca para as tarefas de treinamento do Amazon SageMaker, pois não haveria como iniciar muitas tarefas de treinamento ao mesmo tempo nas instâncias P3 do Amazon EC2 (equipadas com GPUs NVIDIA V100 Tensor Core) quanto seria possível nas instâncias spot do Amazon EC2. O Amazon SageMaker gerenciou as tarefas de treinamento para executá-las quando a capacidade computacional estivesse disponível. Ao usar os preços da instância spot, o GLAM pôde treinar os modelos a 10% do custo dos preços da instância sob demanda do Amazon EC2 e em um tempo 50% menor. E pelo Amazon SageMaker ser um framework agnóstico, o GLAM foi capaz de treinar os modelos em PyTorch e implementar os seus próprios algoritmos e scripts.

O sistema de reconhecimento de imagens resultante envolve uma série de modelos. Primeiro, vários modelos ML conduzem o processamento de imagens para que os modelos de reconhecimento de imagens possam produzir os melhores resultados. Por exemplo, para digitalizar uma moeda, os voluntários, geralmente estudantes universitários, fotografam cada lado e então fazem a catalogação. Se houver um desvio da moeda de até mesmo 20 graus, os modelos de ML podem não conseguir realizar o processamento tão bem, por isso que há o uso de redes neurais convolucionais para girar cada imagem até 90 graus, um processo que Jerome diz que por si só pouparia para o Ashmolean Museum até três anos de trabalho. Outro modelo retira o segundo plano da imagem da moeda e ainda usa outras redes antagonistas de última geração para desfocar, reduzir o ruído e aumentar a resolução de uma imagem para melhorar a sua qualidade. Esse processo é tão eficiente que até mesmo fotos tiradas com celulares podem ser usadas.

Uma vez que a imagem esteja pronta, mais modelos de ML extraem as características da moeda, como custo, material de que é feita ou quem é a pessoa retratada, e utiliza essas informações para encontrar moedas com características semelhantes no índice do GLAM. Então, um modelo transformador gera legendas da imagem ou metadados, que são marcados para cada imagem. Todos os modelos são implantados em instâncias G4 do Amazon EC2 (equipadas com GPUs NVIDIA T4 Tensor Core), que reduzem o tempo de inferência de minutos para segundos.

Espera-se que o sistema de reconhecimento de imagens reduza em até três anos o tempo de trabalho em uma coleção de 300.000 moedas. “Estamos substituindo nossa linha de produção por um modelo de ML que aperfeiçoará as etapas de curadoria”, afirma Anjanesh. E Jerome acrescenta, “Agora podemos focar o esforço de nossos voluntários em outras etapas que agregam valor. O processo de ML melhora o fluxo de trabalho e a produtividade e agrega valor para o público.” Os modelos de ML deverão conduzir a classificação dos conjuntos de dados das imagens em massa do GLAM para o futuro.

Espera-se que o processo de análise de uma moeda, que os voluntários antes faziam em cerca de dez minutos a horas, leve apenas alguns minutos, uma vez que o sistema de reconhecimento de imagens esteja funcionando. “Se tivermos modelos de ML em comparação a conjuntos de dados, e se esses modelos forem responsáveis pela validação e pelo aprimoramento de imagens, isso não apenas reduziria o tempo de trabalho da equipe como também nos daria a oportunidade de instruir os voluntários e, talvez, melhorar as suas competências para que trabalhem com tais modelos. O conhecimento que os estudantes podem obter disso é outro valor que podemos agregar ao processo como um todo”, explica Jerome.

O sistema de reconhecimento de imagens também pode ser usado para estimular o engajamento visual dos visitantes. Por exemplo, o Ashmolean Museum costumava realizar sessões de identificação de objetos, durante as quais as pessoas podiam trazer objetos e buscar conselho curatorial para identificar tais objetos e aprender a respeito de sua história. Agora, por meio do reconhecimento de imagens com tecnologia AWS, pode-se fotografar um objeto e carregar essa imagem sem sair de casa para aprender detalhes sobre ele, levando a possibilidades de identificação virtual de objetos.

Desenvolvimento para tornar as coleções do GLAM mais acessíveis na AWS

O GLAM planeja aplicar o seu sistema de reconhecimento de imagens a outros objetos além das moedas, incluindo itens mais complexos como plantas, pedras preciosas, borboletas e outras coleções. Ele também quer compartilhar uma versão de código aberto do sistema com outras universidades e instituições de pesquisa em GitHub para promover o compartilhamento de conjuntos de dados como parte de um roteiro estratégico mais amplo.

Olhando para o futuro, Anjanesh imagina outros meios em que o ML poderia melhorar a acessibilidade às coleções do GLAM e simplificar os processos internos. Atualmente, os visitantes do site não podem utilizar uma caixa de pesquisa única para buscar um objeto específico em todas as coleções do GLAM. É necessário que se visite um site separado para cada museu ou biblioteca. O que se deseja é produzir uma função de busca entre as coleções para todo o acervo do GLAM. Por fim, Anjanesh vislumbra uma função de pesquisa ainda mais grandiosa que vasculharia as coleções de inúmeras universidades e parceiros patrimoniais participantes em todo o mundo. Além disso, em uma vertente mais localizada, as soluções de ML poderiam ser usadas para monitorar e adequar as temperaturas de galerias para preservar melhor os objetos, o que aumentaria o trabalho das equipes que cuidam das coleções.

Ao criar um sistema de reconhecimento de imagens na AWS, o GLAM aumentou consideravelmente o acesso de estudantes, pesquisadores e visitantes públicos ao seu acervo, enquanto reduziu, imensamente, a carga de trabalho de sua equipe e dos voluntários. “Eu agradeço todo o esforço que a AWS colocou nesse trabalho”, diz Anjanesh. “Pensei que esse projeto seria complexo e consumiria muito tempo, mas a AWS facilitou tudo por meio de ferramentas prontas para uso comuns, que são portáteis e de produção rápida.”


Sobre o University of Oxford’s Gardens, Libraries & Museums

O University of Oxford’s Gardens, Libraries & Museums hospeda algumas das coleções mais significativas do mundo. Eles fornecem locais importantes de consulta acadêmica e servem como a porta principal de acesso à riqueza de conhecimento e de pesquisa produzida em Oxford, recebendo mais de três milhões de visitantes por ano.

Benefícios da AWS

  • 11 modelos de ML criados e implantados em aproximadamente dez semanas
  • Previsão de redução de até três anos de trabalho de catalogação de uma coleção de 300.000 moedas
  • Previsão de redução para apenas alguns minutos da tarefa de análise de moedas, o que antes demoraria de dez minutos a horas para ser concluída
  • Redução do tempo de inferência de minutos para segundos
  • Complementação do trabalho que já está sendo conduzido por voluntários

Produtos da AWS usados

Amazon EC2

O Amazon Elastic Compute Cloud (Amazon EC2) é um serviço da Web que disponibiliza capacidade computacional segura e redimensionável na nuvem. Ele foi projetado para facilitar a computação em nuvem na escala da web para os desenvolvedores.

Saiba mais »

Instâncias spot do Amazon EC2

As instâncias spot do Amazon EC2 permitem aproveitar a capacidade não utilizada do EC2 na Nuvem AWS. Em comparação com os preços sob demanda, as instâncias spot oferecem descontos de até 90%.

Saiba mais »

Amazon SageMaker

O Amazon SageMaker é um serviço de machine learning que você pode usar para criar, treinar e implantar modelos de ML para praticamente qualquer caso de uso.

Saiba mais »

Amazon Simple Storage Service

O Amazon Simple Storage Service (Amazon S3) é um serviço de armazenamento de objetos que oferece escalabilidade, disponibilidade de dados, segurança e performance líderes do setor.

Saiba mais »


Comece a usar

Empresas de todos os portes em todos os setores estão transformando seus negócios diariamente usando a AWS. Entre em contato com nossos especialistas e comece sua própria jornada para a Nuvem AWS hoje mesmo.