La Universidad de Oxford presenta un prototipo de reconocimiento de imágenes mediante ML líder en el sector para aumentar la digitalización en numismática

2021

La Universidad de Oxford alberga 21 millones de objetos en las colecciones de sus jardines, bibliotecas y museos (GLAM). Estos artefactos y especímenes se encuentran entre los más importantes de mundo. Una característica de la misión de GLAM es preservar estos activos y hacerlos accesibles al mundo para la educación y la investigación. Sin embargo, la organización solo tiene espacio suficiente para mostrar alrededor del 10 % de sus ejemplares a la vez. Además, aún hay una enorme cantidad de artefactos que catalogar. Para combatir este obstáculo, GLAM usó Amazon Web Services (AWS) para crear un sistema mejorado de reconocimiento de imágenes que pudiese acelerar el proceso de catalogación de artefactos.

El equipo de TI de Jardines y Museos utilizó Amazon SageMaker, un servicio completamente administrado que ofrece a todos los científicos de datos y desarrolladores la capacidad de crear, entrenar e implementar modelos de machine learning (ML) de forma rápida. Instancias con tecnología de Amazon Elastic Compute Cloud (Amazon EC2), los modelos se formaron e implementaron a un bajo costo para catalogar automáticamente la extensa colección de monedas del Museo Ashmolean, el primer museo público del Reino Unido y el primer museo universitario del mundo. El sistema de reconocimiento de imágenes en AWS identifica y cataloga monedas en una fracción del tiempo que tardarían los voluntarios humanos en completar la misma tarea.

Exterior del Museo Ashmolean
kr_quotemark

“Pensé que este proyecto sería complejo y arduo, pero usar AWS lo ha facilitado”.

Anjanesh Babu
Arquitecto de sistemas y administrador de red de TI de jardines y museos de la división de Jardines, Bibliotecas y Museos de la Universidad de Oxford

Actualización de la infraestructura y creación de un sistema de catalogación basado en el ML en AWS

GLAM se compone de cuatro museos: el Museo Ashmolean de Arte y Arqueología, el Museo de Historia Natural de la Universidad de Oxford, el Museo Pitt Rivers y el Museo de Historia de la Ciencia, además de la Biblioteca Bodleiana, el Jardín Botánico y el Harcourt Arboretum. En 2019, las colecciones digitales del GLAM recibieron 900 000 visitantes. Sus 21 millones de objetos incluyeron especímenes vivos y plantas, artefactos históricos e incluso imágenes de objetos que estaban dañados, perdidos o que se devolvieron a los coleccionistas. “Durante muchos años, los museos no fueron muy activos en la inversión y administración de la infraestructura de tecnologías de la información que sostienen nuestros servicios digitales”, comenta Anjanesh Babu, arquitecto de sistemas y administrador de red de TI de jardines y museos. “Después de años de inversión insuficiente en infraestructura obsoleta, la Universidad de Oxford creó un enfoque estratégico de transformación digital mediante el programa GLAM”. Como parte de este programa, el proyecto de mejora de patrimonio digital fue la parte fundamental para hacer mejoras radicales a la infraestructura con el fin de hacerla apropiada para cumplir las aspiraciones digitales establecidas en los objetivos. En 2017, el proyecto cargó 60 TB de registros digitales a Amazon Simple Storage Service (Amazon S3), un servicio de almacenamiento de objetos que ofrece escalabilidad, disponibilidad de datos, seguridad y rendimiento líderes en el sector.

A fin de optimizar el acceso a las colecciones para la enseñanza e investigación digital, GLAM puso la mira en una solución de ML que reducirá el tiempo que un departamento de investigación necesitaba para identificar y catalogar un objeto. Para esto, Anjanesh tuvo que identificar una colección adecuada y bien catalogada que se convertiría en el candidato de prototipo. Jerome Mairat, curador del Heberden Coin Room en el Museo Ashmolean, tenía experiencia previa en el desarrollo de colecciones digitales desde cero y ofreció su ayuda para esta exploración. La solución se pondría en práctica primero con el Roman Provincial Coinage en línea, un proyecto de numismática con renombre mundial. “Quería tener un ejemplo práctico de lo que podíamos hacer, con el fin de mostrarlo a los inversores”, explica Anjanesh. “Las monedas transportan ese mensaje con facilidad y tienen un enorme poder de atracción, lo que nos hizo colaborar con el equipo de ciencia de datos de AWS”. El primer paso en el machine learning es decidir qué quiere predecir. En este caso, Anjanesh quiso predecir un resultado simple: cara o cruz, es decir anverso o reverso. Con un conjunto de datos de formación conocidos, ¿una solución de ML puede predecir el lado correcto de una moneda con un alto nivel de precisión? Esta fue la tan necesaria transición en el mundo del ML. El resultado fue más allá de un simple “cara o cruz”, hasta una clasificación de datos altamente enriquecida.

Ahorro de tiempo y dinero al automatizar el procesamiento de imágenes en AWS

GLAM usó AWS para crear e implementar 11 modelos de ML en Amazon SageMaker en aproximadamente 10 semanas. En ese tiempo, la investigación y la experimentación tardaron aproximadamente un mes. “El creación del prototipo fue rápido y superó mis expectativas”, explica Anjanesh. Con un conjunto de datos inicial de 100 000 imágenes, GLAM usó primero blocs de notas de Amazon SageMaker para crear modelos, formarlos y experimentar con ellos. Después, cambió a trabajos de formación de Amazon SageMaker porque muchos de ellos se podían lanzar de forma simultánea en instancias P3 de Amazon EC2 (con tecnología de GPU NVIDIA V100 Tensor Core) como instancias de spot de Amazon EC2. Amazon SageMaker administró los trabajos de formación para que se ejecutaran cuando la capacidad informática estuviera disponible. Al usar los precios de las instancias de spot, GLAM pudo formar modelos al 10 % del costo de los precios de las instancias en diferido de Amazon EC2 y en un 50 % menos de tiempo. Como Amazon SageMaker funciona con cualquier marco, GLAM pudo formar los modelos en PyTorch e implementar sus propios algoritmos y scripts.

El sistema de reconocimiento de imágenes resultante implica una serie de modelos. Primero, muchos modelos del ML llevan a cabo el procesamiento de imágenes para que los modelos de reconocimiento de imágenes puedan producir mejores resultados. Por ejemplo, para digitalizar una moneda, algunos voluntarios (en general estudiantes universitarios) fotografiaron cada lado y después lo catalogaron. Si la moneda está descentrada siquiera 20 grados, los modelos de ML no la pueden procesar bien. Por eso, se usan redes neuronales convolucionales para girar cada imagen a 90 grados, un proceso que, según Jerome, podría ahorrar al Museo Ashmolean 3 años de trabajo. Otro modelo elimina el fondo de la imagen de la moneda y otro más usa redes adversarias con tecnología de vanguardia para eliminar el ruido, desenfocar y mejorar una imagen para hacerla de alta calidad. Este proceso es tan efectivo que incluso se pueden usar fotografías tomadas con teléfonos.

Una vez que la imagen está lista, más modelos de ML extraen las características de la moneda, por ejemplo, si tiene un costo, está hecha de metal o muestra a una persona, y usan esta información para encontrar modelos con características similares en el índice de GLAM. Después, un modelo transformador genera descripciones o metadatos de las imágenes que se etiquetan en cada imagen. Todos los modelos se implementan en instancias G4 de Amazon EC2 (con tecnología de GPU NVIDIA T4 Tensor Core), lo que reduce la interferencia de tiempo de minutos a segundos.

Se espera que el sistema de reconocimiento de imágenes ahorre hasta 3 años de trabajo en una colección de 300 000 monedas. “Reemplazar nuestra línea de producción con un modelo de ML mejorará los pasos de curación”, menciona Anjanesh. Jerome agrega: “Ahora podemos hacer que nuestros voluntarios se centren en otros pasos que agreguen valor. El proceso de ML mejora el flujo de trabajo y productividad, y agrega valor para el público”. Se espera que los modelos de ML lideren la forma en la que se categorizan los conjuntos de datos de imágenes en bloque de GLAM en el futuro.

Se espera que analizar una moneda, tarea en la que antes los voluntarios tardaban 10 minutos o incluso horas, ahora tarde solo unos minutos una vez que el sistema de reconocimiento de imágenes esté listo. “Si tenemos modelos de ML frente a conjuntos de datos, y si son responsables de la validación y mejoras de las imágenes, eso podría no solo ahorrar tiempo al personal, sino también permitirnos formar a voluntarios y quizá desarrollar sus aptitudes para trabajar con estos modelos. El conocimiento que los estudiantes pueden obtener de esto es otro valor que podemos agregar a todo el proceso”, explica Jerome.

El sistema de reconocimiento de imágenes también se puede utilizar para impulsar la interacción visual con los visitantes. Por ejemplo, el Museo Ashmolean llevaba a cabo sesiones de identificación de objetos, en las que las personas podían llevar objetos y obtener orientación de curaduría para identificarlos y conocer sus historias. Ahora, mediante el reconocimiento de imágenes con tecnología de AWS, una persona puede fotografiar un objeto y cargar la imagen desde casa para conocer sus detalles, lo que lleva a la posible identificación virtual de objetos.

Mejora continua de la accesibilidad de las colecciones de GLAM en AWS

GLAM tiene previsto aplicar su sistema de reconocimiento de imágenes a objetos además de monedas, por ejemplo, elementos más complejos, como plantas, piedras preciosas, mariposas y otras colecciones. También quiere compartir una versión de código abierto del sistema con otras universidades e instituciones de investigación en GitHub para promover el intercambio de conjuntos de datos como parte de un plan de desarrollo estratégico más amplio.

Con vistas al futuro, Anjanesh imagina más formas en las que el ML podría mejorar la accesibilidad a las colecciones de GLAM y simplificar los procesos internos. Actualmente, los visitantes del sitio web no pueden usar un solo cuadro de búsqueda para buscar un objeto específico en las colecciones de GLAM. Tienen que visitar un sitio web independiente para cada museo o biblioteca. Hay aspiraciones de ofrecer una función de búsqueda entre colecciones para todo el GLAM. Por último, Anjanesh visualiza una función de búsqueda aún más grande que podría rastrear las colecciones de una multitud de universidades participantes y colaboradores de patrimonio en todo el mundo. Además, en un frente más específico, las soluciones de ML se pueden utilizar para monitorear y ajustar las temperaturas de las galerías para preservar mejor los objetos, lo que podría aumentar el trabajo de los equipos de cuidado de las colecciones.

Con la creación de un sistema de reconocimiento de imágenes en AWS, GLAM ha aumentado en gran medida el acceso a sus colecciones para estudiantes, investigadores y visitantes públicos mientras ahorra a su personal y voluntarios una enorme cantidad de trabajo. “Aprecio todo el esfuerzo que AWS ha puesto en esto”, comenta Anjanesh. “Pensé que este proyecto sería complejo y demandante, pero usar AWS lo facilitó con herramientas listas para usar que son portátiles y rápidas de entregar”.


Sobre Jardines, Bibliotecas y Museos de la Universidad de Oxford

La división de Jardines, Bibliotecas y Museos de la Universidad de Oxford alberga algunas de las colecciones más importantes del mundo. Proporciona lugares importantes para la investigación académica y funciona como puerta de entrada a la abundancia de conocimiento e investigación que se genera en Oxford, que cada año da la bienvenida a 3 millones de visitantes.

Beneficios de AWS

  • Creó e implementó 11 modelos de ML en aproximadamente 10 semanas.
  • Espera ahorrar 3 años de trabajo en la catalogación de una colección de 300 000 monedas.
  • Espera que el análisis de monedas lleve solo unos pocos minutos en comparación con los plazos actuales (de 10 minutos hasta horas).
  • Disminuyó el tiempo de interferencia de minutos a segundos.
  • Complementa el trabajo que ya hacen los voluntarios.

Servicios de AWS utilizados

Amazon EC2

Amazon Elastic Compute Cloud (Amazon EC2) es un servicio web que proporciona capacidad informática en la nube segura y de tamaño modificable. Está diseñado para facilitar a los desarrolladores la informática en la nube a escala web.

Más información »

Instancias de spot de Amazon EC2

Las instancias de spot de Amazon EC2 permiten aprovechar la capacidad sin usar de EC2 en la nube de AWS. Las instancias de spot están disponibles con un descuento de hasta el 90 % en comparación con los precios bajo demanda.

Más información »

Amazon SageMaker

Amazon SageMaker es un servicio de machine learning que puede utilizar para crear, formar e implementar modelos de machine learning (ML) para prácticamente cualquier caso de uso.

Más información »

Amazon Simple Storage Service

Amazon Simple Storage Service (Amazon S3) es un servicio de almacenamiento de objetos que ofrece escalabilidad, disponibilidad de datos, seguridad y rendimiento líderes en el sector.

Más información »


Introducción

Cada día crece el número de empresas de todos los tamaños y sectores que consiguen transformar sus negocios gracias a AWS. Contacte con nuestros expertos e inicie hoy mismo su proceso de traspaso a la nube de AWS.