Cómo Thomson Reuters aceleró la investigación y el desarrollo de soluciones de procesamiento del lenguaje natural con Amazon SageMaker

Esta publicación está co-escrita por John Duprey y Filippo Pompili de Thomson Reuters.

Thomson Reuters (TR) es uno de los proveedores de respuestas más confiables del mundo, ya que ayuda a los profesionales a tomar decisiones seguras y a dirigir mejores negocios. Los equipos de expertos de TR reúnen información , innovación y perspectivas en las que confiar para desentrañar situaciones complejas y su red mundial de periodistas y editores mantiene a los clientes al tanto de los desarrollos globales. TR tiene más de 150 años de datos enriquecidos y con anotaciones humanas sobre leyes, impuestos, noticias y otros segmentos. Los datos de TR son la joya de la corona del negocio. Y son uno de los aspectos que distingue a TR de sus competidores.

En 2018, un equipo de investigadores del Centro de IA y Computación Cognitiva de TR inició un proyecto experimental a la vanguardia de la comprensión del lenguaje natural. El proyecto se basa en los últimos descubrimientos científicos que trajeron grandes disrupciones en el campo de la comprensión lectora automática (MRC) y tiene como objetivo desarrollar tecnologías que se puedan utilizar para resolver numerosas tareas, incluida la clasificación de textos y la respuesta a preguntas en lenguaje natural.

En esta publicación, analizamos cómo TR utilizó Amazon SageMaker para acelerar sus esfuerzos de investigación y desarrollo, y lo hizo con un ahorro en costes y una flexibilidad significativos. Explicamos cómo el equipo experimentó con muchas variantes de BERT para producir una potente capacidad de respuesta a preguntas. Por último, describimos el espacio de trabajo de contenido seguro (SCW) de TR, que proporcionó al equipo un acceso fácil y seguro a los recursos de Amazon SageMaker y a los datos de propiedad de TR.

Reto del cliente

El equipo de investigación y desarrollo de TR necesitaba iterar de forma rápida y segura. Los miembros del equipo ya tenían una experiencia significativa en el desarrollo de soluciones de respuesta a preguntas, tanto a través de la ingeniería de funciones dedicada para algoritmos superficiales como con soluciones basadas en neuronas sin características. Desempeñaron un papel clave en el desarrollo de la tecnología que impulsa Westlaw Edge (legal) y Checkpoint Edge (impuestos), dos productos bien recibidos de TR. Cada uno de estos proyectos requirió de 15 a 18 meses de intensos esfuerzos de investigación y desarrollo y han alcanzado niveles de desempeño notables. Para el MRC, el equipo de investigación decidió experimentar con BERT y varias de sus variantes con dos conjuntos de datos de TR, uno del ámbito legal y otro del ámbito fiscal.

El corpus de entrenamiento jurídica estaba compuesto por decenas de miles de preguntas revisadas editorialmente. Cada pregunta se comparó con varias respuestas potenciales en forma de resúmenes de texto breves y puntuales. Estos resúmenes eran materiales editoriales altamente seleccionados que se extrajeron de casos legales a lo largo de muchas décadas, lo que dio como resultado un conjunto de entrenamiento de candidatos de varios cientos de miles de pares de preguntas y respuestas (QA), extraídos de decenas de millones de resúmenes de texto. El corpus fiscal, compuesto por más de 60.000 documentos editorialmente seleccionados sobre la ley fiscal federal de los Estados Unidos, contenía miles de preguntas y decenas de miles de pares de QA.

El pre-entrenamiento y el fine-tuning de modelos con respecto a estos conjuntos de datos serían imposibles sin una potencia informática de última generación. La compra de estos recursos informáticos suele requerir una gran inversión inicial con plazos de entrega largos. Para las ideas de investigación que podrían o no convertirse en un producto, era difícil justificar un coste tan significativo para la experimentación.

¿Por qué AWS y Amazon SageMaker?

TR eligió a Amazon SageMaker como servicio de aprendizaje automático (ML) para este proyecto. Amazon SageMaker es un servicio completamente administrado para crear, entrenar, ajustar e implementar modelos de aprendizaje automático a escala. Uno de los factores clave en la decisión de TR de elegir Amazon SageMaker fue la ventaja de un servicio administrado con facturación de pago por uso. Amazon SageMaker permite a TR decidir cuántos experimentos se van a ejecutar y ayuda a controlar el coste de el entrenamiento de modelos. Lo que es más importante, cuando finaliza un trabajo de entrenamiento, ya no se le cobra al equipo por las instancias de GPU que utilizaba. Esto se tradujo en un ahorro de costes sustancial en comparación con la administración de sus propios recursos de entrenamiento, lo que habría dado lugar a una baja utilización del servidor. El equipo de investigación podría poner en marcha tantas instancias como fuera necesario y dejar que el framework se encargue de cerrar los experimentos de larga duración cuando se hayan realizado. Esto permitió la creación rápida de prototipos a escala.

Además, Amazon SageMaker cuenta con una capacidad integrada para utilizar instancias Spot administradas, lo que redujo el coste de el entrenamiento en algunos casos en más del 50%. Para algunos experimentos grandes de procesamiento del lenguaje natural (PNL) que utilizan modelos como BERT en vastos conjuntos de datos patentados, el tiempo de entrenamiento se mide en días, si no en semanas, y el hardware involucrado es una GPU costosa. Un solo experimento puede costar unos cuantos miles de dólares. El entrenamiento puntual administrada con Amazon SageMaker ayudó a TR a reducir los costes de entrenamiento entre un 40 y un 50 % de media. En comparación con el entrenamiento autogestionada, Amazon SageMaker también incluye un conjunto completo de funciones de seguridad integradas. Esto le ahorró al equipo innumerables horas de codificación que habrían sido necesarias en una infraestructura de aprendizaje automático autogestionada.

Después de lanzar los trabajos de entrenamiento , TR pudo monitorearlos fácilmente en la consola de Amazon SageMaker. Las instalaciones de medición de registro y utilización de hardware permitieron al equipo tener una visión general rápida del estado de sus trabajos. Por ejemplo, podrían asegurarse de que la pérdida de entrenamiento evolucionara según lo esperado y ver qué tan bien se utilizaban las GPU asignadas.

Amazon SageMaker proporcionó a TR un fácil acceso a la infraestructura de GPU subyacente de última generación sin tener que aprovisionar su propia infraestructura ni asumir la carga de administrar un conjunto de servidores, su posición de seguridad y sus niveles de aplicación de parches. A medida que las instancias de GPU más rápidas y económicas estén disponibles en el futuro, TR puede utilizarlas para reducir los costes y los tiempos de entrenamiento con un simple cambio de configuración para utilizar el nuevo tipo. En este proyecto, el equipo pudo experimentar fácilmente con instancias de la familia P2, P3 y G4 en función de sus necesidades específicas. AWS también proporcionó a TR un amplio conjunto de servicios de aprendizaje automático, opciones de precios rentables, controles de seguridad pormenorizados y soporte técnico.

Información general acerca de la solución

Los clientes operan en ámbitos complejos que hacen avanzar a la sociedad (leyes, impuestos, conformidad normativa, gobierno y medios de comunicación) y se enfrentan a una complejidad cada vez mayor a medida que la regulación y la tecnología revolucionan todos los sectores. TR les ayuda a reinventar su forma de trabajar. Con MRC, TR espera ofrecer búsquedas en lenguaje natural que superen a los modelos anteriores que se basaban en la ingeniería manual de funciones.

Los modelos MRC basados en BERT que el equipo de investigación de TR está desarrollando se basan en conjuntos de datos de texto que superan varias decenas de GB de datos comprimidos. Los frameworks de aprendizaje profundo preferidos para TR son TensorFlow y PyTorch. El equipo utiliza instancias de GPU para laboriosos trabajos de entrenamiento de redes neuronales, con tiempos de ejecución que van desde decenas de minutos hasta varios días.

El equipo del MRC ha experimentado con muchas variantes de BERT. Comenzando desde el modelo base, con 12 capas de codificadores de transformadores apilados y 12 cabezales de atención para 100 millones de parámetros, hasta el modelo grande con 24 capas, 16 cabezales y 300 millones de parámetros. La disponibilidad de las GPU V100 con la mayor cantidad de 32 GB de RAM fue fundamental para entrenar las variantes de modelos más grandes. El equipo formuló el problema de respuesta a las preguntas como una tarea de clasificación binaria. Cada par de QA es calificado por un grupo de expertos en la materia (PYME) que asignan uno de los cuatro grados diferentes: A, C, D y F, donde A es para respuestas perfectas y F para errores completamente erróneos. Las calificaciones de cada par de QA se convierten en números, se promedian entre los evaluadores y se binarizan.

Dado que cada sistema de respuesta a preguntas es específico de un dominio, el equipo de investigación utilizó técnicas de aprendizaje por transferencia y adaptación de dominios para habilitar esta capacidad en diferentes subdominios (por ejemplo, el derecho no es un solo dominio). TR utilizó Amazon SageMaker tanto para el preentrenamiento de modelos lingüísticos como para la puesta a punto de sus modelos BERT. En comparación con el hardware local disponible, la instancia P3 de Amazon SageMaker ha reducido el tiempo de entrenamiento de varias horas a menos de 1 hora para los trabajos de optimizacion de hiperparametros. El pre-entrenamiento de BERT en el corpus específico del dominio se redujo de unas semanas estimadas a unos pocos días. Sin el enorme ahorro de tiempo y costes que proporciona Amazon SageMaker, es probable que el equipo de investigación de TR no haya completado la amplia experimentación necesaria para este proyecto. Con Amazon SageMaker, lograron avances que impulsaron mejoras clave en sus aplicaciones, lo que permitió a sus usuarios realizar búsquedas más rápidas y precisas.

Para la inferencia, TR utilizó la función de transentrenamiento por lotes de Amazon SageMaker para la puntuación de modelos en grandes cantidades de muestras de prueba. Cuando las pruebas del rendimiento del modelo eran satisfactorias, el hosting administrado de Amazon SageMaker habilitaba la inferencia en tiempo real. TR está tomando los resultados del esfuerzo de investigación y desarrollo y los está trasladando a producción, donde esperan utilizar los puntos de enlace de Amazon SageMaker para gestionar millones de solicitudes al día en dominios profesionales altamente especializados.

Acceso seguro, fácil y continuo a la gran cantidad de datos patentados

Proteger la propiedad intelectual de TR es muy importante para el éxito a largo plazo de la empresa. Debido a esto, TR tiene estándares claros y en constante evolución en torno a la seguridad y las formas de trabajar en la nube que deben seguirse para proteger sus activos.

Esto plantea algunas preguntas clave para los científicos de TR. ¿Cómo pueden crear una instancia de un notebook de Amazon SageMaker (o lanzar un trabajo de entrenamiento ) que sea segura y que cumpla con los estándares de TR? ¿Cómo puede un científico obtener acceso seguro a los datos de TR en Amazon SageMaker? TR necesitaba garantizar que los científicos pudieran hacerlo de forma coherente, segura y con el mínimo esfuerzo.

Ingrese a áreas de trabajo de contenido seguro. SCW es una herramienta basada en la web desarrollada por el equipo de investigación y desarrollo de TR y responde a estas preguntas. El siguiente diagrama muestra el SCW en el contexto del esfuerzo de investigación de TR descrito anteriormente.

SCW permite un acceso seguro y controlado a los datos de TR. También aprovisiona servicios, como Amazon SageMaker, de forma que cumplen con los estándares de TR. Con la ayuda de SCW, los científicos pueden trabajar en la nube con la tranquilidad de saber que cumplen con los protocolos de seguridad. SCW les permite centrarse en lo que se les da bien: resolver problemas difíciles con inteligencia artificial (IA).

Conclusión

Thomson Reuters está totalmente comprometido con la investigación y el desarrollo de capacidades de inteligencia artificial de última generación para facilitar el trabajo de sus clientes. La investigación del MRC fue la última en estos esfuerzos. Los resultados iniciales indican aplicaciones amplias en toda la línea de productos de TR, especialmente para responder preguntas en lenguaje natural. Mientras que las soluciones anteriores implicaban una amplia ingeniería de funciones y sistemas complejos, esta nueva investigación muestra que es posible obtener soluciones de aprendizaje automático más sencillas. Toda la comunidad científica está muy activa en este espacio y TR se enorgullece de formar parte de él.

Esta investigación no habría sido posible sin la gran potencia computacional que ofrecen las GPU y la capacidad de escalarla según demanda. El conjunto de capacidades de Amazon SageMaker proporcionó a TR la potencia bruta y los frameworks necesarios para crear, entrenar y alojar modelos para pruebas. TR creó SCW para apoyar la investigación y el desarrollo basados en la nube, como MRC. SCW configura el entorno de trabajo de los científicos en la nube y garantiza la conformidad de todas las normas y recomendaciones de seguridad de TR. Se hizo con herramientas como Amazon SageMaker con los datos de TR seguros.

En el futuro, el equipo de investigación de TR está estudiando la posibilidad de introducir una gama mucho más amplia de funciones de inteligencia artificial y aprendizaje automático basadas en estas potentes arquitecturas de aprendizaje profundo, utilizando Amazon SageMaker y SCW. Ejemplos de estas capacidades avanzadas incluyen la generación de respuestas sobre la marcha, el resumen de texto largo y la respuesta a preguntas totalmente interactiva y conversacional. Estas capacidades permitirán un sistema de inteligencia artificial de asistencia integral que puede guiar a los usuarios hacia la mejor solución para todas sus necesidades de información .

Este artículo fue traducido del Blog de AWS en Inglés.

Sobre los autores

Mark Roy es un arquitecto de soluciones especializado en aprendizaje automático que ayuda a los clientes en su camino hacia soluciones de aprendizaje automático bien diseñadas a escala. En su tiempo libre, a Mark le encanta jugar, entrenar y seguir el baloncesto.

Qingwei Li es especialista en aprendizaje automático de Amazon Web Services. Recibió su doctorado en Investigación Operativa después de romper la cuenta de la beca de investigación de su asesor y no entregar el Premio Noble que había prometido. Actualmente ayuda a los clientes del sector de servicios financieros y seguros a crear soluciones de aprendizaje automático en AWS. En su tiempo libre, le gusta leer y enseñar.

John Duprey es director sénior de ingeniería del Centro de IA y Computación Cognitiva (C3) de Thomson Reuters. John y el equipo de ingeniería trabajan junto a científicos y equipos de tecnología de productos para desarrollar soluciones basadas en IA para los problemas más desafiantes de los clientes de Thomson Reuters.

Filippo Pompili es científico investigador principal de PNL en el Centro de IA y Computación Cognitiva (C3) de Thomson Reuters. Filippo tiene experiencia en comprensión de lectura automática, recuperación de información y modelado del lenguaje neuronal. Trabaja activamente para incorporar descubrimientos de aprendizaje automático de última generación en los productos más avanzados de Thomson Reuters.

Blog de Amazon Web Services (AWS)