Amenity Analytics utiliza una arquitectura que prioriza la informática sin servidor y el NLP para desglosar los datos financieros basados en texto

Los datos siempre han sido el elemento vital del análisis financiero, desde los días de las pizarras para tiza y la cinta perforada. De hecho, podría decirse que las finanzas han impulsado la innovación técnica más que la mayoría de los campos, desde la cinta perforada hasta las máquinas de télex y las cotizaciones electrónicas en tiempo real en las cintas de teletipo de cotizaciones bursátiles, tanto grandes (Times Square) como pequeñas (texto desplazable en la televisión).

Las innovaciones tecnológicas que hemos presenciado en el siglo XXI incluyen operaciones automatizadas en fracciones de segundo, modelos cuantitativos y un giro hacia los macrodatos. Hoy en día, los inversores, los analistas financieros y las aseguradoras pueden analizar y revisar grandes cantidades de datos estructurados, como métricas financieras y precios de acciones, con facilidad.

Nathaniel Storch, cofundador y director ejecutivo

Al mismo tiempo, afirma el cofundador y director ejecutivo, Nathaniel Storch, puede llevar horas, si no días, recopilar información igualmente útil que está escondida en datos textuales. Storch, antiguo analista financiero, comparte que “tuvo que sufrir esto en persona mientras analizaba empresas públicas”. Le tomó incontables horas obtener la información que necesitaba de los datos escritos, como presentaciones de declaraciones reglamentarias, artículos de noticias, informes de investigación y transcripciones de reuniones periódicas sobre ganancias. Y eso era para una sola empresa. “Tratar de obtener esta información a escala era imposible. Por eso, creamos Amenity Analytics para ayudar a nuestros clientes a abordar este problema fundamental y a tratar la información contenida en texto de la misma manera en la que tratan los datos estructurados”.

La empresa emergente, que tiene oficinas en Israel y en Nueva York, es, en esencia, una empresa de NLP. Sus algoritmos examinan enormes cantidades de datos y procesan alrededor de un millón de piezas de información de texto por día. El software recopila información que luego se comparte con los clientes, que incluyen personas de Nasdaq y Moody’s. “Parte de la información más importante que nuestros clientes necesitan para tomar decisiones comerciales informadas existe en formatos de texto, y no se aprovecha en gran medida como fuente de información debido a las dificultades que presenta el análisis del texto de manera significativa”, afirma el vicepresidente de ingeniería, Roy Penn.

Para sus clientes, que incluyen algunas de las compañías de seguros, los bancos y las firmas de inversión más grandes del mundo, el software de la compañía genera tendencias y puntajes de primera línea en torno a las ideas que descubre y, luego, señala los artículos y frases específicos a los que se hace referencia.

Para las compañías de seguros, por ejemplo, Penn indica: “Analizamos y refinamos millones de noticias y otros documentos por día y los incluimos en un conjunto claro de métricas de riesgo que alertan a las aseguradoras sobre posibles problemas, con total transparencia del contenido fuente”.

Roy Penn, vicepresidente de Ingeniería

Los clientes de Amenity esperan que la empresa descubra puntos de datos procesables, dice Penn, “incluso si están ocultos detrás de capas de escritura, por lo que empleamos técnicas de comparación de patrones lingüísticos de vanguardia”. Según Penn, la clave del éxito de Amenity en el campo del NLP fue crear su propio marco. La mayoría de las empresas que utilizan el NLP —una rama del machine learning centrada en comprender los datos lingüísticos tal como los proporcionan las personas, en lugar de los resultados bien definidos de las computadoras— ejecuta algoritmos comúnmente conocidos. Sin embargo, al diseñar y crear “los algoritmos que queremos”, afirma Penn, “podemos operarlos de manera que tengan ventaja sobre otras empresas”.

Como era de esperar, este sistema de clasificaciones de NLP complejas implica grandes cargas de trabajo para las CPU, que se gestionan mediante una arquitectura de AWS que prioriza la informática sin servidor. “Toda nuestra pila se basa en herramientas de AWS. Hemos escrito grandes partes de ella en C y logramos comprimirla en varias funciones de Lambda”, afirma Penn. “Esto da a nuestros científicos de datos la capacidad de ejecutar muchos experimentos de forma rápida y económica. En general, el cambio al NLP sin servidor redujo nuestros costos de análisis en un 90 por ciento y el tiempo de análisis en un 95 por ciento”, afirma. Además, “el mantenimiento y la complejidad del código se reducen cuando utilizamos patrones sin servidor, y eso se traduce en ciclos de desarrollo más rápidos”.

Penn es un aficionado específico del proceso de extracción, transformación y carga (ETL, por sus siglas en inglés) a través de AWS Glue, y afirma que se ajusta de manera perfecta a las necesidades de Amenity de “un sistema que sea lo suficientemente rápido, económico y escalable como para poder gestionar tanto los días de noticias muy lentos como las grandes cantidades de solicitudes, como, por ejemplo, un cliente que necesite el análisis de 10 millones de piezas de información en un día”. También, cita el ahorro de tiempo y costos: “Con el proceso de ‘nueva idea’ de ETL, ahorramos alrededor del 50 por ciento del costo, y con el NLP, logramos reducir el costo unas 10 veces y el tiempo de análisis entre 20 y 100 veces. Y eso es muchísimo, porque al hacerlo, es posible completar un ciclo creativo, pensar y efectuar implementaciones y pruebas más rápido”.

Además de la información disponible públicamente que Amenity analiza y suministra a bancos, inversores y compañías financieras, también puede proporcionar información interna a las empresas al examinar sus documentos privados y seguros. “Podría ser seguro debido a la información de identificación personal, o tal vez contenga una parte de su receta secreta”, indica Penn. “Los fondos de cobertura pueden tener información comercial secreta y querer analizar sus propios documentos, sin dejar que nadie más sepa acerca de su contenido. Las compañías de seguros tienen muchos correos electrónicos que van y vienen con sus clientes, y es posible que quieran conocer las tendencias y los temas que aparecen en sus correos electrónicos”. Lo que constituye información valiosa difiere de una empresa a otra, explica Penn, pero al configurar y ajustar los datos mediante los algoritmos que el equipo de Amenity creó, “podemos encontrar lo que es importante para cada empresa en su propio universo”.

En el futuro, dice Penn, Amenity planea expandir su oferta a otros sectores, como el de la salud, el legal y el educativo. La empresa también quiere ampliar su ámbito de actuación a Londres. Mientras tanto, Amenity seguirá con su tarea de recopilación y análisis de información basada en texto y entregándola a sus clientes. “Cuanto más compleja sea, mejor”, afirma Penn.

Blog de Amazon Web Services (AWS)

Amenity Analytics utiliza una arquitectura que prioriza la informática sin servidor y el NLP para desglosar los datos financieros basados en texto

Aprender

Recursos

Desarrolladores

Ayuda