Sprinklr reduce los costos de inferencia del machine learning en AWS Inferentia

2021

Sprinklr proporciona una plataforma de gestión unificada de la experiencia del cliente (Unified-CXM) que combina diferentes aplicaciones de marketing, publicidad, investigación, atención al cliente, ventas e interacciones en las redes sociales. Como empresa que prioriza la nube, Sprinklr siempre busca formas de mejorar la eficiencia y optimizar sus ahorros de costos. Para lograr sus objetivos, la empresa utiliza Amazon Web Services (AWS), específicamente Amazon Elastic Compute Cloud (Amazon EC2), que proporciona una capacidad de computación segura y redimensionable en la nube.

En 2021, Sprinklr tuvo la oportunidad de probar las instancias Inf1 de Amazon EC2, que utilizan la tecnología de AWS Inferentia, un chip de inferencia de machine learning (ML) de alto rendimiento creado desde cero y optimizado para aplicaciones de inferencia de ML. Al migrar sus cargas de trabajo en tiempo real en su plataforma Unified-CXM de las instancias de Amazon EC2 basadas en GPU a AWS Inferentia, Sprinklr ha conseguido un importante ahorro de costos y ha reducido la latencia en más de un 30 % en esas cargas de trabajo. Además, al reducir la latencia, la empresa también ha mejorado el rendimiento de los productos y servicios para sus clientes.

Uso del machine learning para crear una mejor experiencia de cliente

Sprinklr, fundada en 2009, es una empresa estadounidense de software con empleados en todo el mundo. Esta empresa es una de las primeras en adoptar los nuevos servicios de AWS y su misión es ayudar a las organizaciones de todo el mundo a hacer que sus clientes estén más satisfechos. Ofrece más de 31 productos de software diferentes en 4 sólidas suites de productos y ha desarrollado un motor de inteligencia artificial patentado y avanzado para que las empresas analicen los datos disponibles públicamente e interactúen con los clientes en 30 canales digitales y sociales. Con Sprinklr, las empresas pueden colaborar entre los equipos a nivel interno y en los canales digitales externos para crear una mejor experiencia de cliente.

Sprinklr siempre busca mejorar la experiencia de sus clientes y, al mismo tiempo, reducir los costos de computación y optimizar la eficiencia. «Nuestro objetivo es utilizar siempre la última tecnología para poder lograr mayores ahorros de costos», afirma Jamal Mazhar, vice president de infrastructure y DevOps de Sprinklr. Sprinklr esperaba reducir la latencia y, al mismo tiempo, reducir sus costos de inferencia de machine learning, y recurrió a las innovaciones de AWS para superar esos desafíos. «Cuando conocimos AWS Inferentia, fue una decisión lógica tenerlo en cuenta a la hora de impulsar nuestras iniciativas de costos», afirma Yogin Patel, senior director de product engineering, artificial intelligence de Sprinklr. Sprinklr comenzó a probar las instancias Inf1 de Amazon EC2 en julio de 2021 con el objetivo de reducir los costos de computación y mejorar la satisfacción de los clientes.

Trabajar para mejorar continuamente el rendimiento y ahorrar costos

La plataforma Unified-CXM de Sprinklr utiliza algoritmos de machine learning en datos no estructurados procedentes de muchos canales diferentes para ofrecer información a sus clientes. Por ejemplo, el procesamiento de lenguaje natural y los modelos de ML de visión artificial de la empresa analizan diferentes formatos de datos procedentes de publicaciones en redes sociales, publicaciones de blog, contenidos de vídeo y otros contenidos disponibles en dominios públicos en más de 30 canales. Sprinklr puede deducir la opinión y la intención de los clientes a partir de este contenido para ofrecer información sobre los productos a sus clientes. En la actualidad, la empresa realiza alrededor de 10 000 millones de predicciones al día en sus más de 500 modelos. Sprinklr divide sus cargas de trabajo en dos grupos: latencia optimizada y rendimiento optimizado. La latencia se refiere al tiempo que tarda una inferencia en llegar a su destino, y el rendimiento se refiere a la cantidad de paquetes que se procesan durante un período de tiempo específico. «Si la latencia se reduce un 20 % incluso en un modelo, eso se traduce en un ahorro de costos muy grande», afirma Patel.

Los chips de AWS Inferentia cuentan con una gran cantidad de memoria en chip, que puede utilizarse para almacenar modelos grandes en caché, en lugar de almacenarlos fuera del chip. Esto puede tener un impacto significativo en la reducción de la latencia de inferencia, ya que los núcleos de procesamiento de AWS Inferentia, denominados núcleos de neurona, tienen acceso de alta velocidad a los modelos que están almacenados y no están limitados por el ancho de banda de la memoria fuera del chip. Los núcleos de neurona también proporcionan inferencias de alto rendimiento en la nube a costos significativamente más bajos, y facilitan a los desarrolladores la integración de machine learning en sus aplicaciones empresariales.

Cuando Sprinklr comenzó a migrar modelos a las instancias Inf1 de Amazon EC2 y a ejecutar pruebas de referencia, la empresa vio cómo la latencia se redujo en más de un 30 % en las cargas de trabajo optimizadas para la latencia. «Siempre estamos interesados en probar nuevos servicios de AWS, experimentar con cargas de trabajo y comparar nuevas instancias», afirma Patel. Al ver la reducción significativa de la latencia que AWS Inferentia pudo ofrecer en las pruebas, Sprinklr decidió migrar todas sus cargas de trabajo optimizadas para la latencia a las instancias Inf1 de Amazon EC2. «El objetivo siempre es tener una latencia más baja, lo que significa una mejor experiencia del cliente», afirma Mazhar. «Con las instancias Inf1 de Amazon EC2, podemos lograrlo».

Tras migrar unos 20 modelos a instancias Inf1 de Amazon EC2, Sprinklr comenzó a migrar sus modelos de visión artificial y texto para mejorar la eficiencia y ahorrar costos. El equipo ahora puede implementar un modelo mediante instancias Inf1 de Amazon EC2 en menos de 2 semanas. Cuando la empresa migró a AWS Inferentia, el proceso le resultó sencillo gracias a los amplios recursos y el soporte disponibles. «Hemos podido ponernos en contacto rápidamente con los equipos adecuados», afirma Mazhar. «El soporte de AWS nos ayuda a aumentar la satisfacción de nuestros clientes y la productividad del personal».

Innovar para mejorar la eficiencia

A medida que Sprinklr siga migrando modelos a AWS Inferentia, agregará más modelos relacionados con la voz, incluidos el reconocimiento automático de voz y el reconocimiento de intenciones, para ayudar a las empresas a interactuar aún más con sus clientes. Sprinklr espera que la implementación de estos modelos en AWS Inferentia brinde a sus clientes el rendimiento y la baja latencia que necesitan a un costo significativamente menor.

Acerca de Sprinklr

Con inteligencia artificial avanzada, la plataforma Unified-CXM de Sprinklr ayuda a las empresas a ofrecer experiencias humanas a todos los clientes, en todo momento, a través de cualquier canal moderno. Sprinklr, con sede en la ciudad de Nueva York, trabaja con más de 1000 empresas globales y más del 50 % de las empresas de Fortune 100.

Beneficios de AWS

Reducción de la latencia en más de un 30 % en los modelos migrados
Disminución de los costos de computación en los modelos migrados
Proporciona información a partir de datos no estructurados mediante inteligencia artificial
Experiencia de cliente mejorada mediante inteligencia artificial y machine learning
Capacidad de implementar un modelo en menos de 2 semanas
Satisfacción y productividad del equipo mejoradas

Servicios de AWS utilizados

Inf1 de Amazon EC2

Las instancias Inf1 de Amazon EC2 ofrecen la inferencia de ML de alto rendimiento de menor costo en la nube. Las instancias Inf1 se crean desde cero para ser compatibles con las aplicaciones de inferencia de machine learning.

Más información »

AWS Inferentia

AWS Inferentia es el primer chip a medida de Amazon diseñado para acelerar las cargas de trabajo de aprendizaje profundo, proporcionar una inferencia de alto rendimiento en la nube, reducir el costo total de la inferencia y facilitar a los desarrolladores la integración del machine learning en sus aplicaciones empresariales.