Sprinklr réduit les coûts d'inférence de machine learning sur AWS Inferentia

2021

Sprinklr fournit une plateforme de gestion unifiée de l'expérience client (Unified-CXM) qui combine différentes applications pour le marketing, la publicité, la recherche, le service client, les ventes et l'engagement sur les réseaux sociaux. En tant qu'entreprise axée sur le cloud, Sprinklr cherche toujours à améliorer son efficacité et à optimiser ses économies de coûts. Pour atteindre ses objectifs, l'entreprise utilise Amazon Web Services (AWS), en particulier Amazon Elastic Compute Cloud (Amazon EC2), qui fournit une capacité de calcul sécurisée et redimensionnable dans le cloud.

En 2021, Sprinklr a eu l'opportunité d'essayer les instances Amazon EC2 Inf1, qui sont optimisées par AWS Inferentia, une puce d'inférence de machine learning (ML) hautement performante conçue à partir de zéro et optimisée pour les applications d'inférence ML. En migrant ses charges de travail en temps réel sur sa plateforme Unified-CXM depuis des instances Amazon EC2 basées sur des unités de traitement graphique vers AWS Inferentia, Sprinklr a réalisé d'importantes économies et a vu la latence de ces charges de travail diminuer de plus de 30 %. De plus, en réduisant la latence, l'entreprise a également amélioré les performances de ses produits et services pour ses clients.

Créer une meilleure expérience client grâce au machine learning

Sprinklr, fondée en 2009, est une société de logiciels américaine qui compte des employés dans le monde entier. L'entreprise est l'une des premières à adopter les nouveaux services AWS et a pour mission d'aider les entreprises du monde entier à satisfaire leurs clients. Elle propose plus de 31 produits logiciels différents répartis dans 4 suites de produits robustes et a développé un moteur d'intelligence artificielle breveté permettant aux entreprises d'analyser des données accessibles au public et d'interagir avec leurs clients sur 30 réseaux numériques et sociaux. Avec Sprinklr, les entreprises peuvent collaborer entre leurs équipes en interne et via des réseaux numériques externes afin de créer une meilleure expérience client.

Sprinklr cherche toujours à améliorer l'expérience de ses clients tout en réduisant les coûts de calcul et en optimisant l'efficacité. « Notre objectif est de toujours utiliser les technologies les plus récentes afin d'économiser encore davantage », déclare Jamal Mazhar, Vice President of Infrastructure and DevOps chez Sprinklr. Sprinklr espérait réduire la latence tout en diminuant ses coûts d'inférence de machine learning. Pour relever ces défis, elle s'est tournée vers AWS et ses innovations. « Lorsque nous avons découvert AWS Inferentia, il était naturel pour nous d'en tenir compte dans le cadre de nos initiatives en matière de coûts », explique Yogin Patel, Senior Director of Product Engineering, Artificial Intelligence chez Sprinklr. Dans le but de réduire les coûts de calcul et d'améliorer la satisfaction des clients, Sprinklr a commencé à tester des instances Amazon EC2 Inf1 en juillet 2021.

Améliorer les performances et réaliser des économies, un travail continu

La plateforme Unified-CXM de Sprinklr utilise des algorithmes de machine learning sur des données non structurées provenant de nombreux réseaux différents afin de fournir des informations à ses clients. Prenons l'exemple des modèles ML de traitement du langage naturel et de vision par ordinateur de l'entreprise : ils analysent différents formats de données provenant de publications sur les réseaux sociaux, d'articles de blog, de contenus vidéo et d'autres contenus disponibles sur les domaines publics sur plus de 30 réseaux. Sprinklr est en mesure de déduire le sentiment et l'intention des clients à partir de ce contenu afin de fournir des informations sur les produits à ses clients. Actuellement, l'entreprise effectue environ 10 milliards de prévisions par jour sur ses plus de 500 modèles. Sprinklr divise ses charges de travail en deux groupes : les charges optimisées en termes de latence optimisée, et celles optimisées en termes de débit. La latence fait référence au temps nécessaire à une inférence pour atteindre sa destination, et le débit renvoie au nombre de paquets traités au cours d'une période donnée. « Si la latence diminue de 20 %, ne serait-ce que sur un seul modèle, cela se traduit par de très importantes économies », explique M. Patel.

AWS Inferentia dispose d'une grande quantité de mémoire sur puce qui peut être utilisée pour la mise en cache de grands modèles, ce qui évite de devoir les stocker hors puce. Cela peut avoir un impact significatif sur la réduction de la latence d'inférence, car les cœurs de traitement d'AWS Inferentia, appelés NeuronCores, ont un accès très rapide aux modèles qui sont stockés dans la mémoire de la puce et ne sont pas limités par la bande passante de la mémoire hors puce. Les NeuronCores fournissent également une inférence très performante dans le cloud à des coûts nettement inférieurs, et permettent aux développeurs d'intégrer facilement le machine learning dans leurs applications d'entreprise.

Lorsque Sprinklr a commencé à migrer des modèles vers des instances Amazon EC2 Inf1 et à exécuter des tests de référence, l'entreprise a vu la latence diminuer de plus de 30 % sur les charges de travail optimisées en termes de latence. « Tester de nouveaux services AWS, expérimenter avec des charges de travail et évaluer de nouvelles instances nous intéresse toujours », explique M. Patel. Constatant la réduction significative de la latence qu'AWS Inferentia a pu fournir lors des tests, Sprinklr a décidé de migrer toutes ses charges de travail optimisées en termes de latence vers des instances Amazon EC2 Inf1. « L'objectif est toujours de réduire la latence, ce qui se traduit par une meilleure expérience client, » explique M. Mazhar. « Grâce aux instances Amazon EC2 Inf1, nous sommes en mesure d'y parvenir. »

Après avoir migré une vingtaine de modèles vers des instances Amazon EC2 Inf1, Sprinklr a commencé à migrer ses modèles de vision par ordinateur et de texte afin d'améliorer son efficacité et de réaliser des économies. L'équipe est désormais en mesure de déployer un modèle à l'aide des instances Amazon EC2 Inf1 en moins de deux semaines. Grâce aux nombreuses ressources et à l'assistance disponibles, le processus de migration vers AWS Inferentia a paru simple à l'entreprise. « Nous avons pu rapidement entrer en contact avec les bonnes équipes, » explique M. Mazhar. « Le support d'AWS nous aide à améliorer la satisfaction de nos clients et la productivité de notre personnel. »

Innover pour améliorer l'efficacité

Au fur et à mesure que Sprinklr poursuivra la migration de ses modèles vers AWS Inferentia, elle ajoutera d'autres modèles liés à la voix, notamment la reconnaissance vocale automatique et la reconnaissance des intentions, afin d'aider les entreprises à mieux interagir avec leurs clients. Sprinklr s'attend à ce que le déploiement de ces modèles sur AWS Inferentia offre à ses clients les performances et la faible latence dont ils ont besoin à des coûts nettement inférieurs.

À propos de Sprinklr

Grâce à une intelligence artificielle avancée, la plateforme Unified-CXM de Sprinklr aide les entreprises à offrir des expériences humaines à chaque client, à chaque fois, sur n'importe quel réseau moderne. Sprinklr, dont le siège social est situé à New York, travaille avec plus de 1 000 entreprises mondiales et plus de 50 % des entreprises du Fortune 100.

Avantages d'AWS

Temps de latence réduit de plus de 30 % sur les modèles migrés
Diminution des coûts de calcul sur les modèles migrés
Fournit des informations à partir de données non structurées grâce à l'intelligence artificielle
Expérience client améliorée grâce à l'intelligence artificielle et au machine learning
Possibilité de déployer un modèle en moins de 2 semaines
Satisfaction et productivité des équipes soutenues

Services AWS utilisés

Amazon EC2 Inf1

Les instances Amazon EC2 Inf1 offrent l'inférence ML haute performance la plus économique dans le cloud. Les instances Inf1 sont créées de A à Z pour prendre en charge les applications d'inférence de machine learning.

AWS Inferentia

AWS Inferentia est le premier silicium personnalisé d'Amazon conçu pour accélérer les charges de travail de deep learning. Il est conçu pour fournir une inférence très performante dans le cloud, pour réduire le coût total de l'inférence et pour permettre aux développeurs d'intégrer facilement le machine learning dans leurs applications d'entreprise.