Finch Computing réduit ses coûts d'inférence de 80 % en utilisant AWS Inferentia pour la traduction linguistique

Baisse de 80 %

des coûts informatiques

3 langues additionnelles

prises en charge en raison de la réduction des coûts

Délais de commercialisation réduits

pour les nouveaux produits

Optimisation

du débit et des temps de réponse pour les clients

Clients supplémentaires

attirés par l'utilisation du service

Présentation

Finch Computing développe une technologie de traitement du langage naturel (NLP) pour permettre à ses clients d'extraire des informations utiles d'énormes volumes de données textuelles. L'entreprise cherchait à répondre aux demandes des clients concernant la prise en charge de langues supplémentaires. Finch avait construit ses propres modèles de traduction neuronale à l'aide d'algorithmes de deep learning nécessitant de fortes capacités de calcul dépendantes des processeurs graphiques (GPU). L'entreprise recherchait une solution évolutive capable de prendre en charge des flux de données mondiaux et de lui permettre d'élaborer rapidement de nouveaux modèles linguistiques sans avoir à supporter des coûts prohibitifs.

Depuis sa création, Finch utilisait les solutions d'Amazon Web Services (AWS). L'entreprise a commencé à s'intéresser à AWS Inferentia, un accélérateur d'inférence de machine learning hautement performant, spécialement conçu par AWS pour accélérer les charges de travail liées au deep learning. En créant une infrastructure de calcul centrée sur l'utilisation d'AWS Inferentia, Finch a réduit ses coûts de plus de 80 % par rapport à l'utilisation des processeurs graphiques, tout en maintenant son débit et ses temps de réponse pour ses clients. Grâce à la mise en place d'une puissante infrastructure informatique, Finch a accéléré ses délais de commercialisation, étendu son NLP pour prendre en charge trois langues supplémentaires et attiré de nouveaux clients.

Opportunité | Recherche d'évolutivité et d'optimisation des coûts pour les modèles de ML

Avec des bureaux à Reston, en Virginie, et à Dayton, dans l'Ohio, Finch, une combinaison des mots « trouver » et « rechercher », offre ses services aux entreprises de médias et aux agrégateurs de données, aux organisations gouvernementales et de renseignement américaines, ainsi qu'aux sociétés de services financiers. Ses produits sont centrés sur le NLP, un sous-ensemble de l'intelligence artificielle qui entraîne des modèles à comprendre les nuances du langage humain, notamment à déchiffrer le ton et l'intention. Son produit Finch for Text utilise des calculs de machine learning (ML) denses et parallèles qui s'appuient sur un calcul accéléré à hautes performances afin de fournir aux clients des informations en temps quasi réel sur leurs actifs informationnels. Par exemple, sa fonction de désambiguïsation des entités permet aux clients d'interpréter le sens correct d'un mot qui possède plusieurs sens ou orthographes.

Finch a étendu ses capacités pour prendre en charge le néerlandais, ce qui a fait naître l'idée qu'elle devait encore évoluer pour inclure le français, l'allemand, l'espagnol et d'autres langues. Cette décision s'est révélée judicieuse, non seulement parce que les clients de Finch disposaient d'un grand nombre de contenus dans ces langues, mais également parce que les modèles capables de prendre en charge d'autres langues pouvaient attirer de nouveaux clients. Finch devait trouver comment traiter une quantité importante de données supplémentaires sans affecter le débit ni les temps de réponse, des facteurs critiques pour ses clients, ou sans augmenter les coûts de déploiement.

Lors d'AWS re:Invent 2021, une conférence annuelle organisée par AWS pour la communauté mondiale du cloud computing, les représentants de Finch ont découvert les instances basées sur AWS Inferentia dans Amazon Elastic Compute Cloud (Amazon EC2), qui offrent une capacité de calcul sécurisée et redimensionnable pour pratiquement toutes les charges de travail. AWS a présenté Finch au partenaire AWS Slalom, une société de conseil spécialisée dans la stratégie, la technologie et la transformation des entreprises. Pendant les deux mois qui ont suivi AWS re:Invent, les membres des équipes de Slalom et de Finch ont travaillé à la création d'une solution rentable. « En plus de bénéficier des conseils de l'équipe AWS, nous avons noué des liens avec Slalom, ce qui nous a permis d'optimiser nos charges de travail et d'accélérer ce projet », explique Scott Lightner, Founder and Chief Technology Officer chez Finch.

Compte tenu du coût des processeurs graphiques, nous n'aurions tout simplement pas pu proposer à nos clients des langues supplémentaires tout en maintenant la rentabilité de notre produit. Les instances Amazon EC2 Inf1 ont changé la donne pour nous. »

Scott Lightner
CTO and Founder, Finch Computing

Solution | Création d'une solution à l'aide d'AWS Inferentia

Ensemble, Finch et Slalom ont conçu une solution qui a optimisé l'utilisation des instances Amazon EC2 Inf1 basées sur AWS Inferentia, qui fournissent des inférences de machine learning hautes performances à faible coût dans le cloud. « Compte tenu du coût des processeurs graphiques, nous n'aurions tout simplement pas pu proposer à nos clients des langues supplémentaires tout en maintenant la rentabilité de notre produit, » déclare M. Lightner. « Les instances Amazon EC2 Inf1 ont changé la donne pour nous. »

Les modèles de traduction de deep learning brevetés par l'entreprise s'exécutaient sur PyTorch sur AWS, un outil open source de deep learning qui facilite le développement de modèles de machine learning et leur déploiement en production. Finch a utilisé Docker pour conteneuriser et déployer ses modèles PyTorch. L'entreprise a migré ces modèles à calcul intensif depuis des instances basées sur des processeurs graphiques vers des instances Amazon EC2 Inf1 optimisées par AWS Inferentia. Les instances Amazon EC2 Inf1 ont été conçues pour accélérer un ensemble diversifié de modèles, allant de la vision par ordinateur au NLP. L'équipe a pu créer une solution qui combinait différentes tailles de modèles et maintenait le même débit que lorsqu'elle utilisait des processeurs graphiques, mais à un coût nettement inférieur. « Grâce à AWS Inferentia, nous sommes en mesure d'obtenir le débit et les performances nécessaires à un prix abordable pour nos clients », explique M. Lightner.

La stratégie impliquait le déploiement de conteneurs Docker sur Amazon Elastic Container Service (Amazon ECS), un service d'orchestration de conteneurs entièrement géré qui permet aux entreprises de facilement déployer, gérer et mettre à l'échelle des applications conteneurisées. La solution incorporait des AWS Deep Learning AMI (DLAMI), des environnements préconfigurés permettant de créer rapidement des applications de deep learning. Finch a intégré les AMI AWS Inferentia à son pipeline DevOps et a mis à jour ses modèles d'infrastructure en tant que code afin d'utiliser AWS Inferentia pour exécuter des conteneurs personnalisés à l'aide d'Amazon ECS. « Une fois notre pipeline DevOps exécuté sur les instances Amazon EC2 Inf1 et Amazon ECS, nous avons pu déployer rapidement davantage de modèles de deep learning », explique Franz Weckesser, Chief Architect chez Finch. En effet, Finch a construit un modèle pour prendre en charge la langue ukrainienne en seulement 2 jours. En quelques mois, Finch a déployé trois modèles de machine learning supplémentaires, prenant en charge le traitement du langage naturel en allemand, en français et en espagnol, et a amélioré les performances de son modèle néerlandais existant.

À l'aide des instances Amazon EC2 Inf1, l'entreprise a accéléré le développement de ces nouveaux produits tout en réduisant ses coûts d'inférence de plus de 80 %. L'ajout des nouveaux modèles a attiré des clients intéressés par les nouvelles langues et a reçu des commentaires positifs de la part des clients existants. « Il est toujours difficile de changer l'infrastructure en profondeur, » explique M. Lightner. Mais nous avons pu surmonter ces changements rapidement grâce à la persévérance de notre équipe et à l'aide de Slalom et d'AWS. Le résultat final en a valu la peine. »

Résultat | Migration d'applications supplémentaires vers AWS Inferentia

Finch souhaite continuer à migrer davantage de modèles vers AWS Inferentia. Ces modèles incluent l'Attribution de sentiments, fonctionnalité qui identifie un élément de contenu comme étant positif, négatif ou neutre, et une nouvelle fonctionnalité appelée Extraction de relations, une application à calcul intensif qui découvre les relations entre les entités mentionnées dans le texte. Finch continue d'ajouter de nouvelles langues, dont prochainement l'arabe, le chinois et le russe. « Notre expérience de travail sur AWS Inferentia a été formidable, » déclare M. Lightner. « C'est excellent de pouvoir compter sur un fournisseur de cloud qui travaille à nos côtés et qui nous aide à évoluer au fur et à mesure de la croissance de notre activité. »

À propos de Finch Computing

Finch Computing est une société de traitement du langage naturel qui utilise le machine learning pour aider ses clients à obtenir des informations en temps quasi réel à partir de textes. Parmi ses clients figurent des entreprises de médias et des agrégateurs de données, le gouvernement et les services de renseignement américains, ainsi que des sociétés de services financiers.

Services AWS utilisés

Amazon Inferentia

AWS Inferentia est le premier silicium personnalisé d'Amazon conçu pour accélérer les charges de travail de deep learning. Il appartient à une stratégie à long terme visant à concrétiser cette approche.

Amazon Elastic Container Service (Amazon ECS)

Amazon ECS est un service d'orchestration de conteneurs entièrement géré qui vous permet de déployer, de gérer et de mettre à l'échelle des applications conteneurisées en toute simplicité.

En savoir plus »

Amazon Elastic Compute Cloud (Amazon EC2)

Amazon Elastic Compute Cloud (Amazon EC2) offre la plateforme de calcul la plus variée et la plus complète, avec plus de 500 instances. Vous y avez accès au processeur, à la solution de stockage, aux réseaux, au système d'exploitation et au modèle d'achat les plus récents pour vous aider à répondre au mieux aux besoins de votre charge de travail.

En savoir plus »

AWS Deep Learning AMI (DLAMI)

Les AWS Deep Learning AMI fournissent aux chercheurs et aux professionnels du machine learning l'infrastructure et les outils nécessaires pour accélérer le deep learning dans le cloud, à n'importe quelle échelle.

En savoir plus »

2022

Baisse de 80 %

3 langues additionnelles

Délais de commercialisation réduits

Optimisation

Clients supplémentaires

Présentation

À propos de Finch Computing

Services AWS utilisés

Amazon Inferentia

Amazon Elastic Container Service (Amazon ECS)

Amazon Elastic Compute Cloud (Amazon EC2)

AWS Deep Learning AMI (DLAMI)

Démarrer

2022

Finch Computing réduit ses coûts d'inférence de 80 % en utilisant AWS Inferentia pour la traduction linguistique

Baisse de 80 %

3 langues additionnelles

Délais de commercialisation réduits

Optimisation

Clients supplémentaires

Présentation

À propos de Finch Computing

Services AWS utilisés

Amazon Inferentia

Amazon Elastic Container Service (Amazon ECS)

Amazon Elastic Compute Cloud (Amazon EC2)

AWS Deep Learning AMI (DLAMI)

Démarrer

Fin de la prise en charge d'Internet Explorer