Comment les start-ups réduisent les coûts d'IA/de ML et innovent avec AWS Inferentia

Comment a été ce contenu ?

En tant que start-up spécialisée dans le machine learning (ML), vous êtes probablement conscient des défis liés à l'entraînement et au déploiement de modèles de ML dans vos applications (« productisation ML »). La productisation ML est un défi, car les start-ups s'efforcent simultanément d'atteindre des performances d'application élevées, de créer une expérience utilisateur agréable et de gérer les coûts de manière efficace, tout en créant une start-up compétitive et durable.

Au moment de choisir l'infrastructure pour leurs charges de travail de ML, les start-ups doivent réfléchir à la meilleure approche à adopter en matière d'entraînement et d'inférence. L'entraînement est un processus par lequel un modèle est créé et adapté à une tâche spécifique en apprenant à partir des données existantes. L'inférence est le processus qui consiste à utiliser ce modèle pour effectuer des prédictions sur la base de nouvelles données d'entrée. Au cours des cinq dernières années, AWS a investi dans ses propres accélérateurs spécialement conçus pour optimiser les performances et les coûts de calcul des charges de travail de ML. Les accélérateurs AWS Trainium et AWS Inferentia permettent de réduire les coûts liés aux modèles d'entraînement et à l'exécution d'inférences dans le cloud.

Les instances Amazon EC2 Inf1 basées sur AWS Inferentia sont idéales pour les start-ups qui souhaitent exécuter des applications d'inférence ML telles que :

  • Recherche
  • Moteurs de recommandation
  • Vision par ordinateur
  • Reconnaissance vocale
  • Traitement du langage naturel (NLP)
  • Personnalisation
  • Détection des fraudes

Pour la formation et le déploiement de modèles plus complexes tels que des modèles d'IA générative (modèles de langage volumineux et modèles de diffusion), votre start-up souhaitera peut-être consulter les nouvelles instances Amazon EC2 Trn1 basées sur AWS Trainium et les instances Amazon EC2 Inf2 basées sur AWS Inferentia2.

Dans ce billet, nous aborderons les cas d'utilisation de deux start-ups, Actuate et Finch Computing, et le succès qu'elles ont connu avec les instances Inf1 basées sur Inferentia.

Actuate | Détection des menaces à l'aide de l'analytique vidéo basée sur l'IA en temps réel | 91 % d'économies sur les coûts d'inférence

Cas d'utilisation : Actuate fournit une plateforme logicielle en tant que service (SaaS) conçue pour convertir n'importe quelle caméra en caméra intelligente de détection des menaces en temps réel afin de détecter instantanément et avec précision les armes, les intrus, les foules et le vagabondage. La plateforme logicielle d'Actuate s'intègre aux systèmes de caméras vidéo existants pour créer des systèmes de sécurité avancés. Grâce au logiciel de détection des menaces d'intelligence artificielle (IA) d'Actuate, les clients reçoivent des alertes en temps réel en quelques secondes et peuvent agir rapidement pour sécuriser leurs locaux.

Opportunité : Actuate devait garantir une précision de détection élevée. Cela impliquait de constamment recycler ses modèles en utilisant davantage de données, ce qui a fait perdre un temps précieux aux développeurs. En outre, comme elle avait besoin de temps de réponse rapides, elle s'appuyait sur une infrastructure basée sur le GPU, dont le coût était prohibitif à grande échelle. En tant que start-up aux ressources limitées, la réduction des coûts d'inférence et du temps de développement pourrait aider Actuate à utiliser ces ressources pour développer de meilleures capacités et apporter plus de valeur à ses utilisateurs finaux.

Solution et impact : Actuate a d'abord implémenté Amazon SageMaker pour entraîner et déployer ses modèles. Cela a permis de réduire le temps de déploiement, mesuré à partir des données étiquetées jusqu'au modèle déployé, de 4 semaines à 4 minutes. Au cours de la phase suivante, l'entreprise a migré les modèles ML sur l'ensemble de sa suite de produits, depuis les instances basées sur GPU vers les instances Inf1 basées sur AWS Inferentia. Cette migration n'a nécessité qu'une implication minimale des développeurs, car ils n'ont pas eu besoin de réécrire le code de l'application et n'ont nécessité que des modifications de quelques lignes de code. Actuate a réalisé des économies de coûts prêtes à l'emploi allant jusqu'à 70 % grâce à AWS Inferentia. Grâce à une optimisation plus poussée, elle a réduit les coûts d'inférence de 91 %. Cela lui a permis d'utiliser ses ressources pour se concentrer sur l'amélioration de l'expérience utilisateur et la recherche fondamentale sur l'IA.

Ressources : pour en savoir plus sur le cas d'utilisation d'Actuate, vous pouvez regarder sa présentation lors de re:Invent. Pour commencer à utiliser un modèle de vision par ordinateur sur des instances Inf1, visitez la page de documentation de Neuron et explorez ce bloc-notes pour le modèle Yolov5 sur GitHub.

Finch Computing | Informations en temps réel sur les actifs informationnels à l'aide du NLP | 80 % d'économies sur les coûts d'inférence

Cas d'utilisation : Finch Computing, comprenant une combinaison des mots « find » (trouver) et « search » (rechercher), est au service des entreprises de médias et des agrégateurs de données, des organismes gouvernementaux et du renseignement américains, ainsi que des sociétés de services financiers. Ses produits utilisent des algorithmes de traitement du langage naturel (NLP) pour fournir des informations exploitables sur d'énormes volumes de données textuelles provenant de divers actifs informationnels. L'attribution de sentiments en est un exemple, qui consiste à identifier un contenu comme étant positif, négatif ou neutre et à renvoyer un score numérique indiquant le niveau et le type de sentiment.

Opportunité : après avoir ajouté la prise en charge de la langue néerlandaise à son produit, Finch Computing souhaitait poursuivre sa mise à l'échelle pour prendre en charge le français, l'allemand, l'espagnol et d'autres langues. Cela aiderait les clients existants à proposer du contenu dans ces langues et attirerait de nouveaux clients à travers l'Europe. Finch Computing avait développé et déployé ses propres modèles de traduction par deep learning sur des GPU, dont le coût était prohibitif pour la prise en charge de langues supplémentaires. L'entreprise recherchait une solution alternative qui lui permettrait de créer et d'exécuter de nouveaux modèles linguistiques rapidement et à moindre coût.

Solution et impact : en quelques mois seulement, Finch Computing a migré ses modèles de traduction à calcul intensif depuis des instances basées sur GPU vers des instances Amazon EC2 Inf1 optimisées par AWS Inferentia. Les instances Inf1 ont permis d'atteindre le même débit que les GPU et d'économiser plus de 80 % sur les coûts. Finch Computing a pris en charge les trois langues supplémentaires et a attiré de nouveaux clients. Aujourd'hui, tous leurs modèles de traduction s'exécutent sur Inf1 et l'entreprise prévoit de tester les instances Inf2 pour de nouveaux cas d'utilisation d'IA générative, tels que la synthèse de texte et la génération de titres.

Ressources : pour en savoir plus sur le cas d'utilisation de Finch Computing, vous pouvez consulter cette étude de cas. Pour commencer à utiliser un modèle de traduction, visitez la page de documentation de Neuron et consultez ce bloc-notes pour le modèle MarianMT sur GitHub.

AWS Inferentia pour une inférence ML rentable et performante

Dans ce billet de blog, nous avons examiné deux start-ups qui ont déployé de manière rentable des modèles de ML en production sur AWS Inferentia, tout en obtenant un débit élevé et une faible latence.

Vous souhaitez démarrer avec les instances Inf1 ? Vous pouvez utiliser le kit SDK AWS Neuron, qui s'intègre de manière native aux frameworks de machine learning courants tels que PyTorch et TensorFlow. Pour savoir comment procéder, consultez la page de documentation de Neuron et explorez cet exemple de référentiel de modèles sur GitHub.

Découvrez comment de plus en plus start-ups d'IA/ML créent et se mettent à l'échelle sur AWS 🚀 :

Shruti Koparkar

Shruti Koparkar

Shruti Koparkar est responsable marketing produit senior chez AWS. Elle aide les clients à explorer, évaluer et adopter l'infrastructure de calcul accéléré Amazon EC2 pour leurs besoins de machine learning.

Comment a été ce contenu ?