Choisir le bon modèle de fondation pour votre startup

Comment a été ce contenu ?

En matière d'intégration de l'intelligence artificielle générative (IA) aux produits, le choix d'un modèle de fondation (FM) est l'une des premières étapes les plus cruciales pour les startups. Un FM est un grand modèle de machine learning (ML) qui est préentraîné sur une importante quantité de données à grande échelle. Il en résulte un modèle qui peut être adapté à un large éventail de tâches en aval.

Le choix du modèle a des implications stratégiques sur la mise en place d'une startup. Votre choix de modèle peut tout affecter, de l'expérience utilisateur à la mise sur le marché, en passant par le recrutement et la rentabilité. Les modèles varient en fonction d'un certain nombre de facteurs, notamment les éléments suivants :

  • Niveau de personnalisation : la possibilité de modifier le résultat d'un modèle à l'aide de nouvelles données. Cela va des approches basées sur des instructions au réentraînement complet du modèle.
  • Taille du modèle : la quantité d'informations apprises par le modèle, telle que définie par le nombre de paramètres.
  • Options d'inférence : du déploiement autogéré aux appels d'API.
  • Contrats de licences : certains accords peuvent restreindre ou interdire l'utilisation commerciale.
  • Fenêtres contextuelles : la quantité d'informations que peut contenir une seule instruction.
  • Latence : le temps nécessaire à un modèle pour générer une sortie.

Les sections suivantes portent sur les facteurs à prendre en compte lors de la sélection d'un FM adapté aux besoins de votre startup.

Bases de référence propres aux applications

Lors de l'évaluation des performances de différents FM pour votre cas d'utilisation, une étape cruciale du processus consiste à établir une stratégie de référence. Elle vous permet d'établir le niveau de correspondance du contenu à vos attentes.

« Il existe un grand nombre de modèles, allant des lecteurs à code source fermé... aux modèles open source comme Dolly, Alpaca et Vicuna. Ces modèles ont chacun leurs avantages et inconvénients. Il est donc essentiel de choisir le modèle le mieux adapté à la tâche. Nous avons aidé des entreprises à mettre en œuvre une grande variété de cas d'utilisation de l'IA et nous avons pu constater de première main que chaque cas d'utilisation comporte des exigences différentes en ce qui concerne les coûts, la qualité, la latence, la fenêtre contextuelle et la confidentialité », explique Noa Flaherty, Chief Technology Officer (CTO) et cofondateur de Vellum.

Les bases de référence généralisées (telles que l'évaluation holistique des modèles de langage) de Stanford constituent un excellent point de départ pour certaines startups, car elle permet de classer par ordre de priorité les modèles de fondation avec lesquels démarrer des expérimentations. Cependant, les bases de référence généralisées peuvent être insuffisantes pour les startups spécialisées dans la création au profit d'une clientèle bien déterminée.

Par exemple, si votre modèle doit résumer les visites médicales ou les avis des clients, il doit être évalué en fonction de sa capacité à réaliser ces tâches spécifiques. « Pour effectuer une analyse comparative personnalisée, vous avez besoin d'un flux de travail permettant une expérimentation rapide, généralement par essai-erreur dans une grande variété de scénarios. Les clients surajustent couramment leur modèle ou leurs instructions pour un scénario de test particulier, pensant avoir créé le bon modèle. Or, celui-ci se révèle inefficace une fois en production », déclare Noa. L'analyse comparative personnalisée peut inclure des techniques telles que le calcul des scores BLEU et ROUGE. Il s'agit de deux indicateurs qui aident les startups à quantifier le nombre de corrections nécessaires à appliquer au texte généré par l'IA avant l'approbation de son utilisation dans des applications faisant appel à l'intervention humaine.

Les indicateurs de qualité et l'évaluation des modèles sont essentiels. C'est la principale raison pour laquelle Noa a fondé Vellum. Cette startup soutenue par Y Combinator concentre son offre de produits dans le domaine de l'expérimentation. « Plus vous pouvez comparer les modèles selon une variété de cas d'utilisation similaires à ceux auxquels vous aurez affaire en production, meilleurs seront les résultats une fois que vous y serez », déclare Noa.

Les plus petits modèles sur mesure ont le vent en poupe

Une fois que vos critères de qualité ont été établis, vous pouvez commencer à mener des expérimentations avec de plus petits modèles conçus pour des tâches spécifiques, comme suivre des instructions ou effectuer des résumés. Ces modèles sur mesure peuvent réduire considérablement le nombre de paramètres d'un modèle tout en préservant sa capacité à effectuer des tâches propres au domaine. Par exemple, la startup GoCharlie s'est associée à SRI pour développer un modèle multimodal spécifique au marketing avec les paramètres 1B.

« Les modèles universels ne satisferont jamais vraiment aux besoins des utilisateurs finaux, alors que les modèles conçus spécifiquement pour y répondre seront les plus efficaces. Nous pensons que les modèles sur mesure destinés à des secteurs spécifiques, tels que le marketing, sont essentiels pour comprendre les véritables exigences des utilisateurs finaux », explique Kostas Hatalis, Chief Executive Officer (CEO) et cofondateur de GoCharlie.

La communauté de recherche open source est à l'origine de nombreuses innovations sur les plus petits modèles sur mesure, comme Alpaca de l'Université de Standford ou Falcon 40B du Technology Innovation Institute. Le tableau de classement des LLM ouverts de Hugging Face permet de classer ces modèles open source selon une série de critères généraux. Ces modèles plus petits fournissent des indicateurs de référence comparables pour les tâches relatives à l'exécution d'instructions, avec une fraction du nombre de paramètres et des ressources d'entraînement.

Alors que les startups personnalisent leurs modèles pour des tâches propres à un domaine, les FM open source permettent de personnaliser et d'affiner davantage leurs systèmes avec leurs propres jeux de données. Par exemple, les solutions PERT (Parameter-Efficient Fine-Tuning) de Hugging Face ont montré comment la combinaison du réglage d'un petit nombre de paramètres du modèle avec le gel de la plupart des autres paramètres des LLM préentraînés peut réduire considérablement les coûts de calcul et de stockage. De telles techniques d'affinage basées sur l'adaptation au domaine ne sont généralement pas possibles avec les FM exclusives basées sur des API, ce qui peut limiter la capacité d'une startup à créer un produit différencié.

La concentration de l'utilisation sur des tâches spécifiques rend également les connaissances préentraînées du FM dans des domaines tels que les mathématiques, l'histoire ou la médecine, généralement inutiles pour la startup. Certaines startups choisissent de limiter intentionnellement la portée de la FM à un domaine spécifique en mettant en place des limites, comme l'outil NeMo Guardrails open source de Nvidia, dans leurs modèles. Ces limites aident à empêcher les hallucinations de modèles : résultats non pertinents, incorrects ou inattendus.

La flexibilité des inférences est importante

Un autre facteur clé dans le choix d'un modèle est son mode de service. Les modèles open source, ainsi que les modèles exclusifs autogérés, offrent la flexibilité nécessaire pour personnaliser le mode et l'emplacement d'hébergement des modèles. Le contrôle direct de l'infrastructure d'un modèle peut aider les startups à garantir la fiabilité de leurs applications grâce à de bonnes pratiques telles que la mise à l'échelle automatique et la redondance. La gestion de l'infrastructure d'hébergement permet également de faire en sorte que toutes les données générées et consommées par un modèle soient contenues dans des environnements cloud dédiés susceptibles d'être conformes aux exigences de sécurité définies par la startup.

Les plus petits modèles sur mesure que nous avons mentionnés précédemment nécessitent également du matériel moins gourmand en calcul, ce qui permet aux startups d'optimiser l'économie unitaire et le rapport prix-performances. Dans le cadre d'une récente expérience, AWS a mesuré jusqu'à 50 % d'économies sur les coûts d'inférence en utilisant des instances AWS Graviton3 basées sur ARM pour des modèles open source par rapport aux instances Amazon Elastic Compute Cloud (EC2) similaires .

Ces processeurs AWS Graviton3 consomment également jusqu'à 60 % d'énergie en moins pour les mêmes performances que les instances Amazon EC2 comparables, ce qui est un atout pour les startups soucieuses de l'impact environnemental lié au choix d'un matériel d'inférence énergivore. Une étude du Forum économique mondial a détaillé la consommation d'énergie des centres de données. Autrefois considérées comme une externalité, les implications environnementales sont désormais un sujet incontournable, et AWS aide les startups à quantifier leur impact environnemental grâce à des solutions telles que le rapport sur l'empreinte carbone, qui permet aux entreprises de comparer l'efficacité énergétique de différentes sélections de matériel.

Conclusion

Aaron Melgar

Aaron Melgar

Aaron renforce l'écosystème des startups IA/ML et du capital-risque chez AWS, en se concentrant sur les premières étapes de la croissance des entreprises. Il est un ancien fondateur, chef de produit de série A, directeur du Machine Learning et consultant en stratégie. Américain de première génération, il aime le tennis, le golf, les voyages et échanger des recommandations de livres audio sur l'économie, la psychologie ou les affaires.

Comment a été ce contenu ?