Passer au contenu principal

Que sont les modèles d’IA générative ?

Les modèles d’IA générative présentent des forces et des limites. En fonction de la complexité, des performances, de la confidentialité et des exigences de coût de votre cas d’utilisation, certains modèles peuvent constituer un meilleur choix que d’autres. Ce guide explore les facteurs à prendre en compte et les meilleures pratiques pour sélectionner un modèle d’IA générative.

Les modèles d’intelligence artificielle générative peuvent créer du texte, des images, du contenu audio et vidéo originaux et significatifs sur la base des entrées en langage naturel des utilisateurs. Les organisations s’en servent pour tout, de l’alimentation des chatbots à la création de modèles de conception et à la résolution de problèmes complexes en biologie. Il existe des milliers de modèles exclusifs et open source d’IA, et de nouveaux modèles et des versions améliorées sont diffusés chaque jour.

Malgré leur flexibilité et leur polyvalence, les modèles d’IA générative ne constituent pas une solution universelle pour tous les cas d’utilisation. Les équipes d’IA doivent sélectionner et évaluer avec soin le meilleur modèle qui optimise les coûts et les performances. L’évaluation des modèles est complexe. Des benchmarks populaires comme Helm et le classement Hugging Face ne fournissent qu’une vue d’ensemble des performances d’un modèle d’IA particulier dans des tâches courantes de langage naturel. Les équipes d’IA doivent adopter différentes stratégies pour évaluer la sortie du modèle pour une saisie de données personnalisée, puis sélectionner celle qui correspond le mieux à leurs besoins.

Comment les modèles d’IA générative sont-ils évalués pour différents cas d’utilisation ?

Voici quelques facteurs à prendre en compte lors du choix d’un modèle d’IA adapté à votre cas d’utilisation.

Modalité

La modalité fait référence au type de données traité par le modèle : vectorisations, images (vision) ou texte. Certains modèles sont unimodaux et peuvent traiter efficacement un seul type de données. D’autres sont multimodaux et peuvent intégrer plusieurs types de données, mais peuvent être mieux adaptés à un type plutôt qu’à d’autres. Par exemple, des modèles comme Claude, Llama 3.1 ou Titan Text G1 conviennent aux tâches basées sur du texte, tandis que Stable Diffusion XL et Titan Image Generator v2 conviennent mieux aux tâches de vision. De même, le modèle de vectorisations multimodales Titan G1 est privilégié pour traduire toute image ou tout texte d’entrée en une vectorisation qui contient la signification sémantique à la fois de l’image et du texte dans le même espace sémantique.

Taille du modèle

La taille du modèle est le nombre de paramètres ou de variables de configuration internes au modèle. Elle peut varier de plusieurs millions à plus de 100 milliards, la plupart des modèles ayant entre 10 et 100 milliards de paramètres. La taille du modèle définit directement la capacité du modèle à apprendre à partir des données. Les modèles comportant un plus grand nombre de paramètres sont plus performants, car ils peuvent comprendre en profondeur les nouvelles données. Cependant, leur personnalisation et leur utilisation sont plus coûteuses.

Latence d’inférence

La latence d’inférence est généralement un problème dans les scénarios en temps réel où les utilisateurs de votre application d’IA peuvent s’attendre à des réponses immédiates. Il s’agit du temps total nécessaire à un modèle pour traiter l’entrée et renvoyer la sortie en fonction de la longueur de l’entrée. Les modèles d’IA générative dotés d’architectures complexes peuvent avoir des vitesses d’inférence plus lentes que les modèles plus petits. Cependant, la latence d’inférence varie en fonction à la fois des invites que vous attendez et des performances du modèle. Un nombre accru de jetons (comme des lettres, des signes de ponctuation, etc.) saisis par l’utilisateur final peut également augmenter la latence.

Fenêtre contextuelle

La fenêtre contextuelle du modèle d’IA générative correspond au nombre de jetons qu’elle peut « mémoriser » à des fins de contexte à tout moment. Un modèle avec une fenêtre contextuelle plus grande conserve une plus grande partie de la conversation précédente et fournit des réponses plus pertinentes. Par conséquent, des fenêtres contextuelles plus grandes sont préférées pour les tâches complexes comme la synthèse de longs documents ou la gestion de conversations en plusieurs étapes.

Considérations sur la tarification

Les coûts de fonctionnement des modèles incluent les coûts d’utilisation des modèles exclusifs ainsi que les coûts de calcul et de mémoire. Les dépenses opérationnelles peuvent varier d’un modèle à l’autre en fonction des charges de travail. L’évaluation des coûts par rapport aux avantages vous permet d’obtenir le meilleur rapport qualité-prix pour votre investissement. Par exemple, l’exécution de Claude 2 ou de Command R+ entraîne des frais d’utilisation puisqu’il s’agit de modèles exclusifs, tandis que le déploiement de Llama 2 7B entraîne des coûts de calcul inférieurs. Toutefois, si les modèles exclusifs offrent une précision ou une efficacité nettement supérieure à votre tâche, leur coût supplémentaire peut être justifié.

Qualité de la réponse

Vous pouvez évaluer la qualité de réponse d’un modèle d’IA à l’aide de plusieurs indicateurs, notamment

  • la précision : fréquence à laquelle les réponses du modèle sont correctes ;
  • la pertinence : dans quelle mesure les réponses sont appropriées à l’entrée donnée ; 
  • la robustesse : mesure dans laquelle le modèle gère les entrées intentionnellement trompeuses destinées à le confondre ;
  • la toxicité : pourcentage de contenu inapproprié ou de biais dans les résultats du modèle.

Les mesures sont généralement évaluées par rapport à une base de référence préconfigurée. Il est recommandé d’évaluer la qualité de réponse de quelques modèles différents sur le même jeu de données d’entrée et de sélectionner celui qui fournit la meilleure qualité de réponse.

En quoi consiste le processus de sélection des modèles d’IA générative ?

Pour sélectionner un modèle d’IA générative, vous devez au préalable déterminer les exigences spécifiques de votre application d’IA. Assurez-vous de bien comprendre les attentes des utilisateurs, les exigences en matière de traitement des données, les considérations relatives au déploiement et les autres subtilités de votre entreprise et de votre secteur d’activité. Ensuite, vous pouvez éliminer différents modèles d’IA en effectuant des tests de qualité jusqu’à ce que vous trouviez le modèle le mieux adapté à vos besoins.

Étape 1 – Sélection initiale des modèles présélectionnés

Commencez le processus en présélectionnant une vingtaine de modèles parmi les milliers qui répondent à vos besoins. Choisir entre un modèle open source et un modèle exclusif représente la moitié du travail effectué. Une fois que vous avez déterminé cela, vous pouvez poursuivre votre sélection en évaluant les modèles en fonction de critères clés comme la modalité, la taille du modèle, la fenêtre contextuelle, etc., décrits dans la section précédente.

Modèles d’IA générative open source ou exclusifs

Les modèles open source offrent de la flexibilité et permettent aux équipes d’optimiser ou de réentraîner complètement le modèle sur la base de données exclusives. Cela peut être particulièrement utile dans les secteurs spécialisés où les modèles à usage général ne donnent pas de bons résultats dans des cas d’utilisation de niche. Par exemple, une grande compagnie d’assurance peut préférer former un modèle open source sur des données personnalisées au lieu d’utiliser des modèles propriétaires destinés au secteur financier qui ne répondent pas tout à fait à ses exigences spécifiques.

Cependant, les modèles open source nécessitent des considérations supplémentaires. Ils peuvent introduire des risques juridiques et de sécurité, obligeant les organisations à appliquer leurs propres mesures de conformité et à examiner minutieusement les conditions de licence. Les modèles exclusifs, en revanche, offrent généralement des fonctionnalités de sécurité intégrées, une indemnisation pour les données et les résultats de formation, ainsi que des garanties de conformité, réduisant ainsi les frais opérationnels pour les entreprises qui accordent la priorité à l’atténuation des risques.

Étape 2 – Inspection de la sortie et ajustement de la liste

Au cours de cette étape, votre objectif est d’identifier les 3 meilleurs modèles d’IA générative les mieux adaptés à votre cas d’utilisation. Tout d’abord, identifiez un sous-ensemble d’invites de test qui correspondent à votre cas d’utilisation. Ensuite, inspectez visuellement la sortie de chaque modèle pour les invites spécifiques. Recherchez les sorties avec plus de détails qui correspondent le mieux à votre entrée. Sélectionnez les 3 premières qui génèrent les résultats les plus pertinents, les plus détaillés et les plus précis.

Amazon SageMaker Clarify est la sortie la mieux adaptée à cette étape. Évaluez automatiquement les FM pour votre cas d’utilisation d’IA générative à l’aide de mesures comme la précision, la robustesse et la toxicité qui soutiennent vos initiatives de création d’IA responsable.

Étape 3 – Utilisation d’analyses comparatives basées sur des cas concrets

Vous pouvez désormais évaluer plus en détail les modèles d’IA les mieux sélectionnés en fonction d’invites et de sorties prédéfinies pour votre jeu de données de test spécifique. Le facteur clé ici est de disposer d’un jeu de données de test complet qui couvre tous les aspects de votre cas d’utilisation avec plusieurs variantes. Vous devez également disposer d’une sortie idéale correspondante pour évaluer statistiquement la sortie du modèle la plus proche de votre sortie idéale.

Amazon Bedrock fournit des outils d’évaluation permettant d’évaluer, de comparer et de sélectionner le modèle d’IA correspondant à votre cas d’utilisation grâce à l’Évaluation des modèles.

Il existe trois approches d’évaluation que vous pouvez adopter.

Programmatique

Évaluez les résultats du modèle à l’aide d’algorithmes et de métriques traditionnels en langage naturel comme BERT Score, F1 et d’autres techniques de correspondance exacte. Amazon Bedrock vous permet d’y parvenir à l’aide de jeux de données d’invites intégrés, mais vous pouvez également utiliser vos propres données.

L’humain dans la boucle

Demandez à des évaluateurs humains (membres de votre équipe, un échantillon d’utilisateurs finaux ou des évaluateurs professionnels de l’IA) d’évaluer les résultats des trois modèles sur la base de mesures de modèle prédéterminées. Ils peuvent comparer manuellement les sorties avec les sorties idéales ou, si le cas d’utilisation est trop large, ils peuvent évaluer et noter les sorties en fonction de leur meilleur jugement.
Avec Amazon Bedrock, vous pouvez évaluer les sorties des modèles avec votre personnel ou demander à AWS de gérer vos évaluations sur les réponses à des jeux de données d’invites personnalisés à l’aide de métriques comme la pertinence, le style et l’alignement avec la voix de la marque ou des métriques intégrées.

Un autre modèle d’IA en tant qu’évaluateur

Dans cette approche, un autre modèle d’IA évalue les résultats des trois modèles de manière impartiale. Ce modèle fonctionne mieux pour les cas d’utilisation où les sorties sont bien définies et où leur similitude avec la sortie idéale est statistiquement mesurable. Amazon Bedrock vous permet d’évaluer les résultats des modèles à l’aide d’un autre modèle d’IA en mode LLM-juge. Vous pouvez utiliser vos jeux de données d’invites personnalisés avec des indicateurs comme l’exactitude, l’exhaustivité et la nocivité, ainsi que des métriques d’IA responsable telles que le refus de répondre et la nocivité.

Étape 4 – Sélection finale

Utilisez les données d’évaluation ainsi que l’analyse des coûts et des performances pour choisir le modèle final. Avec Amazon Bedrock, vous pouvez utiliser la fonctionnalité de comparaison dans les évaluations pour voir les résultats des modifications que vous avez apportées à vos invites et aux modèles en cours d’évaluation. Consultez toutes vos analytiques en un seul endroit et sélectionnez le modèle qui offre le meilleur équilibre entre performances, coûts et risques associés, tout en utilisant efficacement les ressources.

Le choix du modèle d’IA générative adapté à votre cas d’utilisation nécessite une approche structurée qui équilibre les capacités techniques, les besoins commerciaux et les contraintes opérationnelles. L’essentiel est d’aligner votre décision sur les exigences spécifiques de votre cas d’utilisation. Évaluez soigneusement les modèles en fonction de facteurs, à l’instar de la modalité, la taille, les capacités de traitement des données et les considérations de déploiement. En fin de compte, le bon modèle améliore l’efficacité et l’innovation, et fournit une base évolutive pour les futures avancées pilotées par l’IA dans votre organisation.