Qu'est-ce que les grands modèles de langage

Les grands modèles de langage (LLM) sont de très grands modèles de deep learning qui sont préformés sur de grandes quantités de données. Le transformer sous-jacent est un ensemble de réseaux neuronaux composés d'un codeur et d'un décodeur dotés de capacités d'auto-attention. L'encodeur et le décodeur extraient le sens d'une séquence de texte et comprennent les relations entre les mots et les phrases qu'elle contient.

Les transformers LLM sont capables de suivre une formation non supervisée, bien qu'une explication plus précise soit que les transformers s'auto-apprennent. C'est grâce à ce processus que les transformers apprennent à comprendre la grammaire, les langues et les connaissances de base.

Contrairement aux réseaux neuronaux récurrents (RNN) antérieurs qui traitaient les entrées de manière séquentielle, les transformers traitent des séquences entières en parallèle. Cela permet aux spécialistes des données d'utiliser des GPU pour former des LLM basés sur des transformers, réduisant ainsi considérablement le temps de formation.

L'architecture du réseau neuronal du transformer permet d'utiliser de très grands modèles, souvent avec des centaines de milliards de paramètres. Ces modèles à grande échelle peuvent ingérer d'énormes quantités de données, souvent issues d'Internet, mais également de sources telles que le Common Crawl, qui comprend plus de 50 milliards de pages Web, et Wikipédia, qui compte environ 57 millions de pages.

En savoir plus sur les réseaux neuronaux »

En savoir plus sur le deep learning »

Pourquoi les grands modèles linguistiques sont-ils importants ?

Les grands modèles de langage sont incroyablement flexibles. Un modèle peut effectuer des tâches complètement différentes, telles que répondre à des questions, résumer des documents, traduire des langues et compléter des phrases. Les LLM ont le potentiel de perturber la création de contenu et la façon dont les utilisateurs utilisent les moteurs de recherche et les assistants virtuels.

Bien qu'ils ne soient pas parfaits, les LLM démontrent une capacité remarquable à faire des prédictions sur la base d'un nombre relativement restreint d'instructions ou d'entrées. Les LLM peuvent être utilisés pour l'IA générative (intelligence artificielle) afin de produire du contenu basé sur des instructions de saisie en langage humain.

Les LLM sont grands, très grands. Ils peuvent prendre en compte des milliards de paramètres et ont de nombreuses utilisations possibles. Voici quelques exemples :

  • Le modèle GPT-3 d'Open AI compte 175 milliards de paramètres. Son cousin, ChatGPT, peut identifier des modèles à partir de données et générer des résultats naturels et lisibles. Bien que nous ne connaissions pas la taille de Claude 2, il peut nécessiter jusqu'à 100 000 jetons par invite, ce qui signifie qu'il peut fonctionner sur des centaines de pages de documentation technique ou même sur un livre entier.
  • Le modèle Jurassic-1 d'AI21 Labs comporte 178 milliards de paramètres, un vocabulaire symbolique de 250 000 mots et des capacités conversationnelles similaires.
  • Le modèle Command de Cohere possède des fonctionnalités similaires et peut fonctionner dans plus de 100 langues différentes.
  • LightOn's Paradigm propose des modèles de fondation dotés de capacités revendiquées qui dépassent celles du GPT-3. Tous ces LLM sont fournis avec des API qui permettent aux développeurs de créer des applications d'IA générative uniques.

En savoir plus sur l'IA générative »

En savoir plus sur les modèles de fondation »

Comment fonctionnent les grands modèles de langage ?

Un facteur clé du fonctionnement des LLM est la façon dont ils représentent les mots. Les anciennes formes de machine learning utilisaient un tableau numérique pour représenter chaque mot. Mais cette forme de représentation ne pouvait pas reconnaître les relations entre des mots tels que des mots ayant des significations similaires. Cette limite a été surmontée en utilisant des vecteurs multidimensionnels, communément appelés intégrations de mots, pour représenter les mots afin que les mots ayant des significations contextuelles similaires ou d'autres relations soient proches les uns des autres dans l'espace vectoriel.

À l'aide de l'intégration de mots, les transformers peuvent pré-traiter le texte sous forme de représentations numériques par le biais de l'encodeur et comprendre le contexte des mots et des phrases ayant des significations similaires ainsi que d'autres relations entre les mots, telles que des parties du discours. Il est alors possible pour les LLM d'appliquer cette connaissance du langage par le biais du décodeur pour produire une sortie unique.

Quelles sont les applications des grands modèles de langage ?

Il existe de nombreuses applications pratiques pour les LLM.

Rédaction

Outre GPT-3 et ChatGPT, Claude, Llama 2, Cohere Command et Jurassic peuvent écrire la copie originale. AI21 Wordspice suggère de modifier les phrases originales pour améliorer le style et la voix.

Réponses à la base de connaissances

Souvent appelée traitement du langage naturel à forte intensité de connaissances (KI-NLP), cette technique fait référence aux LLM qui peuvent répondre à des questions spécifiques à partir de l'aide à l'information contenue dans les archives numériques. La capacité d'AI21 Studio Playground à répondre à des questions de culture générale en est un exemple.

Classification de texte

Grâce au clustering, les LLM peuvent classer des textes ayant des significations ou des sentiments similaires. Les utilisations incluent la mesure du sentiment des clients, la détermination de la relation entre les textes et la recherche de documents.

Génération de code

Les LLM maîtrisent la génération de code à partir d'instructions en langage naturel. Les exemples incluent Amazon CodeWhisperer et le codex d'Open AI utilisé dans GitHub Copilot, qui permet de coder en Python, JavaScript, Ruby et dans plusieurs autres langages de programmation. Les autres applications de codage incluent la création de requêtes SQL, l'écriture de commandes shell et la conception de sites Web.

Génération de texte

Tout comme la génération de code, la génération de texte permet de compléter des phrases incomplètes, de rédiger la documentation du produit ou, comme Alexa Create, de rédiger une courte histoire pour enfants.

Comment sont formés les grands modèles de langage ?

Les réseaux neuronaux basés sur des transformers sont très grands. Ces réseaux contiennent plusieurs nœuds et couches. Chaque nœud d'une couche est connecté à tous les nœuds de la couche suivante, chacun ayant un poids et un écart. Les poids et les écarts, ainsi que les intégrations, sont appelés paramètres du modèle. Les grands réseaux neuronaux basés sur des transformers peuvent comporter des milliards et des milliards de paramètres. La taille du modèle est généralement déterminée par une relation empirique entre la taille du modèle, le nombre de paramètres et la taille des données de formation.

La formation est réalisée à l'aide d'un vaste corpus de données de haute qualité. Pendant la formation, le modèle ajuste de manière itérative les valeurs des paramètres jusqu'à ce qu'il prédit correctement le jeton suivant à partir de la séquence précédente de jetons d'entrée. Pour ce faire, il utilise des techniques d'auto-apprentissage qui enseignent au modèle à ajuster les paramètres afin de maximiser la probabilité que les prochains jetons apparaissent dans les exemples d'apprentissage.

Une fois formés, les LLM peuvent être facilement adaptés pour effectuer plusieurs tâches en utilisant des ensembles relativement petits de données supervisées, un processus connu sous le nom de réglage fin.

Il existe trois modèles d'apprentissage courants :

  • Apprentissage zéro : les bases LLM peuvent répondre à un large éventail de demandes sans formation explicite, souvent par le biais d'instructions, bien que la précision des réponses varie.
  • Apprentissage en quelques étapes : en fournissant quelques exemples de formation pertinents, les performances du modèle de fondation s'améliorent de manière significative dans ce domaine spécifique.
  • Réglage précis : Il s'agit d'une extension de l'apprentissage par étapes, dans la mesure où les spécialistes des données forment un modèle de fondation pour ajuster ses paramètres avec des données supplémentaires pertinentes pour l'application spécifique.

Quel est l'avenir des LLM ?

L'introduction de grands modèles linguistiques tels que ChatGPT, Claude 2 et Llama 2, capables de répondre à des questions et de générer des points de texte offrant des possibilités intéressantes à l'avenir. Lentement mais sûrement, les LLM se rapprochent de la performance humaine. Le succès immédiat de ces LLM démontre un vif intérêt pour les LLM de type robotique qui imitent et, dans certains contextes, surpassent le cerveau humain. Voici quelques réflexions sur l'avenir des LLM,

Capacités accrues

Aussi impressionnants soient-ils, le niveau technologique actuel n'est pas parfait et les LLM ne sont pas infaillibles. Toutefois, les versions les plus récentes auront une précision accrue et des capacités améliorées, car les développeurs apprennent à améliorer leurs performances tout en réduisant les écarts et en éliminant les réponses incorrectes.

Formation audiovisuelle

Alors que les développeurs forment la plupart des LLM à l'aide de texte, certains ont commencé à former des modèles en utilisant des entrées vidéo et audio. Cette forme de formation devrait accélérer le développement de modèles et ouvrir de nouvelles possibilités en termes d'utilisation des LLM pour les véhicules autonomes.

Transformation de l'environnement de travail

Les LLM sont un facteur perturbateur qui changera l'environnement de travail. Les LLM réduiront probablement les tâches monotones et répétitives de la même manière que les robots le faisaient pour les tâches de fabrication répétitives. Les possibilités incluent des tâches administratives répétitives, des chatbots pour le service client et une simple rédaction automatisée.

IA conversationnelle

Les LLM amélioreront sans aucun doute les performances des assistants virtuels automatisés tels qu'Alexa, Google Assistant et Siri. Ils seront mieux à même d'interpréter les intentions des utilisateurs et de répondre à des commandes sophistiquées.

Comment AWS peut-il aider en matière de LLM ?

AWS offre plusieurs possibilités aux grands développeurs de modèles de langage. Amazon Bedrock est le moyen le plus simple de créer et de mettre à l'échelle des applications d'IA générative à l'aide des modèles de fondation (FM). Amazon Bedrock est un service entièrement géré qui met à disposition des LLM d'Amazon et de start-ups d'IA de premier plan par le biais d'une API, ce qui vous permet de choisir parmi différents LLM pour trouver le modèle le mieux adapté à votre cas d'utilisation.

Amazon SageMaker JumpStart est un hub de machine learning doté de modèles de fondation, d'algorithmes intégrés et de solutions de machine learning prédéfinies que vous pouvez déployer en quelques clics. Avec SageMaker JumpStart, vous pouvez accéder à des modèles préformés, y compris des modèles de fondation, pour effectuer des tâches telles que le résumé d'articles et la génération d'images. Les modèles pré-entraînés peuvent être entièrement adaptés à votre cas d'utilisation grâce à vos données, et vous pouvez facilement les déployer en production à l'aide de l'interface utilisateur ou du SDK.

Commencez avec les LLM et l'IA sur AWS en créant un compte gratuit dès aujourd'hui.

Prochaines étapes sur AWS

Créer gratuitement un compte

Obtenez un accès instantané à l'offre gratuite AWS.

S'inscrire 
Commencez à créer sur la console

Démarrez la création dans la console de gestion AWS.

Se connecter