O que são grandes modelos de linguagem (LLMs)?

Criar uma conta da AWS

Veja ofertas gratuitas de machine learning

Crie, implante e execute aplicações de machine learning na nuvem gratuitamente

Confira os serviços de machine learning

Inove mais rapidamente com o conjunto mais abrangente de serviços de IA e ML

Navegue pelos treinamentos de machine learning

Comece o treinamento de machine learning com conteúdo criado por especialistas da AWS

Leia os blogs sobre machine learning

Leia as mais recentes notícias sobre produtos e práticas recomendadas de machine learning da AWS

O que são os grandes modelos de linguagem?

Os grandes modelos de linguagem (LLM) são modelos de aprendizado profundo muito grandes que são pré-treinados em grandes quantidades de dados. Um transformador é um conjunto de redes neurais em que cada uma consiste em um codificador e um decodificador com recursos de autoatenção. O codificador e o decodificador extraem significados de uma sequência de texto e compreendem as relações entre palavras e frases nela contidas.

Os Transformer LLMs são capazes de treinamento não supervisionado, embora uma explicação mais precisa seja que os transformadores realizam autoaprendizagem. É por meio desse processo que os transformadores aprendem a entender a gramática, os idiomas e o conhecimento básicos.

Ao contrário das redes neurais recorrentes (RNN) anteriores, que processavam entradas sequencialmente, os transformadores processam sequências inteiras em paralelo. Isso permite que os cientistas de dados usem GPUs para treinar LLMs baseados em transformadores, reduzindo significativamente o tempo de treinamento.

A arquitetura de rede neural do Transformer permite o uso de modelos muito grandes, geralmente com centenas de bilhões de parâmetros. Esses modelos de grande escala podem ingerir grandes quantidades de dados, geralmente da Internet, mas também de fontes como o Common Crawl, que compreende mais de 50 bilhões de páginas da Web, e a Wikipedia, que tem aproximadamente 57 milhões de páginas.

Por que grandes modelos de linguagem são importantes?

Grandes modelos de linguagem são incrivelmente flexíveis. Um modelo pode realizar tarefas completamente diferentes, como responder perguntas, resumir documentos, traduzir idiomas e completar frases. Os LLMs têm o potencial de interromper a criação de conteúdo e a forma como as pessoas usam mecanismos de pesquisa e assistentes virtuais.

Embora não sejam perfeitos, os LLMs estão demonstrando uma capacidade notável de fazer previsões com base em um número relativamente pequeno de solicitações ou entradas. Os LLMs podem ser usados para IA generativa (inteligência artificial) para produzir conteúdo com base em solicitações de entrada em linguagem humana.

Os LLMs são grandes, muito grandes. Eles podem considerar bilhões de parâmetros e têm muitos usos possíveis. Veja alguns exemplos:

O modelo GPT-3 da Open AI tem 175 bilhões de parâmetros. Seu primo, o ChatGPT, pode identificar padrões a partir de dados e gerar resultados naturais e legíveis. Embora não saibamos o tamanho do Claude 2, ele pode inserir até 100 mil tokens em cada prompt, o que significa que ele pode funcionar em centenas de páginas de documentação técnica ou até mesmo em um livro inteiro.
O modelo Jurassic-1 da AI21 Labs tem 178 bilhões de parâmetros e um vocabulário simbólico de partes de 250.000 palavras e recursos de conversação semelhantes.
O modelo Command da Cohere tem recursos semelhantes e pode funcionar em mais de 100 idiomas diferentes.
O Paradigm da LightOn oferece modelos de base com recursos declarados que excedem os do GPT-3. Todos esses LLMs vêm com APIs que permitem aos desenvolvedores criar aplicações exclusivos de IA generativa.

Como funcionam os grandes modelos de linguagem?

Um fator-chave na forma como os LLMs funcionam é a forma como eles representam as palavras. As formas anteriores de machine learning usavam uma tabela numérica para representar cada palavra. Porém, essa forma de representação não conseguia reconhecer relações entre palavras, como palavras com significados semelhantes. Essa limitação foi superada com o uso de vetores multidimensionais, comumente chamados de incorporações de palavras, para representar palavras de forma que palavras com significados contextuais semelhantes ou outras relações estejam próximas umas das outras no espaço vetorial.

Usando a incorporação de palavras, os transformadores podem pré-processar textos como representações numéricas por meio do codificador e entender o contexto de palavras e frases com significados semelhantes, bem como outras relações entre palavras, como partes do discurso. Assim, é possível que os LLMs apliquem esse conhecimento da linguagem por meio do decodificador para produzir um resultado exclusivo.

Quais são as aplicações de grandes modelos de linguagem?

Existem muitas aplicações práticas para LLMs.

Copywriting

Além do GPT-3 e do ChatGPT, os modelos Claude, Llama 2, Cohere Command e Jurassic podem escrever uma cópia original. O AI21 Wordspice sugere mudanças nas frases originais para melhorar o estilo e a voz.

Resposta da base de conhecimento

Frequentemente chamada de processamento de linguagem natural intensivo em conhecimento (KI-NLP), a técnica se refere a LLMs que podem responder a perguntas específicas a partir da ajuda de informações em arquivos digitais. Um exemplo é a capacidade do AI21 Studio Playground de responder a perguntas de conhecimento geral.

Classificação de textos

Usando o clustering, os LLMs podem classificar textos com significados ou sentimentos semelhantes. Os usos incluem medir o sentimento do cliente, determinar a relação entre textos e pesquisar documentos.

Geração de código

Os LLM são proficientes na geração de código a partir de solicitações de linguagem natural. Os exemplos incluem o Amazon CodeWhisperer e o codex da Open AI usado no Copilot do GitHub, que pode codificar em Python, JavaScript, Ruby e várias outras linguagens de programação. Outras aplicações de codificação incluem a criação de consultas SQL, a escrita de comandos shell e o design do site.

Geração de texto

Semelhante à geração de código, a geração de texto pode completar frases incompletas, escrever documentação do produto ou, como o Alexa Create, escrever uma pequena história infantil.

Como os grandes modelos de linguagem são treinados?

As redes neurais baseadas em transformadores são muito grandes. Essas redes contêm vários nós e camadas. Cada nó em uma camada tem conexões com todos os nós na camada subsequente, cada um com um peso e um viés. Os pesos e vieses, juntamente com as incorporações, são conhecidos como parâmetros do modelo. Grandes redes neurais baseadas em transformadores podem ter bilhões de parâmetros. O tamanho do modelo geralmente é determinado por uma relação empírica entre o tamanho do modelo, o número de parâmetros e o tamanho dos dados de treinamento.

O treinamento é realizado usando um grande corpus de dados de alta qualidade. Durante o treinamento, o modelo ajusta iterativamente os valores dos parâmetros até que o modelo preveja corretamente o próximo token e a sequência anterior de tokens de entrada. Isso é feito por meio de técnicas de autoaprendizagem que ensinam o modelo a ajustar parâmetros para maximizar a probabilidade dos próximos tokens nos exemplos de treinamento.

Uma vez treinados, os LLMs podem ser facilmente adaptados para realizar várias tarefas usando conjuntos relativamente pequenos de dados supervisionados, um processo conhecido como ajuste fino.

Existem três modelos comuns de aprendizado:

Zero-shot learning: os LLMs básicos podem responder a uma grande variedade de solicitações sem treinamento explícito, geralmente por meio de prompts, embora a precisão das respostas varie.
Few-shot learning: ao fornecer alguns exemplos de treinamento relevantes, o desempenho do modelo de base melhora significativamente na área específica.
Ajuste fino: essa é uma extensão do few-shot learning, pois cientistas de dados treinam um modelo de base para ajustar seus parâmetros com dados adicionais relevantes para a aplicação específica.

Qual é o futuro dos LLMs?

A introdução de grandes modelos de linguagem, como ChatGPT, Claude 2 e Llama 2, que podem responder perguntas e gerar pontos de texto para possibilidades interessantes no futuro. Lentamente, mas com certeza, os LLMs estão se aproximando de um desempenho semelhante ao humano. O sucesso imediato desses LLMs demonstra um grande interesse em LLMs do tipo robótico que emulam e, em alguns contextos, superam o cérebro humano. Aqui estão algumas reflexões sobre o futuro dos LLMs,

Capacidades aumentadas

Por mais impressionantes que sejam, o nível atual de tecnologia não é perfeito e os LLMs não são infalíveis. No entanto, as versões mais recentes terão maior precisão e recursos aprimorados à medida que os desenvolvedores aprenderem a melhorar seu desempenho, reduzindo preconceitos e eliminando respostas incorretas.

Treinamento audiovisual

Enquanto os desenvolvedores treinam a maioria dos LLMs usando texto, alguns começaram a treinar modelos usando entrada de vídeo e áudio. Essa forma de treinamento deve levar a um desenvolvimento mais rápido de modelos e abrir novas possibilidades em termos de uso de LLMs para veículos autônomos.

Transformação do local de trabalho

Os LLMs são um fator disruptivo que mudará o local de trabalho. Os LLMs provavelmente reduzirão tarefas monótonas e repetitivas da mesma forma que os robôs fizeram com tarefas repetitivas de fabricação. As possibilidades incluem tarefas administrativas repetitivas, chatbots de atendimento ao cliente e redação automatizada simples.

IA conversacional

Os LLMs, sem dúvida, melhorarão o desempenho de assistentes virtuais automatizados como Alexa, Google Assistant e Siri. Eles serão mais capazes de interpretar a intenção do usuário e responder a comandos sofisticados.

Como a AWS pode ajudar com LLMs?

A AWS oferece várias possibilidades para grandes desenvolvedores de modelos de linguagem. O Amazon Bedrock é a maneira mais fácil de criar e escalar aplicações de IA generativa com LLMs. O Amazon Bedrock é um serviço totalmente gerenciado que disponibiliza LLMs da Amazon e das principais startups de IA por meio de uma API. Assim, é possível escolher entre vários LLMs para encontrar o modelo mais adequado para seu caso de uso.

O Amazon SageMaker JumpStart é um hub de machine learning com modelos de base, algoritmos integrados e soluções de ML pré-criadas que podem ser implementado com apenas alguns cliques. Com o SageMaker JumpStart, é possível acessar modelos pré-treinados, incluindo modelos de base, para realizar tarefas como resumo de artigos e geração de imagens. Os modelos pré-treinados são totalmente personalizáveis para seu caso de uso com seus dados, e você pode implantá-los facilmente no ambiente de produção com a interface do usuário ou o SDK.

Comece a usar LLMs e IA na AWS criando uma conta gratuita hoje mesmo.

Próximas etapas na AWS

Confira recursos adicionais relacionados a produtos