O que é um modelo de base?
Treinados em conjuntos de dados massivos, os modelos de base (FMs) são grandes redes neurais de aprendizado profundo que mudaram a forma como os cientistas de dados abordam o machine learning (ML). Em vez de desenvolver inteligência artificial (IA) do zero, os cientistas de dados usam um modelo de base como ponto de partida para desenvolver modelos de ML que potencializam novas aplicações de forma mais rápida e econômica. O termo modelo de base foi cunhado por pesquisadores para descrever modelos de ML treinados em um amplo espectro de dados generalizados e não rotulados e capazes de realizar uma ampla variedade de tarefas gerais, como entender a linguagem, gerar texto e imagens e conversar em linguagem natural.
O que há de único nos modelos de fundação?
Um atributo exclusivo dos modelos de fundação é sua adaptabilidade. Esses modelos podem realizar uma ampla variedade de tarefas diferentes com um alto grau de precisão com base nas solicitações de entrada. Algumas tarefas incluem processamento de linguagem natural (PLN), resposta a perguntas e classificação de imagens. O tamanho e a natureza de uso geral dos FMs os diferenciam dos modelos tradicionais de ML, que normalmente realizam tarefas específicas, como analisar texto em busca de sentimentos, classificar imagens e prever tendências.
Você pode usar modelos de base para desenvolver aplicações downstream mais especializadas. Esses modelos são o culminar de mais de uma década de trabalho que os viu aumentar em tamanho e complexidade.
Por exemplo, o BERT, um dos primeiros modelos de fundação bidirecional, foi lançado em 2018. Ele foi treinado usando 340 milhões de parâmetros e um conjunto de dados de treinamento de 16 GB. Em 2023, apenas cinco anos depois, a OpenAI treinou o GPT-4 usando 170 trilhões de parâmetros e um conjunto de dados de treinamento de 45 GB. De acordo com a OpenAI, o poder computacional necessário para a modelagem de bases dobrou a cada 3,4 meses desde 2012. Os FMs atuais, como os grandes modelos de linguagem (LLMs) Claude 2 e Llama 2 e o modelo de texto em imagem Stable Diffusion da Stability AI, podem realizar uma variedade de tarefas prontas para uso, abrangendo vários domínios, como escrever postagens em blogs, gerar imagens, resolver problemas matemáticos, dialogar e responder perguntas com base em um documento.
Por que a modelagem básica é importante?
Os modelos de base estão prontos para mudar significativamente o ciclo de vida do machine learning. Embora atualmente custe milhões de dólares desenvolver um modelo de base do zero, eles são úteis a longo prazo. É mais rápido e barato para os cientistas de dados usar FMs pré-treinados para desenvolver novas aplicações de ML, em vez de treinar modelos de ML exclusivos do zero.
Um uso potencial é automatizar tarefas e processos, especialmente aqueles que exigem recursos de raciocínio. Aqui estão algumas aplicações para modelos de fundação:
- Suporte ao cliente
- Tradução de idiomas
- Geração de conteúdo
- Copywriting
- Classificação de imagens
- Criação e edição de imagens em alta resolução
- Extração de documentos
- Robótica
- Saúde
- Veículos autônomos
Como funcionam os modelos de base?
Os modelos de base são uma forma de inteligência artificial generativa (IA generativa). Eles geram resultados usando uma ou mais entradas (prompts) na forma de instruções em linguagem humana. Os modelos são baseados em redes neurais complexas, incluindo redes adversárias generativas (GANs), transformadores e codificadores variacionais.
Embora cada tipo de rede funcione de forma diferente, os princípios por trás de como elas funcionam são semelhantes. Em geral, um FM usa padrões e relacionamentos aprendidos para prever o próximo item em uma sequência. Por exemplo, com a geração de imagens, o modelo analisa a imagem e cria uma versão mais nítida e mais claramente definida dela. Da mesma forma, com textos, o modelo prevê a próxima palavra em uma sequência de texto com base nas palavras anteriores e no contexto. Em seguida, seleciona a próxima palavra usando técnicas de distribuição de probabilidade.
Os modelos de base usam aprendizado autossupervisionado para criar rótulos usando dados de entrada. Isso significa que ninguém instruiu ou treinou o modelo com conjuntos de dados de treinamento rotulados. Esse atributo diferencia os LLMs das arquiteturas de ML anteriores, que usam aprendizado supervisionado ou não supervisionado.
O que os modelos de fundação podem fazer?
Os modelos de base, embora sejam pré-treinados, podem continuar aprendendo com as entradas ou solicitações de dados durante a inferência. Isso significa que é possível obter resultados abrangentes por meio de instruções cuidadosamente selecionadas. As tarefas que os FMs podem realizar incluem processamento de linguagem, compreensão visual, geração de código e engajamento centrado no ser humano.
Linguagem natural
Esses modelos têm recursos notáveis para responder perguntas de linguagem natural e até mesmo a capacidade de escrever pequenos roteiros ou artigos em resposta a solicitações. Eles também podem traduzir idiomas usando tecnologias de PLN.
Compreensão visual
Os FMs se destacam em visão computacional, especialmente no que diz respeito à identificação de imagens e objetos físicos. Esses recursos podem ser usados em aplicações como direção autônoma e robótica. Outro recurso é a geração de imagens a partir do texto de entrada, bem como a edição de fotos e vídeos.
Geração de código
Os modelos de base podem gerar código de computador em várias linguagens de programação com base em entradas de linguagem natural. Também é possível usar FMs para avaliar e depurar código.
Engajamento centrado no ser humano
Os modelos de IA generativa usam informações humanas para aprender e melhorar as previsões. Uma aplicação importante e às vezes negligenciada é a capacidade desses modelos de apoiar a tomada de decisões humanas. Os usos potenciais incluem diagnósticos clínicos, sistemas de apoio à decisão e análises.
Outro recurso é o desenvolvimento de novas aplicações de IA por meio do ajuste fino dos modelos de base existentes.
Fala em texto
Como os FMs entendem a linguagem, eles podem ser usados para tarefas de conversão de fala em texto, como transcrição e legendas de vídeo em vários idiomas.
Quais são exemplos de modelos de fundação?
O número e o tamanho dos modelos de fundação no mercado cresceram em um ritmo acelerado. Agora existem dezenas de modelos disponíveis. Aqui está uma lista de modelos de fundação proeminentes lançados desde 2018.
BERT
Lançado em 2018, o Bidirectional Encoder Representations from Transformers (BERT) foi um dos primeiros modelos de base. O BERT é um modelo bidirecional que analisa o contexto de uma sequência completa e faz uma previsão. Ele foi treinado em um corpus de texto simples e na Wikipedia usando 3,3 bilhões de tokens (palavras) e 340 milhões de parâmetros. O BERT pode responder perguntas, prever frases e traduzir textos.
GPT
O modelo Generative Pre-trained Transformer (GPT) foi desenvolvido pela OpenAI em 2018. Ele usa um decodificador de transformador de 12 camadas com um mecanismo de autoatenção. E foi treinado no conjunto de dados BookCorpus, que contém mais de 11.000 romances gratuitos. Um atributo notável do GPT-1 é a capacidade de zero-shot learning.
GPT-2 lançado em 2019. A OpenAI o treinou usando 1,5 bilhão de parâmetros (em comparação com os 117 milhões de parâmetros usados no GPT-1). O GPT-3 tem uma rede neural de 96 camadas e 175 bilhões de parâmetros e é treinado usando o conjunto de dados Common Crawl de 500 bilhões de palavras. O popular chatbot ChatGPT é baseado no GPT-3.5. E o GPT-4, a versão mais recente, foi lançado no final de 2022 e passou com sucesso no Uniform Bar Examination com uma pontuação de 297 (76%).
Amazon Titan
Os Amazon Titan FMs são pré-treinados em grandes conjuntos de dados, o que os torna modelos poderosos e de uso geral. Eles podem ser usados como estão ou personalizados de forma privada com dados específicos da empresa para uma tarefa específica sem anotar grandes volumes de dados. Inicialmente, o Titan oferecerá dois modelos. O primeiro é um LLM generativo para tarefas como resumo, geração de texto, classificação, perguntas e respostas abertas e extração de informações. O segundo é um LLM de incorporação que traduz entradas de texto, incluindo palavras, frases e grandes unidades de texto, em representações numéricas (conhecidas como incorporações) que contêm o significado semântico do texto. Embora esse LLM não gere texto, ele é útil para aplicações como personalização e pesquisa porque, ao comparar incorporações, o modelo produzirá respostas mais relevantes e contextuais do que a correspondência de palavras. Para continuar apoiando as melhores práticas no uso responsável da IA, os Titan FMs são criados para detectar e remover conteúdo prejudicial nos dados, rejeitar conteúdo impróprio na entrada do usuário e filtrar as saídas dos modelos que contêm conteúdo impróprio, como discurso de ódio, palavrões e violência.
AI21 Jurassic
Lançado em 2021, o Jurassic-1 é um modelo de linguagem autorregressiva de 76 camadas com 178 bilhões de parâmetros. O Jurassic-1 gera texto semelhante ao humano e resolve tarefas complexas. Seu desempenho é comparável ao GPT-3.
Em março de 2023, a AI21 Labs lançou o Jurrassic-2, que aprimorou o acompanhamento de instruções e os recursos linguísticos.
Claude
Claude 3.5 Sonnet
O modelo mais inteligente e avançado da Anthropic, o Claude 3.5 Sonnet, demonstra capacidades excepcionais em uma ampla variedade de tarefas e avaliações, além de superar o Claude 3 Opus.
Claude 3 Opus
O Opus é um modelo altamente inteligente com performance confiável em tarefas complexas. Ele pode navegar por instruções abertas e cenários invisíveis com notável fluência e compreensão semelhante à humana. Use o Opus para automatizar tarefas e acelerar a pesquisa e o desenvolvimento em uma ampla variedade de casos de uso e setores.
Claude 3 Haiku
O Haiku é o modelo mais rápido e compacto da Anthropic para uma capacidade de resposta quase instantânea. O Haiku é a melhor opção para criar experiências de IA perfeitas que imitam as interações humanas. As empresas podem usar o Haiku para moderar conteúdo, otimizar o gerenciamento de inventário, produzir traduções rápidas e precisas, resumir dados não estruturados e muito mais.
Cohere
O Cohere tem dois LLMs: um é um modelo de geração com recursos semelhantes ao GPT-3 e o outro é um modelo de representação destinado à compreensão de idiomas. Embora o Cohere tenha apenas 52 bilhões de parâmetros, ele supera o GPT-3 em muitos aspectos.
Stable Diffusion
O Stable Diffusion é um modelo de texto para imagem que pode gerar imagens realistas e de alta definição. Foi lançado em 2022 e tem um modelo de difusão que usa tecnologias de ruído e redução de ruído para aprender a criar imagens.
O modelo é menor do que as tecnologias de difusão concorrentes, como o DALL-E 2, o que significa que ele não precisa de uma infraestrutura computacional extensa. O Stable Diffusion será executado em uma placa gráfica normal ou até mesmo em um smartphone com uma plataforma Snapdragon Gen2.
Leia mais sobre o Stable Diffusion »
BLOOM
O BLOOM é um modelo multilíngue com arquitetura semelhante ao GPT-3. Foi desenvolvido em 2022 como um esforço colaborativo envolvendo mais de mil cientistas e a equipe da Hugging Space. O modelo tem 176 bilhões de parâmetros e o treinamento levou três meses e meio usando 384 GPUs Nvidia A100. Embora o ponto de verificação do BLOOM exija 330 GB de armazenamento, ele será executado em um PC independente com 16 GB de RAM. O BLOOM pode criar texto em 46 idiomas e escrever código em 13 linguagens de programação.
Hugging Face
O Hugging Face é uma plataforma que oferece ferramentas de código aberto para você criar e implantar modelos de machine learning. Ele atua como um centro comunitário, e os desenvolvedores podem compartilhar e explorar modelos e conjuntos de dados. A associação para indivíduos é gratuita, embora as assinaturas pagas ofereçam níveis mais altos de acesso. Você tem acesso público a quase 200.000 modelos e 30.000 conjuntos de dados.
Quais são os desafios dos modelos de fundação?
Os modelos da Fundação podem responder de forma coerente às solicitações sobre assuntos sobre os quais não foram explicitamente treinados. Mas eles têm certas fraquezas. Aqui estão alguns dos desafios enfrentados pelos modelos de fundação:
- Requisitos de infraestrutura. Construir um modelo de base do zero é caro e requer enormes recursos, e o treinamento pode levar meses.
- Desenvolvimento front-end. Para aplicações práticas, os desenvolvedores precisam integrar modelos de base em uma pilha de software, incluindo ferramentas para engenharia rápida, ajuste fino e engenharia de tubulações.
- Falta de compreensão. Embora possam fornecer respostas gramaticalmente e factualmente corretas, os modelos de base têm dificuldade em compreender o contexto de uma solicitação. E eles não estão socialmente ou psicologicamente conscientes.
- Respostas não confiáveis. As respostas a perguntas sobre determinados assuntos podem não ser confiáveis e, às vezes, inadequadas, tóxicas ou incorretas.
- Preconceito. O preconceito é uma possibilidade distinta, pois os modelos podem captar discursos de ódio e conotações inapropriadas dos conjuntos de dados de treinamento. Para evitar isso, os desenvolvedores devem filtrar cuidadosamente os dados de treinamento e codificar normas específicas em seus modelos.
Como a AWS pode ajudar?
O Amazon Bedrock é a maneira mais fácil de criar e escalar aplicações de IA generativa com modelos de base. O Amazon Bedrock é um serviço totalmente gerenciado que disponibiliza modelos de base da Amazon e das principais startups de IA por meio de uma API. Assim, é possível escolher entre vários FMs para encontrar o modelo mais adequado para seu caso de uso. Com o Bedrock, é possível acelerar o desenvolvimento e a implantação de aplicações de IA generativa escaláveis, confiáveis e seguros sem gerenciar a infraestrutura.
O Amazon SageMaker JumpStart, um hub de ML que oferece modelos, algoritmos e soluções, fornece acesso a centenas de modelos de base, incluindo modelos de base de alto desempenho disponíveis publicamente. Novos modelos de base ainda estão sendo adicionados, incluindo Llama 2, Falcon e Stable Diffusion XL 1.0.
Próximas etapas na AWS
Obtenha acesso instantâneo ao nível gratuito da AWS.