O que é GPT?

Transformadores pré-treinados generativos, comumente conhecidos como GPT, são uma família de modelos de rede neural que usa a arquitetura de transformadores e são um avanço fundamental na inteligência artificial (IA) que impulsiona aplicações de IA generativa, como o ChatGPT. Os modelos GPT oferecem às aplicações a capacidade de criar texto e conteúdo semelhantes aos humanos (imagens, músicas e muito mais) e responder perguntas de forma conversacional. Organizações de todos os setores estão usando modelos GPT e IA generativa para bots de perguntas e respostas, resumo de texto, geração de conteúdo e pesquisa.

Por que o GPT é importante?

Os modelos GPT, e principalmente a arquitetura de transformadores que eles usam, representam um avanço significativo na pesquisa de IA. O surgimento dos modelos GPT é um marco na adoção generalizada do ML porque a tecnologia pode ser usada agora para automatizar e melhorar uma variedade de tarefas, desde tradução de idiomas e resumo de documentos até escrever postagens em blogs, criar sites, criar elementos visuais e animações, escrever código, pesquisar tópicos complexos e até escrever poemas. O valor desses modelos está na velocidade e na escala nas quais eles podem operar. Por exemplo, enquanto você precisa de várias horas para pesquisar, escrever e editar um artigo sobre física nuclear, um modelo GPT pode produzir esse artigo em segundos. Os modelos GPT impulsionaram a pesquisa em IA para alcançar a inteligência artificial geral, o que significa que as máquinas podem ajudar as organizações a alcançar novos níveis de produtividade e reinventar suas aplicações e experiências de clientes.

Quais são os casos de uso do GPT?

Os modelos GPT são modelos de linguagem de uso geral que podem realizar uma ampla variedade de tarefas, desde criar conteúdo original até escrever código, resumir texto e extrair dados de documentos.

Estas são algumas maneiras de usar os modelos GPT:

Criar conteúdo de mídia social

Os profissionais de marketing digital, auxiliados pela inteligência artificial (IA), podem criar conteúdo para suas campanhas de mídia social. Por exemplo, profissionais de marketing podem solicitar que um modelo GPT produza um roteiro de vídeo explicativo. O software de processamento de imagem com tecnologia GPT pode criar memes, vídeos, textos de marketing e outros conteúdos com base em um texto de instruções.

Converter texto em estilos diferentes

Os modelos GPT geram texto em estilos casuais, humorísticos, profissionais e outros. Os modelos permitem que profissionais de negócios reescrevam um texto específico de uma forma diferente. Por exemplo, os advogados podem usar um modelo GPT para transformar cópias legais em notas explicativas simples. 

Escrever e aprender programação

Como modelos de linguagem, os modelos GPT podem entender e escrever código de computador em diferentes linguagens de programação. Os modelos podem ajudar os alunos explicando os programas de computador em uma linguagem cotidiana. Além disso, desenvolvedores experientes podem usar ferramentas GPT para sugerir automaticamente trechos de código relevantes.

Analisar dados

O modelo GPT pode ajudar os analistas de negócios a compilar com eficiência grandes volumes de dados. Os modelos de linguagem pesquisam os dados necessários, calculam e exibem os resultados em uma tabela de dados ou planilha. Algumas aplicações podem representar graficamente os resultados em um gráfico ou criar relatórios abrangentes. 

Produzir materiais didáticos

Os educadores podem usar software baseado em GPT para gerar materiais de aprendizagem, como questionários e tutoriais. Da mesma forma, eles podem usar modelos GPT para avaliar as respostas.

Criar assistentes de voz interativos

Os modelos GPT permitem que você crie assistentes de voz interativos inteligentes. Embora muitos chatbots respondam apenas as solicitações verbais básicas, os modelos GPT podem produzir chatbots com recursos de IA para conversa. Além disso, esses chatbots podem conversar verbalmente como humanos quando combinados com outras tecnologias de IA. 

Como o GPT funciona?

Embora seja correto descrever os modelos GPT como inteligência artificial (IA), essa é uma descrição ampla. Mais especificamente, os modelos GPT são modelos de predição de linguagem baseados em redes neurais construídos na arquitetura Transformer. Eles analisam consultas em linguagem natural, conhecidas como solicitações, e preveem a melhor resposta possível com base em sua compreensão da linguagem.

Para fazer isso, os modelos GPT contam com o conhecimento que adquirem depois de serem treinados com centenas de bilhões de parâmetros em grandes conjuntos de dados de linguagem. Eles podem levar em consideração o contexto da entrada e atender dinamicamente a diferentes partes da entrada, tornando-as capazes de gerar respostas longas, e não apenas a próxima palavra em uma sequência. Por exemplo, quando solicitado a gerar um conteúdo inspirado em Shakespeare, um modelo GPT faz isso lembrando e reconstruindo novas frases e sentenças inteiras com um estilo literário semelhante.

Existem diferentes tipos de redes neurais, como redes recorrentes e convolucionais. Os modelos GPT são redes neurais de transformadores. A arquitetura de rede neural de transformadores usa mecanismos de autoatenção para focar em diferentes partes do texto de entrada durante cada etapa do processamento. Um modelo de transformador captura mais contexto e melhora a performance nas tarefas de processamento de linguagem natural (PLN). Ele tem dois módulos principais, que explicaremos a seguir.

Leia sobre redes neurais »

Leia sobre o processamento de linguagem natural (PLN) »

Codificador 

Os transformadores pré-processam as entradas de texto como incorporações, que são representações matemáticas de uma palavra. Quando codificadas no espaço vetorial, espera-se que as palavras que estão mais próximas tenham um significado semelhante. Essas incorporações são processadas por meio de um componente codificador que captura as informações contextuais de uma sequência de entrada. Quando recebe a entrada, o bloco codificador da rede do transformador separa as palavras em incorporações e atribui um peso a cada uma. Os pesos são parâmetros para indicar a relevância das palavras em uma frase.

Além disso, os codificadores de posição permitem que os modelos GPT evitem significados ambíguos quando uma palavra é usada em outras partes de uma frase. Por exemplo, a codificação de posição permite que o modelo do transformador diferencie as diferenças semânticas entre estas frases: 

  • Um cachorro persegue um gato
  • Um gato persegue um cachorro

Assim, o codificador processa a frase inserida e gera uma representação vetorial de comprimento fixo, conhecida como incorporação. Essa representação é usada pelo módulo decodificador.

Decodificador

O decodificador usa a representação vetorial para prever a saída solicitada. Ele possui mecanismos de autoatenção integrados para focar em diferentes partes da entrada e adivinhar a saída correspondente. Técnicas matemáticas complexas ajudam o decodificador a estimar vários resultados diferentes e prever o mais preciso.

Comparados aos seus antecessores, como as redes neurais recorrentes, os transformadores são mais paralelizáveis porque não processam as palavras sequencialmente uma de cada vez. Em vez disso, eles processam toda a entrada de uma só vez durante o ciclo de aprendizado. Devido a isso e às milhares de horas que os engenheiros passaram ajustando e treinando os modelos GPT, eles são capazes de dar respostas fluentes a quase todas as informações que você fornecer.

Como o GPT-3 foi treinado?

Em um artigo de pesquisa publicado, os pesquisadores descreveram o pré-treinamento generativo como a capacidade de treinar modelos de linguagem com dados não rotulados e obter previsões precisas. O primeiro modelo de GPT, o GPT-1, foi desenvolvido em 2018. O GPT-4 foi introduzido em março de 2023 como sucessor do GPT-3.

O GPT-3 foi treinado com mais de 175 bilhões de parâmetros ou pesos. Os engenheiros o treinaram em mais de 45 terabytes de dados de fontes como textos da Web, Common Crawl, livros e Wikipédia. Antes do treinamento, a qualidade média dos conjuntos de dados foi aprimorada com o amadurecimento do modelo da versão 1 para a versão 3. 

O GPT-3 foi treinado em um modo semissupervisionado. Primeiro, os engenheiros de machine learning alimentaram o modelo de aprendizado profundo com os dados de treinamento não rotulados. O GPT-3 entende as frases, as divide e as reconstrói em novas frases. No treinamento não supervisionado, o GPT-3 tentou produzir resultados precisos e realistas sozinho. Em seguida, os engenheiros de machine learning ajustaram os resultados do treinamento supervisionado, um processo conhecido como aprendizado por reforço com feedback humano (RLHF). 

Você pode usar os modelos GPT sem nenhum treinamento adicional ou pode personalizá-los com alguns exemplos para uma tarefa específica.

Quais são os exemplos de algumas aplicações que usam o GPT?

Desde seu lançamento, os modelos GPT trouxeram a inteligência artificial (IA) para inúmeras aplicações em vários setores. Veja alguns exemplos:

  • Os modelos GPT podem ser usados para analisar o feedback do cliente e resumi-lo em um texto facilmente compreensível. Primeiro, você pode coletar dados de sentimentos do cliente de fontes como pesquisas, avaliações e chats ao vivo e, em seguida, solicitar que um modelo GPT resuma os dados.
  • Os modelos GPT podem ser usados para permitir que personagens virtuais conversem naturalmente com jogadores humanos na realidade virtual.
  • Os modelos GPT podem ser usados para fornecer uma experiência melhor de pesquisa para a equipe de suporte técnico. Eles podem consultar a base de conhecimento do produto com linguagem conversacional para recuperar informações relevantes sobre o produto.

Como a AWS pode ajudar você a executar grandes modelos de linguagem, como o GPT-3?

O Amazon Bedrock é a maneira mais fácil de criar e escalar aplicações de IA generativas com grandes modelos de linguagem, também conhecidas como modelos básicos (FMs), semelhantes ao GPT-3. O Amazon Bedrock oferece acesso por meio de uma API aos modelos básicos das principais startups de IA, incluindo AI21 Labs, Anthropic e Stability AI, junto com a mais nova família de modelos básicos da Amazon, Amazon Titan FMs. Com a experiência da tecnologia sem servidor do Bedrock, você pode começar rapidamente, personalizar as FMs de forma privada com seus próprios dados e integrá-las e implantá-las facilmente em suas aplicações usando as ferramentas e os recursos da AWS com os quais você está familiarizado (incluindo integrações com recursos de ML do Amazon SageMaker, como experimentos para testar diferentes modelos e pipelines para gerenciar suas FMs em grande escala) sem precisar gerenciar nenhuma infraestrutura. Saiba mais sobre a construção com modelos básicos no Amazon Bedrock.

Próximas etapas do machine learning