O que são modelos de IA generativa?
O que são modelos de IA generativa?
Os modelos de IA generativa têm pontos fortes e limitações. Dependendo dos requisitos de complexidade, performance, privacidade e custo do seu caso de uso, alguns modelos podem ser uma escolha melhor do que outros. Este guia analisa os fatores a serem considerados e as práticas recomendadas para selecionar um modelo de IA generativa.
Modelos de inteligência artificial generativa podem criar conteúdo original e significativo de texto, imagens, áudio e vídeo com base na entrada de linguagem natural dos usuários. As organizações os estão utilizando para tudo, desde capacitar os chatbots até criar modelos de design e resolver problemas complexos em biologia. Existem milhares de modelos de IA proprietários e de código aberto, e novos modelos e versões aprimoradas estão sendo lançados diariamente.
Apesar de sua flexibilidade e versatilidade, os modelos de IA generativa não são uma solução única para todos os casos de uso. As equipes de IA devem selecionar e avaliar cuidadosamente o melhor modelo que otimiza o custo e a performance. A avaliação de modelos é complexa. Benchmarks conhecidos, como o Helm e o placar do Hugging Face, fornecem apenas uma visão geral da performance de um determinado modelo de IA em tarefas comuns de linguagem natural. As equipes de IA devem adotar estratégias diferentes para avaliar a saída do modelo para uma entrada de dados personalizada e, em seguida, selecionar a que melhor atenda às suas necessidades.
Como os modelos de IA generativa são avaliados para diferentes casos de uso?
Confira alguns fatores a serem considerados ao escolher um modelo de IA apropriado para seu caso de uso.
Modalidade
A modalidade refere-se ao tipo de dados que o modelo processa: incorporações, imagens (visão) ou texto. Alguns modelos são unimodais e podem processar com eficiência um único tipo de dados. Outros são multimodais e podem integrar vários tipos de dados, mas podem ser mais adequados para um tipo do que para outros. Por exemplo, modelos como Claude, Llama 3.1 ou Titan Text G1 são adequados para tarefas baseadas em texto, enquanto o Stable Diffusion XL e o Titan Image Generator v2 são mais adequados para tarefas de visão. Da mesma forma, o modelo Titan Multimodal Embeddings G1 é o preferido para converter qualquer imagem ou texto de entrada em uma incorporação que contenha o significado semântico da imagem e do texto no mesmo espaço semântico.
Tamanho do modelo
O tamanho do modelo é o número de parâmetros ou variáveis de configuração internas no modelo. Pode variar de vários milhões a mais de 100 bilhões, com a maioria dos modelos tendo entre 10 e 100 bilhões de parâmetros. O tamanho do modelo define diretamente a capacidade do modelo de aprender com os dados. Modelos com mais parâmetros têm melhor performance porque podem entender profundamente os novos dados. No entanto, eles são mais caros de personalizar e operar.
Latência de inferência
A latência da inferência geralmente é uma preocupação em cenários em tempo real em que os usuários da sua aplicação de IA podem esperar respostas imediatas. É o tempo total que um modelo leva para processar a entrada e retornar a saída com base no tamanho da entrada. Modelos de IA generativa com arquiteturas complexas podem ter velocidades de inferência mais lentas do que modelos menores. No entanto, a latência da inferência varia de acordo com os prompts esperados e a performance do modelo. Um número maior de tokens (como letras, pontuação etc.) na entrada do usuário final também pode aumentar a latência.
Janela de contexto
A janela de contexto do modelo de IA generativa é o número de tokens que ele pode “lembrar” para contextualizar a qualquer momento. Um modelo com uma janela de contexto maior retém mais da conversa anterior e fornece respostas mais relevantes. Portanto, janelas de contexto maiores são preferidas para tarefas complexas, como resumir documentos longos ou estimular conversas com várias interações.
Considerações de preços
Os custos de execução de modelos incluem os custos de uso de modelos proprietários e os custos de computação e memória. As despesas operacionais podem variar de modelo para modelo com base nas workloads. A comparação dos custos com os benefícios garante que você obtenha o melhor valor para seu investimento. Por exemplo, executar o Claude 2 ou o Command R+ incorre em taxas baseadas no uso, pois são modelos proprietários, enquanto a implantação do Llama 2 7B tem custos computacionais mais baixos. No entanto, se os modelos proprietários fornecerem uma precisão ou eficiência significativamente melhor para sua tarefa, seu custo adicional poderá ser justificado.
Qualidade da resposta
Você pode avaliar a qualidade da resposta de um modelo de IA usando várias métricas, como:
- Precisão: com que frequência as respostas do modelo estão corretas.
- Relevância: a adequação das respostas à entrada fornecida.
- Robustez: o quão bem o modelo lida com entradas intencionalmente enganosas projetadas para confundi-lo.
- Toxicidade: a porcentagem de conteúdo impróprio ou preconceitos nas saídas do modelo.
As métricas geralmente são medidas em relação a uma linha de base pré-configurada. É uma prática recomendada avaliar a qualidade da resposta de alguns modelos diferentes no mesmo conjunto de dados de entrada e selecionar aquele que fornece a melhor qualidade de resposta.
Qual é o processo de seleção de modelos de IA generativa?
A seleção do modelo de IA generativa exige primeiro que você determine os requisitos específicos da sua aplicação de IA. Certifique-se de entender as expectativas do usuário, os requisitos de processamento de dados, as considerações de implantação e outras sutilezas em sua empresa e setor. Em seguida, você pode eliminar diferentes modelos de IA realizando testes de qualidade até encontrar o melhor modelo que atenda às suas necessidades.
Etapa 1: restringir a seleção inicial de modelos
Comece o processo selecionando cerca de 20 modelos dos milhares que atendem às suas necessidades. Escolher entre modelos de código aberto e modelos proprietários é metade do trabalho realizado. Depois de determinar isso, você pode selecionar ainda mais os modelos avaliando-os com base nos principais critérios, como modalidade, tamanho do modelo, janela de contexto etc., descritos na seção anterior.
Modelos proprietários de IA generativa versus de código aberto
Os modelos de código aberto oferecem flexibilidade e permitem que as equipes ajustem ou treinem totalmente o modelo em dados proprietários. Isso pode ser particularmente útil em setores especializados, em que os modelos de uso geral não funcionam bem em casos de uso de nicho. Por exemplo, uma grande seguradora pode preferir treinar um modelo de código aberto com dados personalizados em vez de usar modelos proprietários voltados para o setor financeiro que não atendem exatamente às suas necessidades específicas.
No entanto, os modelos de código aberto exigem considerações adicionais. Eles podem introduzir riscos legais e de segurança, exigindo que as organizações apliquem suas próprias medidas de conformidade e examinem minuciosamente os termos de licenciamento. Os modelos proprietários, por outro lado, geralmente oferecem recursos de segurança integrados, indenização por dados e resultados de treinamento e garantias de conformidade, reduzindo a sobrecarga operacional para empresas que priorizam a mitigação de riscos.
Etapa 2: inspecionar a saída e restringir ainda mais a lista
Nesta etapa, sua meta é identificar os três principais modelos de IA generativa mais adequados para seu caso de uso. Primeiro, identifique um subconjunto de prompts de teste que correspondam ao seu caso de uso. Em seguida, inspecione visualmente a saída de cada modelo em busca de prompts específicos. Procure saídas com mais detalhes que melhor correspondam à sua entrada. Selecione as três principais que geram os resultados mais relevantes, detalhados e precisos.
O Amazon SageMaker Clarify é o mais adequado para essa etapa. Ele avalia automaticamente os FMs para seu caso de uso de IA generativa usando métricas como precisão, robustez e toxicidade para apoiar sua iniciativa de IA responsável.
Etapa 3: usar a avaliação comparativa baseada em casos
Agora, você pode avaliar mais detalhadamente os principais modelos de IA selecionados com base em prompts e saídas predefinidos para seu conjunto de dados de teste específico. O principal fator aqui é ter um conjunto de dados de teste abrangente que englobe todos os aspectos do seu caso de uso com diversas variações. Você também deve ter uma saída ideal correspondente para avaliar estatisticamente qual saída do modelo está mais próxima da saída ideal.
O Amazon Bedrock fornece ferramentas de avaliação para avaliar, comparar e selecionar o modelo de IA para seu caso de uso com a Avaliação de Modelo.
Há três abordagens de avaliação que você pode adotar.
Programático
Avalie saídas de modelos usando algoritmos e métricas tradicionais de linguagem natural, como BERT Score, F1 e outras técnicas de correspondência exata. O Amazon Bedrock permite que você faça isso usando conjuntos de dados de prompts integrados, ou você pode trazer seus próprios.
Intervenção humana no processo
Faça com que avaliadores humanos (membros da sua equipe, uma amostra definida de usuários finais ou avaliadores profissionais de IA) avaliem a saída de todos os três modelos com base em métricas predeterminadas do modelo. Eles podem comparar manualmente as saídas com as saídas ideais ou, se o caso de uso for muito amplo, podem avaliar e marcar a saída com base em seu melhor julgamento.
Com o Amazon Bedrock, você pode avaliar os resultados dos modelos com sua força de trabalho ou fazer com que a AWS gerencie suas avaliações nas respostas para conjuntos de dados personalizados de prompts com métricas como relevância, estilo e alinhamento com a voz da marca ou métricas incorporadas.
Outro modelo de IA como avaliador
Nessa abordagem, outro modelo de IA avalia a saída dos três modelos de forma imparcial. Isso funciona melhor em casos de uso em que as saídas são bem definidas e sua semelhança com a saída ideal é mensurável estatisticamente. O Amazon Bedrock permite avaliar as saídas do modelo usando outro modelo de IA no modo LLM como avaliador. Você pode usar seus conjuntos de dados de prompts personalizados com métricas como correção, completude e nocividade, além de métricas de IA responsável como recusa de resposta e nocividade.
Etapa 4: seleção final
Use os dados de avaliação junto com a análise de custo e performance para escolher o modelo final. Com o Amazon Bedrock, você pode usar o recurso de comparação nas avaliações para ver os resultados de quaisquer alterações feitas em prompts e nos modelos que estão sendo avaliados. Visualize todos os seus analytics em um só lugar e selecione o modelo que fornece o melhor equilíbrio entre performance, custo e riscos associados e usa os recursos com eficiência.
Escolher o modelo de IA generativa certo para seu caso de uso exige uma abordagem estruturada que equilibre as capacidades técnicas, as necessidades comerciais e as restrições operacionais. A chave é alinhar sua decisão com os requisitos específicos do seu caso de uso. Avalie cuidadosamente os modelos com base em fatores como modalidade, tamanho, recursos de processamento de dados e considerações de implantação. Em última análise, o modelo certo aumenta a eficiência e a inovação e fornece uma base escalável para futuros avanços impulsionados pela IA em sua organização.