Escolha o modelo de base certo para sua startup

Como estava esse conteúdo?

Quando startups incorporam inteligência artificial (IA) generativa em seus produtos, selecionar um modelo de base (FM) é uma das primeiras e mais críticas etapas. Um FM é um grande modelo de  machine learning (ML) pré-treinado em uma grande quantidade de dados em grande escala. Isso resulta em um modelo que possa ser adaptado a uma ampla variedade de tarefas posteriores.

A seleção de modelos tem implicações estratégicas na forma como uma startup é criada. Tudo, desde a experiência do usuário e a entrada no mercado até a contratação e a lucratividade, pode ser afetado pelo modelo que você escolher. Os modelos variam de acordo com vários fatores, incluindo:

  • Nível de personalização: a capacidade de alterar a saída de um modelo com novos dados, desde abordagens baseadas em prompts até o retreinamento completo do modelo.
  • Tamanho do modelo: quanta informação o modelo aprendeu, conforme definido pela contagem de parâmetros.
  • Opções de inferência: da implantação autogerenciada às chamadas de API.
  • Contratos de licenciamento: alguns contratos podem restringir ou proibir o uso comercial.
  • Janelas de contexto: quanta informação cabe em um único prompt.
  • Latência: quanto tempo leva para um modelo gerar uma saída.

As seções a seguir mostram o que considerar ao selecionar um FM para atender às necessidades da sua startup.

Benchmarks específicos de aplicações

Ao avaliar o desempenho de diferentes FMs para seu caso de uso, uma etapa crítica no processo é estabelecer uma estratégia de benchmark. Isso ajuda você a quantificar o nível de qualidade de correspondência do conteúdo às suas expectativas.

“Há um grande número de modelos disponíveis, desde players de código fechado a modelos de código aberto, como Dolly, Alpaca e Vicuna. Cada um desses modelos tem suas próprias vantagens e desvantagens; é fundamental que você escolha o melhor modelo para o trabalho”, explica Noa Flaherty, diretor de tecnologia (CTO) e cofundador da Vellum. “Ajudamos empresas a implementar uma ampla variedade de casos de uso de IA e vimos em primeira mão que cada caso de uso tem requisitos diferentes de custo, qualidade, latência, janela de contexto e privacidade.”

Benchmarks generalizados (como a  Holistic Evaluation of Language Models, ou Avaliação Holística de Modelos de Linguagem, da Universidade de Stanford) são um ótimo ponto de partida para algumas startups, pois ajudam a priorizar quais modelos de base começar a experimentar. No entanto, benchmarks generalizados podem ser insuficientes para startups focadas na criação de uma base de clientes específica.

Por exemplo, se seu modelo precisa resumir consultas médicas ou feedback de clientes, você deve avaliar a capacidade dele de realizar essas tarefas específicas. “Para fazer um benchmarking personalizado, você precisa de um workflow para experimentação rápida , normalmente por meio de tentativa e erro em uma ampla variedade de cenários. É comum ajustar demais seu modelo/prompt para um caso de teste específico e achar que você tem o modelo certo, mas que acabe fracassando quando estiver em produção”, aconselha Noa. O benchmarking personalizado pode incluir técnicas como o cálculo das pontuações BLEU e ROUGE. Essas são duas métricas que ajudam as startups a quantificar o número de correções necessárias para aplicar o texto gerado pela IA antes de ser aprovado para uso em aplicações human-in-the-loop.

Métricas de qualidade e avaliação de modelos são fundamentais, e é por isso que Noa originalmente fundou a Vellum. Essa startup, apoiada pela Y Combinator, concentra suas ofertas de produtos na experimentação. De acordo com Noa, “Quanto mais você puder comparar/contrastar modelos em uma variedade de casos que se assemelham ao que você verá na produção, melhor será durante a produção.”

Modelos menores e feitos sob medida estão em ascensão

Depois que seus benchmarks de qualidade forem estabelecidos, você poderá começar a experimentar o uso de modelos menores destinados a tarefas específicas, como seguir instruções ou resumir. Esses modelos criados com um objetivo específico podem reduzir significativamente a contagem de parâmetros de um modelo e, ao mesmo tempo, manter a capacidade de realizar tarefas específicas do domínio. Por exemplo, a startup  GoCharlie fez parceria com a SRI para desenvolver um modelo multimodal específico de marketing com parâmetros 1B.

“Modelos genéricos nunca resolverão verdadeiramente as necessidades do usuário final; já os modelos projetados com um objetivo específico serão os mais eficazes”, explica Kostas Hatalis, CEO e cofundador da GoCharlie. “Acreditamos que modelos específicos, adaptados a setores específicos, como marketing, são cruciais para entender os requisitos reais dos usuários finais.”

A comunidade de pesquisa de código aberto está conduzindo muita inovação relacionada a modelos menores e específicos, como o Alpaca da Stanford ou o  Falcon 40B do Technology Innovation Institute. A Tabela de classificação Open LLM  da Hugging Face ajuda a classificar esses modelos de código aberto em uma variedade de benchmarks gerais. Esses modelos menores fornecem métricas de benchmark comparáveis em tarefas de acompanhamento de instruções, usando uma fração da contagem de parâmetros e dos recursos de treinamento.

À medida que as startups personalizam seus modelos para tarefas específicas de domínio, os FMs de código aberto as capacitam a personalizar e ajustar ainda mais seus sistemas com seus próprios conjuntos de dados. Por exemplo, as soluções de PERT, ou  Ajuste fino com eficiência de parâmetros , da Hugging Face mostraram como ajustar um pequeno número de parâmetros de modelo, enquanto congela a maioria dos outros parâmetros dos LLMs pré-treinados, o que pode diminuir consideravelmente os custos computacionais e de armazenamento. Essas técnicas de ajuste fino baseadas em adaptação de domínio geralmente não são possíveis com FM proprietário baseado em API, o que pode limitar a profundidade com que uma startup pode criar um produto diferenciado.

Além disso, ao concentrar o uso em tarefas específicas, o conhecimento pré-treinado do FM em domínios como matemática, história ou medicina geralmente acaba sendo inutilizado. Algumas startups optam por limitar intencionalmente o escopo do FM a um domínio específico implementando limites, como o NeMo Guardrails de código aberto da Nvidia, em seus modelos. Esses limites ajudam a evitar alucinações nos modelos: resultados irrelevantes, incorretos ou inesperados.

A flexibilidade de inferência é importante

Outra consideração importante na seleção do modelo é como o modelo pode ser servido. Os modelos de código aberto, bem como os modelos proprietários autogerenciados, oferecem a flexibilidade de personalizar como e onde os modelos são hospedados. O controle direto da infraestrutura de um modelo pode ajudar as startups a garantir a confiabilidade de suas aplicações com práticas recomendadas, como escalonamento automático e redundância. O gerenciamento da infraestrutura de hospedagem também ajuda a garantir que todos os dados gerados e consumidos por um modelo estejam contidos em ambientes de nuvem dedicados que possam atender aos requisitos de segurança definidos pela startup.

Os modelos menores e específicos que mencionamos anteriormente também exigem menos hardware com uso intensivo de computação, ajudando as startups a otimizar a economia unitária e o desempenho de preços. Em um experimento recente, a AWS mediu até 50% de economia no custo de inferência ao usar instâncias AWS Graviton3 baseadas em ARM para modelos de código aberto em relação a instâncias similares do Amazon Elastic Compute Cloud (EC2) .

Esses processadores AWS Graviton3 também usam até 60% menos energia para o mesmo desempenho do que instâncias comparáveis do Amazon EC2, o que ajuda startups que estão considerando os impactos ambientais de escolher um hardware de inferência que consome muita energia. Um estudo do Fórum Econômico Mundial detalhou o consumo de energia dos datacenters. Antes consideradas uma externalidade, as implicações ambientais surgiram na mente de muitos e a AWS permite que as startups quantifiquem seu impacto ambiental por meio de ofertas como o Relatório de pegada de carbono, que ajuda as empresas a comparar a eficiência energética de diferentes seleções de hardware.

Conclusão

Aaron Melgar

Aaron Melgar

Aaron capacita o ecossistema de startups e capital de risco de IA/ML na AWS, com foco no crescimento inicial da empresa. Ele é ex-fundador, gerente de produto da série A, diretor de machine learning e consultor de estratégia. Ele é americano de primeira geração e adora tênis, golfe, viagens e de trocar recomendações de audiolivros sobre economia, psicologia ou negócios.

Como estava esse conteúdo?