Sua IA é tão boa quanto seus dados

Por Tom Godden, Enterprise Strategist e Evangelista na Amazon Web Services (AWS).

A IA generativa é, sem dúvida, uma das tecnologias mais transformadoras e disruptivas do nosso tempo. Esses modelos poderosos podem gerar textos, imagens, códigos e muito mais, semelhantes aos humanos, de maneiras que parecem quase milagrosas. No entanto, por trás dos resultados inspiradores, há uma base ainda mais incrível: os enormes conjuntos de dados e as operações de dados robustas necessárias para tornar a IA generativa possível.

Embora os modelos generativos de IA geralmente dominem as manchetes e as discussões, eles representam apenas a fração visível de um iceberg de dados muito maior. O verdadeiro impulsionador por trás dessas inovações está no extenso volume de dados de treinamento meticulosamente selecionados. Esses dados servem como o mecanismo que permite que os modelos compreendam, aprendam e, por fim, gerem novos conteúdos com recursos semelhantes aos humanos. Assim como a superfície de um iceberg é uma pequena parte em comparação com seu grande volume subaquático, os ativos de dados e a infraestrutura de sua organização servem como base indispensável para apoiar qualquer ambição em IA generativa.

Como líder, é fundamental reconhecer que os dados — sua qualidade, diversidade, governança e canais operacionais — contribuirão ou destruirão suas iniciativas generativas de IA. A IA generativa de mais alto nível simplesmente não é possível sem dados de mais alto nível. Investir em práticas robustas de dados não é opcional, mas um requisito essencial para liberar todo o potencial da IA generativa e, ao mesmo tempo, mitigar os riscos. Dominar o iceberg de dados é a chave para aproveitar com sucesso a onda generativa da IA.

O papel decisivo dos dados

Um estudo recente conduzido por Thomas H. Davenport, Randy Bean e Richard Wang em associação com a AWS (https://d1.awsstatic.com/psc-digital/2023/gc-600/cdo-agenda-2024/cdo-agenda-2024.pdf) descobriu que 93% dos diretores de dados concordam que a estratégia de dados é crucial para obter valor da IA generativa, no entanto, 57% admitem que ainda não criaram a estratégia necessária.

Os riscos de ficar para trás são imensos. As organizações que não cultivam ativos de dados amplos, limpos e bem organizados se encontrarão em grave desvantagem à medida que os recursos generativos de IA se tornarem essenciais em todos os setores. Aqueles que estabeleceram práticas robustas de dados, talentos e infraestrutura poderão desenvolver sistemas de IA generativos altamente capazes que podem automatizar tarefas, aumentar as habilidades da força de trabalho e desbloquear novos modelos de negócios.

Do aterro sanitário de dados à mentalidade do produto de dados

Para usar seus dados como um ativo estratégico, você precisa reformular a forma como sua organização vê e gerencia os dados. Apenas coletar e armazenar dados não é mais suficiente. Para realmente aproveitar o poder dos dados como um diferencial competitivo, as organizações devem adotar uma abordagem transformadora, que trate os dados como um produto e promova uma cultura de gerenciamento de dados responsável, ético e transparente.

Eu recomendo esses princípios para ajudar a orientar sua estratégia de dados

Trate Dados como um Produto: no cenário atual de orientação a dados, é imperativo tratar os dados como um produto, e não apenas como um subproduto das operações. Isso envolve a adoção de práticas semelhantes às usadas para produtos físicos, como estabelecer protocolos de controle de versão, recursos dedicados e estruturas claras de governança. Além disso, o desenvolvimento de um roadmap para dados alinha sua evolução aos objetivos de negócios, garantindo que eles permaneçam relevantes e valiosos ao longo do tempo.
Organize Conjuntos de Dados Diversos: conjuntos de dados diversos servem como base para a criação de sistemas de IA justos e inclusivos que efetivamente combatam vieses prejudiciais. É fundamental que as organizações garantam o uso de Modelos Fundacionais (Foundation Models) baseados em diversos conjuntos de dados e, quando apropriado, organizem proativamente conjuntos de dados que abranjam uma ampla variedade de dados demográficos e experiências. Para evitar vieses nos resultados de IA, você precisará de um amplo conjunto de dados. Quando sua IA tem um amplo público-alvo, como um chatbot de atendimento ao cliente que gerencia vários sotaques e dialetos, a diversidade no conjunto de dados é crucial. Da mesma forma, o uso da IA para gerar conteúdo em vários domínios requer dados de diversos setores para produzir resultados de alta qualidade. O feedback negativo do usuário ou o baixo desempenho em determinados segmentos também indicam a necessidade de dados mais representativos. A conformidade com as diretrizes éticas e os requisitos legais exige conjuntos de dados diversos para garantir a imparcialidade e evitar problemas legais. Tarefas complexas, como tradução de idiomas ou geração de imagens, exigem dados variados e diferenciados para produzir resultados sofisticados e contextualmente adequados. Para criar um conjunto de dados verdadeiramente diverso, inclua diversidade demográfica, linguística, contextual, temporal, de conteúdo e comportamental, garantindo que sua IA atenda a todos os usuários de forma eficaz e equitativa. Essa abordagem proativa de conjuntos de dados diversos ajuda a mitigar vieses algorítmicos e garante que os sistemas de IA reflitam com precisão a diversidade de todas as partes interessadas. Abraçar a diversidade não apenas fortalece a resiliência e a precisão dos modelos de IA ao capturar uma gama mais abrangente de insights em várias populações, mas também reformula a diversidade como um ativo e não como uma restrição. Ao adotar dados diversos, as organizações capacitam o desenvolvimento de uma IA ética e socialmente responsável que libera totalmente o potencial de seus recursos de dados.
Governe Habilitando, Não Restringindo: a governança de dados eficaz estabelece um equilíbrio cuidadoso entre proteger os ativos de dados e permitir seu uso produtivo. Muitas vezes, as organizações erram para o lado da restrição excessiva, implementando processos e políticas rigorosas que estrangulam o acesso aos dados e sufocam a inovação. Em vez de prejudicar as partes interessadas com gargalos e burocracia, uma abordagem moderna de governança de dados governa habilitando, ao invés de restringindo. Isso envolve simplificar os protocolos de acesso aos dados com recursos de autoatendimento, automatizar a supervisão e as verificações de conformidade e fornecer diretrizes claras que educam em vez de intimidar. O objetivo é tornar os dados tão universalmente acessíveis quanto possível e, ao mesmo tempo, manter a segurança, a privacidade e a conformidade regulatória adequadas. Em vez disso, as organizações modernas começam perguntando “por que eu não compartilharia isso” em vez de “por que eu compartilharia isso”. Ao adotar essa abordagem, a governança de dados se torna um catalisador para inovação e colaboração, em vez de um obstáculo.
Documentação que capacita: uma documentação abrangente e acessível é crucial para o desenvolvimento e a implantação responsáveis. Simplesmente inundar os profissionais com detalhes técnicos densos geralmente faz mais para ofuscar do que elucidar. Em vez disso, a documentação deve capacitar as partes interessadas, cobrindo as principais informações de forma concisa e relevante. Para IA generativa, isso inclui diretrizes claras de anotação que codificam o escopo, os atributos e as limitações dos dados de treinamento. A documentação transparente dos pipelines de fornecimento e pré-processamento de dados permite uma compreensão mais profunda das características dos dados e dos possíveis vieses. Cartões modelo (Model cards) que descrevem os casos de uso pretendidos, os benchmarks de desempenho e as limitações conhecidas de um sistema de IA evitam o uso indevido ou o excesso de confiança.
Garanta a Qualidade dos Dados: todos nós já ouvimos a expressão “lixo entra, lixo sai” (garbage in, garbage out), mas nunca foi tão verdadeiro quanto com a IA generativa e os Grandes Modelos de Linguagem. Esses modelos poderosos dependem inteiramente da qualidade de seus dados de treinamento, e quaisquer falhas ou inconsistências podem afetar gravemente seu desempenho e resultados. Dados de baixa qualidade contendo erros, valores faltantes ou inconsistências podem fazer com que modelos generativos de IA produzam resultados sem sentido, alucinem ou apresentem deficiências significativas. Uma boa prática de qualidade de dados se concentra na implementação de 1/ pipelines robustos de validação de dados para detectar automaticamente anomalias, discrepâncias, desvios e violações de restrições de integridade de domínio, 2/ processos de revisão humana para identificar erros diferenciados que possam evitar verificações automatizadas e 3/ mecanismos contínuos de monitoramento, criação de perfis e testes de vieses em todo o ciclo de vida dos dados.
Respeite a Privacidade, o Consentimento e a Confidencialidade: proteger a privacidade do usuário, obter o consentimento adequado e manter a confidencialidade dos dados são obrigações éticas não negociáveis ao desenvolver sistemas generativos de IA. Esses modelos poderosos aprendem e recriam dados do mundo real, como texto, imagens e áudio, que incorporam inerentemente informações pessoais e propriedade intelectual. Dessa forma, as organizações devem implementar mecanismos robustos para cumprir todas as regulamentações relevantes de privacidade de dados, como GDPR, CCPA e HIPAA. Isso envolve a desidentificação e a anonimização abrangentes de quaisquer dados pessoais ou confidenciais usados para treinamento de modelos. Controles de acesso robustos, criptografia e monitoramento contínuo devem proteger de forma abrangente as informações confidenciais contra uso indevido ou exposição não autorizada. Por fim, você deve criar confiança de forma proativa priorizando a privacidade desde o design inicial, em vez de abordar retroativamente as violações após a ocorrência de danos. Usar atalhos em relação à privacidade, o consentimento e a confidencialidade representa riscos inaceitáveis, tanto legais quanto de reputação.

Para ganhar força, sugiro que você classifique seus ativos de dados que seguem esses princípios como “Dados compatíveis” ou “Ativos de dados confiáveis”. A classificação de seus dados também serve para elevar seu valor percebido na organização. Assim como uma marca bem conhecida tem preços premium no mercado, os ativos de dados rotulados como produtos de alta qualidade são vistos como ativos valiosos que impulsionam a tomada de decisões informadas e iniciativas estratégicas.

Deixe o Valor Ser seu Guia — Garanta que Seus Dados Sejam Relevantes

O grande volume de dados disponíveis pode ser impressionante, mas nem todos os dados são igualmente valiosos. Adote uma abordagem orientada por valor, concentrando seus esforços na curadoria dos dados que se alinham diretamente aos seus casos de uso e objetivos específicos. Não tente resolver tudo ao mesmo tempo; em vez disso, identifique as fontes de dados que têm o maior potencial para gerar resultados significativos para suas iniciativas generativas de IA. Assim como em qualquer produto, seus dados devem abordar necessidades e pontos problemáticos específicos. Interaja com suas partes interessadas, entenda seus requisitos e crie conjuntos de dados alinhados com seus objetivos. Evite a armadilha de coletar dados sem um objetivo ou consumidor claro em mente.

O caminho à frente

Embarcar em uma jornada generativa de IA é um empreendimento transformador, e uma estratégia de dados bem projetada é a base sobre a qual o sucesso é construído. Ao priorizar a relevância dos dados, criar arquiteturas flexíveis, adotar dados não estruturados, alinhar o gerenciamento de dados com fluxos de trabalho generativos de IA, garantir a qualidade dos dados, fortalecer os controles de segurança e acesso, aproveitar o crowdsourcing e a experiência e investir em talentos de engenharia de dados, você pode liberar todo o potencial dessa tecnologia revolucionária.

Tratar os dados como um produto e uma competência estratégicos exigirá muita liderança executiva, colaboração muiltifuncional e gerenciamento de mudanças organizacionais. Mas, à medida que a IA generativa se torna uma capacidade de negócio central, as organizações que se esforçaram para melhorar seus dados e como os usarão se tornarão líderes, capazes de liberar o poder dessa nova tecnologia empolgante. Sua IA futura pode deslumbrar o mundo, mas serão seus ativos de dados que realmente permitirão que ela brilhe.

Este artigo foi traduzido do Blog da AWS em Inglês.

Sobre o autor

Tom Godden é Enterprise Strategist e Evangelista na Amazon Web Services (AWS). Antes da AWS, Tom foi diretor de informações (CIO) da Foundation Medicine, onde ajudou a criar a principal plataforma mundial de diagnóstico genômico do câncer, pesquisa e resultados de pacientes regulamentada pela FDA para melhorar os resultados e informar a medicina de precisão da próxima geração. Anteriormente, Tom ocupou vários cargos de liderança sênior em tecnologia na Wolters Kluwer em Alphen aan den Rijn, Holanda, e tem mais de 17 anos no setor de saúde e ciências biológicas. Tom é bacharel pela Universidade Estadual do Arizona.

Tradutores

	Caio Monteiro é Principal Customer Solutions Manager na AWS focado no segmento de Enterprise no Brasil.
	Fabio Matheus é Customer Solutions Manager na AWS focado no segmento de Empresas Nativas Digitais.

O blog da AWS