Aprenda
Destaque: a Datagen cria dados sintéticos de alta fidelidade para resolver problemas centrados no ser humano

Destaque: a Datagen cria dados sintéticos de alta fidelidade para resolver problemas centrados no ser humano

Como estava esse conteúdo?

Quando Gil Elbaz e Ofir Zuk fundaram a Datagen em 2018, foi com o objetivo de reinventar o processo interrompido de como os clientes obtêm dados para treinamento em redes de visão computacional. Mais especificamente, eles queriam levar a simulação de dados para todas as equipes de visão computacional de forma contínua e escalável.

Como a performance do modelo de IA depende tanto da qualidade do modelo quanto da qualidade dos dados usados para treiná-lo, é essencial ter uma grande quantidade de dados bons. Muitas vezes é difícil coletar o volume de dados necessário. Os dados do mundo real também tendem a ser problemáticos quando se trata da velocidade de aquisição, precisão, despesas e parcialidade. “Alguém coletará dados [do mundo real] de identidades diferentes (por exemplo, para rostos) e não coletará dados suficientes de certas etnias, idades ou gênero”, explica Shay Navon, gerente sênior de marketing de produtos da Datagen. “E assim você acaba com essa parcialidade.”

Para ajudar as equipes de visão computacional a combater a parcialidade, a Datagen oferece uma maneira única de gerar dados usando algoritmos de computador. Seus dados sintéticos são semelhantes aos dados do mundo real, tanto estatisticamente quanto matematicamente, mas podem ser gerados rapidamente, com menos despesas e estão isentos de erros humanos. Em vez de encarregar um humano de coletar e anotar dados manualmente, uma tarefa trabalhosa que exige tirar uma foto de um rosto e identificar suas características manualmente, os dados sintéticos são gerados em grande escala, com anotações verificadas integradas, como a direção dos olhos, que seriam impossíveis de serem determinadas por um humano. O resultado é uma anotação de dados mais precisa e detalhada sem o desafio da marcação manual.

“Estamos simulando o mundo para levar a IA à produção mais rapidamente”, afirma Karine Regev, vice-presidente de marketing da Datagen. “Colocar a IA em produção é, por si só, um desafio não resolvido para a maioria das empresas, por isso estamos tornando-a mais profissional e mais precisa, resolvendo problemas como privacidade e parcialidade dos dados, que são os maiores obstáculos da IA moderna.”

A Datagen oferece aos clientes uma plataforma de autoatendimento que usa simulações 3D para treinar seus algoritmos. “Para treinar um modelo, você precisa de milhões de imagens diferentes”, observa Regev. “E é exatamente aqui que nós entramos. [Os clientes da Datagen] têm a capacidade de controlar as cenas, a capacidade de controlar o plano de fundo, as diferentes modalidades, os diferentes rótulos necessários, a iluminação, o gênero, a etnia, tudo.”

Datagen Platform, self-service synthetic data generation

Além de gerar dados diversos que parecem reais, escaláveis e têm pixels perfeitos, a Datagen oferece a seus clientes total confidencialidade. “É totalmente compatível com a privacidade, pois os dados contêm zero PII (Informações de Identificação Pessoal)”, afirma Shay Navon sobre os dados sintéticos. “Ninguém pode dizer: 'Este rosto que estamos usando tem um problema de privacidade'. Nossa experiência e dados centrados no ser humano se concentram em vários domínios, desde a detecção de marcas faciais, estimativa do olhar e análise de expressão até poses do corpo humano completo, partes do corpo como olhos, mãos etc.”

Em um futuro muito próximo, prevemos que será mais comum treinar modelos com dados sintéticos do que coletá-los de fontes do mundo real. Dessa forma, a Datagen vem crescendo rapidamente, expandindo de cerca de 40 funcionários para quase 100 nos últimos nove meses. “Estamos trabalhando com algumas das maiores empresas de tecnologia do mundo em diferentes setores”, ressalta Regev. “Resolvendo diferentes casos de uso, desde AR/VR/Metaverso até monitoramento de motoristas para automóveis na cabine, segurança doméstica e escritórios inteligentes.”

Para atender a essa nova demanda, a Datagen decidiu mudar para a arquitetura em nuvem. A prioridade deles era escalar usando os modelos de GPU mais recentes. Depois de uma análise aprofundada dos provedores de nuvem, eles recorreram à AWS, determinados a desenvolver seu sistema com base no Kubernetes. A Datagen projetou um sistema de software de agendamento personalizado chamado Agni que se integra ao Elastic Kubernetes Service (Amazon EKS) e usa o ajuste de escala automático do Kubernetes e os grupos do AWS Auto Scaling.

A Agni — e toda a plataforma de geração de dados da Datagen — agora depende de instâncias spot de CPU e GPU, o que a ajudou a reduzir custos e criar um sistema mais eficiente.Isso também permite que eles mantenham um sistema relativamente pequeno que pode crescer dinamicamente para centenas de milhares de trabalhos simultâneos e diminuir sob demanda, resultando em uma plataforma de autoatendimento hospedada pela AWS.

No futuro, a equipe da Datagen prevê que a necessidade de dados sintéticos continuará aumentando. Regev conta que “Estamos vendo muita demanda, tanto na tração quanto nas perspectivas, na necessidade de liderança inovadora, na necessidade de tecnologia e de uma solução como a nossa que possa realmente liderar a conversa quando se trata de dados sintéticos”.

AWS Editorial Team

A equipe de Marketing de Conteúdo da AWS Startups colabora com startups de todos os tamanhos e setores para oferecer excepcional conteúdo educativo, divertido e inspirador.

Como estava esse conteúdo?