ADM (Augmented Data Management, gerenciamento de dados aumentado) Glue Databrew para tratamento de dados automatizado

Janete Ribeiro, Especialista em Analytics na Amazon Web Services para o setor Público na América Latina e;

Branko Straub, Arquiteto de Soluções na Amazon Web Services para Sector Público no Chile.

“Augumented Data Management” ou “Gerenciamento de Dados Aumentado” em português, é uma poderosa ferramenta caracterizada pela combinação de inteligência artificial (IA) e gerenciamento de dados. O “Gerenciamento de Dados Aumentado” é uma tendência crescente que as organizações adotam para automatizar a maioria dos processos de gerenciamento de dados e liberar um tempo valioso para seus cientistas de dados. O “Gerenciamento de Dados Aumentado”envolve o uso de aprendizado de máquina e inteligência artificial para automatizar tarefas manuais de gerenciamento de dados. O Gartner prevê que, até 2023, o ADM liberará até 20% do tempo das equipes de ciência de dados.

Como seria esta aplicação de algoritimos para otimizar a rotina de gestão de dados? A seguir trazemos alguns exemplos práticos utilizando as ferramentas AWS.

O AWS Glue DataBrew é uma nova ferramenta de preparação visual de dados que facilita a limpeza e a normalização de dados para analistas de dados e cientistas de dados para prepará-los para análise e aprendizado de máquina. Você pode escolher entre mais de 250 transformações pré-criadas para automatizar tarefas de preparação de dados sem escrever nenhum código. Você pode automatizar a filtragem de anomalias, a conversão de dados para formatos padrão, a correção de valores inválidos e outras tarefas.

Vamos apresentar agora um exemplo prático de como criar um conjunto de regras de qualidade de dados no AWS Glue Databrew.

A arquiteura da solução seria a seguinte:

Nesta etapa, vamos nos concentrar no uso do AWS Glue Databrew para automação do processo de validação de regras de qualidade de dados. Nos próximos artigos falaremos sobre a automação dos processos de engenharia de dados em todo ciclo de vida dos dados.

Para executar este teste precisamos serão necessários:

Inscrever-se em uma conta da AWS conforme necessário e crie políticas do AWS Identity and Access Management (IAM) para permitir que os usuários executem o DataBrew;
Você precisa ser um administrador do IAM para criar usuários, funções e políticas do IAM.
Inscrever-se em uma nova conta da AWS e adicionar um usuário IAM. Para obter mais informações, consulte Configuração de uma nova conta da AWS.
Adicionar uma política do IAM para um usuário do console. Um usuário com essas permissões pode acessar o DataBrew no Console de gerenciamento da AWS.
Adicionar permissões para recursos de dados para uma função do IAM. Uma função do IAM com essas permissões pode acessar dados em nome do usuário.
Você vai carregar um conjunto de dados de amostra;
Vai criar as regras de validação dos dados desta amostra e para gravar os dados transformados no Amazon S3.

Iniciando o processo:

Faça login no Console de Gerenciamento AWS e abra o console DataBrew em https://console.aws.amazon.com/databrew/.
Para começar a usar o Glue DataBrew, você precisará primeiro criar um novo conjunto de dados, a fonte de dados pode ser um arquivo qualquer, um bucket do S3, uma tabela do “Glue Catalog Tables” ou uma base do AWS Data Exchange, que fornece acesso a um vasto portfólio de datasets da AWS e de fornecedores terceirizados:
1. Nesse cenário, usaremos dados compostos por interações de eventos de e-mails enviados, usando o serviço Amazon SES, como Rejeições, Reclamações, Entrega e Cliques.
2. Você pode acompanhar criando arquivos JSON e carregando-os no S3 com os registros da amostra que foi fornecida. Em seguida, registre a fonte de dados no Glue Databrew com o local do S3 ou a Tabela Glue associada.
3. Você também pode optar por acompanhar, usando outro conjunto de dados como amostra, de qualquer fonte de dados gratuita fornecida pelo AWS Data Exchange. Por exemplo, o Coronavirus (COVID-19) Data Hub ou o US H-1B Work Visa Applications (2017-2019). Uma vez inscrito nas fontes, você pode replicar os objetos do S3 para seus próprios buckets do S3 em sua conta da AWS.

1. Depois de criar seu conjunto de dados, acesse DQ RULES no painel de navegação e escolha “Create data quality ruleset” (criar conjunto de regras de qualidade de dados).
2. Digite um nome para o conjunto de regras. Você também pode criar uma descrição para o conjunto de regras.

Selecione “Associated dataset”(conjunto de dados associado), escolha um dataset para associar ao conjunto de regras, conforme abaixo:
Depois de selecionar um conjunto de dados, você pode ver o painel de exibição do conjunto de dados à direita.
Use o painel de visualização do conjunto de dados, para explorar os valores e o esquema do conjunto de dados, conforme determinam as regras de qualidade de dados a serem criadas. A visualização pode fornecer informações sobre, problemas que você possa ter com os dados.
Você pode aprender mais sobre o esquema de dados e distribuição de valor usando o comando “Dataset Profile”.
Consulte a guia de “Recommendations tab” (guia de recomendações), que lista algumas sugestões de regras que você pode usar como seu conjunto de regras. Você pode selecionar todas, algumas ou nenhuma das recomendações. Neste exemplo, usando um conjunto de dados de “Amostra de cliques e eventos de entrega para emails SES”, podemos observar que o Glue DataBrew está sugerindo duas regras para verificar linhas duplicadas e valores ausentes nas colunas.

Depois de selecionar as recomendações relevantes, escolha “ Add to ruleset“. Isso adicionará regras ao seu conjunto de regras. Inspecione e modifique os parâmetros, se necessário. Observe que somente colunas de tipos simples, como cadeias de caracteres, números e booleanos, podem ser usadas em regras de qualidade de dados.

Escolha adicionar outra regra para adicionar uma regra não coberta pelas recomendações. Você pode alterar os nomes das regras para facilitar a interpretação posterior dos resultados da validação. Podemos incluir uma regra para detectar valores atípicos e anomalias nas colunas do nosso conjunto de dados comparando os valores individualmente com uma porcentagem de suas linhas.

Use a “ data quality check“ para escolher se colunas individuais serão selecionadas para cada verificação para essa regra ou se elas devem ser aplicadas a um grupo de colunas selecionado. Por exemplo, se o conjunto de dados tiver várias colunas numéricas que devem ter valores entre 0 e 100, você poderá definir a regra e escolher todas as colunas a serem verificadas em relação a essa regra, selecionando-as por seus nomes ou usando uma expressão regular.

Se sua regra tiver mais de uma verificação, no menu ““rule success criteria“, escolha se todas as verificações devem ser atendidas ou quais atendem aos critérios

Agora podemos criar a regra de qualidade de dados. Uma vez criados, seremos redirecionados para um resumo das regras. Escolhemos “Create profile job with ruleset ” para começar a moldar o Conjunto de Dados com as novas regras de qualidade de dados. Podemos executar a criação de perfis de dados em relação a todo o conjunto de dados ou em relação a uma parte das linhas dele.

Podemos definir o bucket do S3 para a saída do trabalho de criação de perfil de dados. Isso pode ser um bucket em sua própria conta da AWS ou em outra conta que tenha as permissões correspondentes do AWS Identity and Access Management (IAM) e as permissões do S3 Bucket. Da mesma forma, podemos habilitar a criptografia da saída do trabalho.

Em “Advanced job settings“, podemos opcionalmente habilitar tentativas, definir o número de nós, especificar o tempo máximo de execução para o trabalho de criação de perfil de dados. Finalmente, em “Associated schedules” podemos definir a frequência de execução para automatizar a criação de perfil de dados de forma programada, eu diria ou personalizada.

Por fim, precisamos fornecer uma função do IAM com as permissões para acessar o bucket do S3 e os serviços relacionados do Glue. Se você não tiver a função do IAM, o Glue DataBrew poderá criá-la para você. Por fim, clique em criar e iniciar o trabalho de criação de perfil.

Após a conclusão do processo de digitalização, podemos visualizar os resultados no Glue DataBrew e em nosso S3 Bucket escolhido para o relatório. Podemos ver que para este exemplo foi constatado que nosso Dataset possui uma alta porcentagem de duplicatas. Portanto, nossa regra de qualidade terá falhado. Finalmente, um processo ETL pode ser realizado com Glue para limpar e corrigir nossos dados.

Conclusão

Como podem ver as regras de qualidade podem ser desde a simples “deduplicação” de registros, quantidade de colunas previstas para um banco de dados, caracteres do campo, dentre tantos outros. Você pode definir as regras mais pertinentes ao seu negócio através do Amazon Glue Databrew. Além de ser uma ferramenta de baixo código, que facilita a utilização por profissionais com pouca experiência em linguagens de programação. Desta forma torna-se possivel ganhar em termos de qualidade e produtividade na governança de dados. Em breve teremos mais dicas sobre como utilizar serviços AWS para otimizar a governança de dados.

Fontes:

Tendências na análise de dados – https://medium.com/nerd-for-tech/8-future-trends-in-data-analytics-16d1262b2845
Introduzindo DataOps na disciplina de gerenciamento de dados – https://www.gartner.com/doc/reprints?id=1-26JBRQMH&ct=210616&st=sg
Gerenciamento de dados aumentado: Além do Hype – https://www2.deloitte.com/nl/nl/pages/enterprise-technology-and-performance/articles/augmented-data-management-beyond-the-hype.html
AWS Glue – Integração de dados simples, escalável e sem servidor: https://aws.amazon.com/pt/glue/?whats-new-cards.sort-by=item.additionalFields.postDateTime&whats-new-cards.sort-order=desc
AWS Sagemaker: https://docs.aws.amazon.com/sagemaker/latest/dg/data-wrangler.html

Sobre os autores

Janete Ribeiro é especialista em Analytics para a América Latina da AWS, possui certificação em governança de dados do MIT, é embaixadora do WiDS (Women In Data Science), vinculado à Universidade de Stanford, professora de pós-graduação em Big Data & Analytics no SENAC, profissional com 30 anos de experiência atuando em grandes empresas de tecnologia e no mercado financeiro, experiência internacional em diversos países da América Latina, Estados Unidos, Canadá e Espanha, autora de livros sobre Pesquisa de Mercado e Inteligência de Mercado.

Branko Straub é arquiteto de soluções da Amazon Web Services para o setor público no Chile. Branko ajudou várias instituições do Setor Público e Privado na adoção da tecnologia em nuvem nos últimos 5 anos, ele executou com sucesso projetos com impacto social aos cidadãos da América Latina.

O blog da AWS

ADM (Augmented Data Management, gerenciamento de dados aumentado) Glue Databrew para tratamento de dados automatizado

Conclusão

Sobre os autores

Aprenda

Recursos

Desenvolvedores

Ajuda