O blog da AWS
Usando análise de dados para transformação social da educação pública brasileira
Por Amanda Quinto, Arquiteta de Soluções para o Setor Público na AWS,
Cleber Gomes, Arquiteto de Soluções para o Setor Público na AWS,
Felipe Costa, Gerente de dados e tecnologia da Nova Escola,
Mariene Maciel, Analista de Dados da Associação Nova Escola e
Vanessa Silver, Engenheira de Dados da Associação Nova Escola.
Sobre a Associação Nova Escola
Com 35 anos de atuação no mercado de educação brasileiro, a Nova Escola é um negócio social de educação e a marca mais reconhecida por professores de educação básica no Brasil, produzindo conteúdos que valoriza e apoia os educadores. Atualmente a Nova Escola possuí mais de 3.5 milhões de usuários cadastrados na plataforma, mais de 6 mil planos de aula publicados e conta com mais de 3.5 mil educadores formados.
Overview
Desde que iniciou suas publicações em formato digital através de seu site, a Nova Escola tem feito a coleta de dados de navegação e comportamento de usuários através de ferramentas open source. A geração diária de uma massa de dados de aproximadamente 2 GB era importante para o conhecmento do perfil dos usuários mas não era suficiente para suportar a tomada de decisão dos times de produtos. Eles buscavam informações que os ajudassem na definição de novos produtos digitais que impactariam positivamente os educadores.
Desafio
Os três desafios principais do projeto eram:
- Criar uma estrutura de analytics que pudesse apoiar a Nova Escola em sua transformação digital e que suportasse as tomadas de decisão embasada em dados do time de produtos;
- Centralizar inúmeras fontes de dados que não tinha relação e podiam causar eventuais problemas de “misleading” nas análises;
- Gerenciar o grande volume de dados transacionais, de dados em tempo real e ter um ambiente analítico para guardar dados históricos.
Arquitetura
Solução
A solução criada pela Nova Escola com apoio do parceiro Solvimm, utiliza serviços como Amazon S3, AWS Step Functions, AWS Athena e AWS Glue. Neste blog, analisamos a solução em três partes: a primeira é, sobre a ingestão dos dados; a segunda, sobre o processamento, armazenamento e consumo dos dados, e por fim,o armazenamento e visualização dos logs gerados por todo o fluxo.
Etapa 1 – Ingestão
A ingestão é quebrada em 3 partes:
- A ingestão de dados dos bancos relacionais e APIs é feita através de uma função AWS Lambda que faz a captura dos dados e armazena-os no Amazon S3;
- A ingestão dos dados em tempo real é feita com Amazon Kinesis Data Firehose, que também armazena os registros no Amazon S3;
- E por fim a API Singular, que envia os dados direto ao S3. Todos estes dados compõem a primeira camada do Data lake, com dados brutos.
Etapa 2 – Processamento
Sobre a primeira camada do Data Lake, inicia-se o processamento orquestrado pelo AWS Step Functions, onde funções AWS Lambda são encadeadas para efetuar processos tanto de ETL e regras de negócios nos dados. Os resultados são armazenados na área de Dados Processados do Data Lake, criando um Data Warehouse.
O AWS Glue crawler efetua o crawling dos dados, gerando uma estrutura de Data Catalog, estrutura onde o AWS Athena consegue se basear para efetuar queries SQL destes dados no Amazon S3, e por fim dashboards são criados utilizando o Amazon Quicksight para data visualization.
Etapa 3 – Logs e Linhagem
A ultima etapa da solução é o Data Lake de logs e armazenamento da linhagem do dado, que consiste no histórico dos resultados dos fluxos de processamento dos dados relatados na etapa 1 e 2.
Todas as funções AWS Lambda das etapas 1 e 2 geram logs que são inseridos em tempo real no DynamoDB. Efetua-se o trigger de outra função AWS Lambda através do Amazon DynamoDB Streams que para entregar os logs ao AWS Kinesis Firehose que armazena todas as mensagens em formato de texto no S3. O AWS Glue Crawler gera um catálogo de dados, base para que o Amazon Athena gere queries SQL e para que Amazon Quicksight gere dashboards do ambiente.
Resultados
Nas palavras de Felipe Costa, Gerente de dados e Tecnologia: “Utilizando os recursos AWS podemos centralizar diversas fontes de dados em um único lugar, o que gerou um grande salto de produtividade para a área de Data Product e os Squads da Nova Escola. Isto viabilizou a unificação dos principais dashboards e indicadores através do Amazon QuickSight, ferramenta com conexão nativa a tecnologia adotada.
Com os dados centralizados e organizados de maneira mais acessível, iniciamos um processo de disseminação da cultura de dados para toda organização, levando para todos os times interessados Formação de Dados, Ferramentas e Acessos.
Garantindo o controle de toda pipeline de dados, conseguimos mitigar diversos erros de coleta e tratamento de dados e alcançar uma alta confiabilidade nos dados, o que nos permitiu fazer análises descritivas e diagnósticas, respondendo perguntas sobre o que aconteceu e por que que aconteceu no negócio da Nova Escola. ”
Conclusão e Próximos passos
Com o datalake consolidado e a cultura de dados inserida na Nova Escola, os próximos passos são: Cruzar os dados qualitativos (pesquisas com o público) e quantitativos (comportamento dos usuários nos produtos) e iniciar testes de modelos de recomendação com base em histórico dos usuarios e perfil de comportamento.
Outro objetivo futuro é executar análises avançadas que possibilitem entender o que pode acontecer (análises preditivas), e como fazer acontecer (análises prescritivas) utilizando dos dados históricos coletados.
Sobre os autores
Amanda Quinto é Arquiteta de Soluções da AWS no time de Public Sector com foco em Nonprofits Organization. Amanda já atuou em diversos projetos ajudando os times de desenvolvimento e sustentação em arquitetar sistemas resilientes e escaláveis. Formada pela FATEC-SP, é entusiasta de containers, devops, machine learning.
Cleber Gomes é Arquiteto de Soluções da AWS no time de Public Sector com foco em Nonprofits Organization. Em 9 anos de Itaú, atuou em projetos de migração de datacenter, construção de cloud privada e foi líder técnico de open source. Formado em Ciência da Computação pela UFMT, é entusiasta de open source, infraestrutura e redes.
Felipe Costa é Gerente de Dados e Tecnologia da Associação Nova Escola, tem o papel de garantir a disseminação de uma cultura de dados, tecnologia e produto na organização. Formado em Produção Multimídia pelo Centro Universitário SENAC e com MBA em engenharia de Software, já atuou em diversos segmentos de mercado e sonha com que todos possam ter acesso a uma Educação de qualidade.
Mariene Maciel é Analista de Dados na Associação Nova Escola no time de Data Product. Atua em análises de negócio e produto, interagindo e apoiando diversos projetos e áreas, fomentando o fortalecimento da cultura data-driven. Graduada pelo SENAC-SP e pós-graduanda em Business Intelligence e Analytics, brinca que tem como missão “transformar números em amor”, tornando nossos dados um recurso acessível para todas as pessoas.
Vanessa Silver é Engenharia de Dados na Associação Nova Escola no time de Data Product, sendo responsável por toda infraestrutura e pipeline de dados da empresa, além de projetos de Ciência de Dados. Vanessa já atuou em diversos projetos de BI, com construções de Data Lake e Data Warehouse, dashboards e modelos de Machine Learning. Formada pela UNITAU, é apaixonada por tecnologia e acredita que com dados podemos transformar o mundo em um lugar melhor.