O blog da AWS

Aplicando analytics para geração de insights utilizando dados do Exame Nacional do Ensino Médio.

Conteúdo Publicado por: Sergio Zaccarelli – Arquiteto de Soluções na AWS Brasil no Time de Setor Público

Com o objetivo de disseminar informação e possibilitar que os cidadãos possam ter acesso a informações sobre educação, diversas instituições passaram a disponibilizar dados de forma a democratizar seu consumo. Além disso, existem benefícios e melhorias de interesse público que pessoas e entidades públicas ou privadas podem alcançar com o acesso aos dados.

A Educação possui papel primordial no desenvolvimento social e econômico dos cidadãos, e portanto é de extrema importância serem avaliados os aspectos que ajudem a identificar como estamos evoluindo neste tema, buscando oportunidades de avançarmos cada vez mais.

Neste contexto, o Exame Nacional do Ensino Médio (ENEM), instituído pelo Ministério da Educação (MEC) brasileiro, ganhou uma grande importância na vida dos brasileiros. O exame tornou-se umas das principais portas de entrada ao ensino superior no Brasil. Analisar e avaliar os dados de resultados dos alunos nos exames, identificando padrões, tendências e oportunidades, se apresenta como uma tarefa importante, porém desafiadora.

O ENEM é organizado e gerenciado pelo Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira (INEP), que disponibiliza seus resultados sob a forma de microdados em seu portal . Tais microdados do Inep representam o nível mais granular dos dados, permitindo uma quebra detalhada e oportunidades de exploração. Aqui neste texto será descrito passo-a-passo a execução destas atividades com o apoio dos serviços de ingestão, transformação, exploração e análise de dados da AWS.

Este blog post mostrará como é possível de uma maneira rápida e fácil carregar e explorar dezenas de milhões de linhas de dados públicos utilizando os serviços gerenciados de Data Analytics da AWS, acelerando o tempo de consumo dos dados, sua exploração e a geração de insights.

A análise de dados como fator de transformação na educação

Mas quais os principais benefícios da análise de dados no âmbito da área educacional? Em resumo, através da análise de indicadores, exploração de dimensões e descoberta de tendências, é possível habilitar os tomadores de decisão (governantes, executivos, coordenadores e demais) com insumos que os permitam tomar as decisões corretas e mais ágeis na busca da melhoria contínua da progressão nos estudos da população.

Porém, mesmo com todos esses benefícios, muitas vezes as análises não tem a devida profundidade e nem mesmo a prioridade frente à sua importância. Muitas vezes nesses casos os motivos são que os dados a serem utilizados são complexos ou volumosos demais para serem trabalhados em uma infraestrutura tradicional, onde podem não existir servidores com as funções, performance e capacidades demandadas para estas operações.

Abaixo ressaltamos alguns dos principais benefícios ao implementarmos arquiteturas de dados na nuvem AWS:

Agilidade

•Tempo de implementação reduzido, permitindo rápida resposta a demandas
•Interface self-service que permite provisionamento automatizado de infraestrutura
•Experimentação de novas configurações e ferramentas para teste com rapidez

Elasticidade

•Atendimento a necessidades de negócio flexíveis via escalabilidade sem limites
•Desligamento e reativação ágil de recursos a baixo custo

Segurança

•Facilidade de manutenção e gerenciamento de políticas de acesso
•Melhor performance em termos de durabilidade e resiliência
•Altos padrões de segurança garantidos por certificações de mercado

Otimização de Custos

•Utilização otimizada de ativos em ambientes de custo escalável
•Automatização de processos garantindo um uso mais otimizado de recursos
•Transparência nos custos que permite melhor planejamento e gestão do consumo

Neste contexto, a nuvem AWS pode atender de maneira rápida e ágil as necessidades de processamento, armazenamento e outras funcionalidades que se buscam para executar os processos e explorações, visto que você tem de maneira rápida, simples e com o custo controlado o acesso a capacidades de armazenamento de processamento que seriam dificultosas num ambiente local.

Além disso, a incorporação a poucos cliques de distância de capacidades de ingestão, transformação, enriquecimento e análise de dados sem necessidade de aquisição de ferramentas adicionais é acelerador e viabilizador de capacidades que permite então uma rápida entrega de resultados. Vamos mostrar então como podemos nos beneficiar dessas capacidades para trabalharmos com dados da educação de alto volume.

Como funcionará a arquitetura?

O diagrama abaixo apresenta a arquitetura de integração e exploração/análise dos dados:

 

Utilizaremos um bucket do Amazon S3 para o armazenamento dos dados raw (cópia da origem). As organizações usam o Amazon S3 para seu repositório de dados analíticos por ser um armazenamento de objetos altamente durável e econômico que oferece suporte a formatos abertos de dados, ao mesmo tempo em que separa funções de armazenamento do processamento computacional, otimizando então consumo de recursos. Ele também funciona com diversos serviços de análise da própria AWS e com as principais ferramentas e soluções de mercado.

Em seguida, identificaremos e registraremos os metadados (dados sobre os dados, como sua origem, por exemplo) através de um crawler do AWS Glue. Com a execução do crawler o registro dos metadados é feito automaticamente no AWS Glue Data Catalog. Todo o processo de ingestão, transformação e registro será executado num notebook do Amazon Sagemaker. Desta forma, os dados estarão disponíveis para consumo no Amazon Athena. Próximo passo, criaremos um processo para unificar as múltiplas origens, padronizaremos algumas classificações de dados e nomes de colunas, e criaremos uma tabela consolidada. Esta tabela também estará disponível para consumo com consultas padrão SQL via Amazon Athena.

Seguindo, os dados serão carregados no Amazon Quicksight para análise, e por fim será criado e publicado um Dashboard para exploração dos dados do exame. Seguem os exemplos de telas de análise geradas:

Imagem 1

Imagem 2

 

Os dados disponíveis para consumo via Amazon Athena também poderão ser utilizados em novas oportunidades de Analytics, o que demonstraremos em uma publicação futura.

Para executar os procedimentos que possibilitam automatizar e disponibilizar de forma rápida e de baixo custo o acesso a milhões de resultados do ENEM na sua conta da AWS, nós disponibilizamos  um ebook abordando os passos necessários e você também pode acessar em nosso repositório no github com todos os scripts e procedimentos.

Conclusão e próximos passos

Neste blog post mostramos como desenvolver um processo de carga de dados abertos da educação, os deixando disponível em um dashboard que permite acompanhar a evolução de inscritos, taxa de abstenção e das notas das diferentes áreas do ENEM, bem como explorar médias das notas por região e UF, ano por ano. Na visão Brasil ou por UF, é possível ver a estratificação de inscritos por sexo e faixa etária, assim como a distribuição das notas.

Vislumbrando próximos passos, as possibilidades são diversas, dentre enriquecimento dos dados (agregando geolocalização e informações demográficas das localidades, por exemplo), passando por novas visualizações e ações de navegação e exploração, além de utilizar microdados de respostas dos questionários socioeconômicos para criação de modelos de machine learning.

Ter a capacidade de munir de forma acessível e segura com relatórios e informações confiáveis transforma a maneira como gestores da educação podem tomar decisões. Mais do que nunca, estes atores necessitam de capacidade de resposta para atender com eficácia seus alunos e demais clientes.


Sobre o autor 

Sergio Zaccarelli – Arquiteto de Soluções na AWS Brasil no Time de Setor Público

Sergio Zaccarelli é Engenheiro de Computação com mais 20 anos de experiência, é arquiteto de soluções do time de Setor Público no Brasil com foco em clientes da área de Educação. Trabalha apoiando os clientes para serem bem sucedidos em sua jornada para a nuvem, atuando em projetos estruturantes e inovadores com empresas de todos os tamanhos.