O blog da AWS
Jornada para nuvem e migração de dados – Oportunidades e desafios
Por Ricardo Murer – CSM Education, AWS Public Sector;
Janete Ribeiro – Analytics Specialist, AWS LATAM-OS – e;
João Rocha – Data Migration LatAm.
Introdução
Um dos fatores mais significativos para migração de serviços digitais e infraestrutura tecnológica para nuvem é a redução de custos. Segundo o IDC, uma organização pode atingir até 50% de redução em seus custos operacionais em 5 anos e até 25% de redução no custo de infraestrutura, após a migração para nuvem (Greden, L. & Marden, M. 2022). Além disso, o trabalho proativo da AWS pós migração, pode resultar em novas otimizações de infraestrutura, o que normalmente gera reduções no custo mensal dos serviços. Mas, há um capítulo especial relacionado a migração, quando falamos em dados analíticos e Big data, onde as organizações podem explorar o momento da migração para criar e implantar uma estratégia e cultura de dados corporativa, capaz de alavancar novos negócios e alterar de forma profunda o dia a dia de suas operações e como seus times trabalham e trocam informações entre si. Este artigo tem por objetivo mostrar que, em certos cenários, uma migração de dados pode ser o primeiro passo para criação de uma organização data-driven, pavimentando o caminho para iniciativas de negócios inovadoras baseadas em Big data, data lakes e machine learning.
Inovação radical ou incremental
Migrações em geral, representam inovações incrementais, pois vão adicionar escalabilidade e elasticidade as infraestruturas anteriormente armazenadas em data centers. Além disso, considerando monitoramento, caso a migração envolva uma base de dados para o serviço gerenciado Amazon RDS, é possível verificar diretamente no console do banco de dados, por exemplo: o número de conexões, a quantidade de operações de leitura, a quantidade de memória e CPU que está sendo usada para uma instância do banco de dados e outras métricas relevantes. Além disso, o Amazon RDS envia automaticamente a cada minuto, métricas ao Amazon CloudWatch para cada banco de dados ativo.
Bancos de dados personalizados
Por muito tempo todas as demandas de banco de dados eram supridas com Banco de Dados Relacional, as pessoas nem se quer questionavam se poderiam usar outro tipo de banco de dados. Dentre os principais problemas estavam o provisionamento sobressalente o que causava baixo interesse de otimizar o banco de dados, já que o hardware e software estavam programados para essa capacidade adicional. O problema é que essa solução se mostrou muito onerosa para os clientes com renovações de cifras vultuosas. Sem contar o esforço de manter o banco de dados on premisse com aplicações de patch, instalação de sistema operacional, hardware, patch de banco de dados, escalonamento backup e otimização de aplicações. O serviço de RDS ou Amazon Aurora permitem que nossos clientes possam focar no que é mais importante, o negócio. Todas as outras tarefas são gerenciadas pela AWS.
Big data, migração e serviços inovadores AWS
O que fez surgir o Big data foi de um lado a explosão dos dados gerados pelo usuário, a partir do uso de ferramentas Web 2.0, mais conhecidas como mídias sociais. De outro, a introdução de novos dispositivos de captura de dados, tais como smatphones. O conceito de Big data surgiu nos anos 2000, quando um analista do setor de tecnologia, Doug Laney (Laney, 2001) articulou a definição de Big data a partir de 3 Vs: 1. Volume: Evidenciado pelos fatos do quotidiano: diariamente, o volume de troca de e-mails, transações bancárias, interações em redes sociais, dispositivos IoT; 2. Variedade: Os dados são gerados em todos os tipos de formatos – de dados estruturados, dados numéricos em bancos de dados tradicionais, até documentos de texto não estruturados, e-mail, vídeo, áudio, etc., entre outras fontes.; 3. Velocidade: Os dados fluem em uma velocidade sem precedentes e devem ser tratados em tempo hábil. Tags de RFID, sensores, e outros dispositivos de coleta de informações em tempo real. Além destes 3 Vs, outros foram adicionados, mas vamos focar nestes três para efeito de simplificação. Considerando o processo de migração de dados, quando temos o desafio de Big data, é possível explorar serviços e ferramentas inovadoras da AWS, como por exemplo o Amazon EMR, o qual é uma solução de Big data em nuvem para processamento de dados em escala de petabytes, análise interativa e machine learning usando estruturas de código aberto, tais como Apache Spark, Apache Hive e Presto. Além disso, recentemente a AWS lançou o Amazon EMR Serverless, o qual permite executar estruturas de Big data, como Apache Spark e Apache Hive, sem configurar, gerenciar e dimensionar clusters. Para o desafio de integração de dados, a AWS possui o serviço AWS Glue, um serviço de ETL (Extract, Transform, Load) sem servidor (Serverless) e com recursos visuais ou baseados em código. Considerando o cotidiano das equipes de análise de dados, outras duas ferramentas ainda são muito úteis: O AWS Glue Studio, para criar, executar e monitorar visualmente fluxos de trabalho de ETL e o AWS Glue DataBrew, para enriquecer visualmente, limpar e normalizar dados sem escrever código.
Data lakes e machine learning
Um data lake é um repositório centralizado que permite armazenar todos os seus dados estruturados e não estruturados em qualquer escala. Migrações de dados podem ser consideradas uma inovação incremental se os dados migrados venham a fazer parte de, por exemplo, data lakes já existentes na nuvem, ampliando as possibilidades para hipóteses de casos de uso de machine learning. Além disso, pode-se aproveitar da migração para consolidação de estruturas de dados dispersas, mais conhecidas como silos de informação, tradicionalmente sob gestão de diferentes áreas, que não conversam entre si. O ganho de sinergia e produtividade será quase que imediato após a migração. Segundo Chavez (Chavez et all, 2018) “A nova infraestrutura baseada em dados nos dá a habilidade de capturar e compreender o sentido de dados em minutos ou segundos, em volumes e velocidades que eram simplesmente inimagináveis a uma década atrás”. Data lakes são iniciativas completamente conectadas com o conceito de uma organização data-driven. De fato, marcam o estágio onde a organização, já tendo percebido e compreendido a importância de dados para seus negócios, começa a explorar novas formas de conhecer seus clientes, organizar suas equipes, operações e parceiros de negócios sempre orientando suas decisões baseadas em dados.
Data Insights na Educação
No livro “Data-Driven Leaders Always Win” (Líderes orientados à dados sempre ganham), o autor, Dr. Kirk Borne afirma: “…Ser orientado a dados é, antes de mais nada, ter como meta nas decisões corporativas, a objetividade e estar sempre baseado em evidências.” Estudo da UNESCO apresentado em março de 2021 apontava que quase metade dos estudantes do mundo, eram afetados pelo fechamento parcial ou total das escolas. Também apontava que mais de 100 milhões de crianças adicionais cairiam abaixo do nível mínimo de proficiência em leitura como resultado dessa crise de saúde. Como poderiam os líderes da área de educação, tornarem-se “orientados à dados, e decidir com objetividade e assertividade em um ambiente tão imprevisível? Aliando metodologias de inovação contínua a estruturação de plataformas escaláveis, seguras e de alta performance como os ambientes de nuvem, viabilizamos o armazenamento centralizado (Data-Lakes) de grandes volumes de dados (Big data). Esta infraestrutura permitirá o desenvolvimento e utilização de algoritmos estatísticos de aprendizagem de máquina (machine learning) que fazem a correlação de diferentes variáveis dentro das diversas fontes de dados, sejam elas estruturadas (bancos de dados relacionais) ou não-estruturadas (feeds de redes sociais, audio, video) em tempo próximo ao real. O resultado destas análises é que denominamos os “insights” ou “evidências” que permitirão a tomada de decisão assertiva.
No setor de educação, tais algoritmos podem proporcionar não apenas aos gestores das instituições a possibilidade de administrar recursos humanos e financeiros de forma preventiva, antecipando-se a possíveis riscos ou oportunidades, bem como professores poderão avaliar seus alunos de uma forma mais ampla, considerando a aprendizagem dentro e fora do ambiente escolar. Uma ONG americana “Solar Society for Learning Research“, identificou a seguinte demanda do setor de educação: “Em geral, os líderes institucionais estão particularmente preocupados com o desempenho institucional, que é comumente definido por métricas que incluem o desempenho do aprendizado do aluno, a excelência do ensino, a satisfação do aluno e a retenção do aluno. Por exemplo, um líder institucional nos disse: – Queremos nos concentrar na experiência do aluno e queremos melhorar os resultados do aluno… Se pudermos identificar e sinalizar os alunos que estão com dificuldades em seus estudos o mais cedo possível, pode ser o caso de mantê-los, retê-los, mas também podemos fornecer a eles um suporte melhor. – (Líder Institucional). Com dados quase em tempo real sobre o envolvimento da aprendizagem (por exemplo, dados de rastreamento e interações sociais) e outras atividades relacionadas à medição dos principais indicadores de desempenho, os gerentes poderão tomar decisões mais bem informadas para melhorar o ambiente educacional geral, como cronograma, alocação de recursos e estruturação do programa.”
Através do serviço Amazon SageMaker é possível criar, treinar e implantar algoritmos de machine learning (ML) para qualquer caso de uso com infraestrutura, ferramentas e fluxos de trabalho totalmente gerenciados. O Amazon SageMaker possui o recurso Autopilot, que oferece controle e visibilidade completos dos seus modelos de ML. Aliando a estratégia de migração e unificação de dados em um “Data lake” e utilizando recursos de “Machine Learning”, torna-se possivel a solução dos desafios complexos no setor de Educação.
Referências
Al-Khatib, A.W. and Al-ghanem, E.M. (2022), “Radical innovation, incremental innovation, and competitive advantage, the moderating role of technological intensity: evidence from the manufacturing sector in Jordan”, European Business Review, Vol. 34 No. 3, pp. 344-369.
Chavez, T., O’Hara C. and Vaidya V. (2018) Data Driven: Harnessing Data and AI to Reinvent Customer Engagement. McGraw Hill Professional.
Greden, L. & Marden, M. The Business Value of Amazon Web Services. IDC Research. June, 2022. https://pages.awscloud.com/rs/112-TZM-766/images/IDC-Whitepaper-The-Business-Value-of-AWS-Global.pdf
Kelley, B. (2010). Stoking Your Innovation Bonfire: A Roadmap to a Sustainable Culture of Ingenuity and Purpose. John Wiley & Sons, Inc.
Laney, D. (2001). 3D data management: Controlling data volume, velocity, and variety. Technical report, META Group.
Martin, R. L. et al., (2013). On Innovation. Harvard Business Review Press.
Orban, S. (2016, Nov 16). 6 Strategies for Migrating Applications to the Cloud
AWS Cloud Enterprise Strategy Blog.
https://aws.amazon.com/blogs/enterprise-strategy/6-strategies-for-migrating-applications-to-the-cloud/
Schwartz, M. (The data-driven enterprise By Mark, Enterprise Strategist, AWS. URL: https://d1.awsstatic.com/executive-insights/en_US/ebook-the-data-driven-enterprise.pdf
Site UNESCO, Agosto, 2021 — https://pt.unesco.org/covid19/educationresponse
Site Solar Research — https://www.solaresearch.org/2021/03/learning-analytics-3-challenges-and-opportunities/
Sobre os autores
Janete Ribeiro “Janete Ribeiro é graduada e mestre em Adm. Empresas. Possui mais de 30 anos de experiência na área tecnologia. Atualmente é especialista de Analytics para América Latina na AWS e professora universitária. Possui especialização em Governança de Dados pelo MIT.
Ricardo Murer é graduado em Ciência da Computação e mestre em Comunicação. Possui mais de 25 anos de experiência na área de tecnologia e transformação digital, tendo realizado projetos inovadores nas áreas de IPTV, plataformas móveis, Amazon Alexa e Machine Learning. Atualmente é CSM na AWS para área de Educação com foco em projetos de migração e inovação digital.
João Rocha é graduado em Sistemas de Informação Geográfica, com pós-graduação em Tecnologia em Engenharia Ambiental e Desastres Naturais, MBA pela FGV e Universidade da Califórnia Irvine e atualmente cursa mestrado em Ciências e Sistemas de Informação Geográfica (Banco de Dados PostgreSQL/PostGIS) na Universidade Nova IMS de Lisboa. Possui mais de 25 anos de experiência na área de tecnologia. Atualmente é responsável por Migração de Dados (Banco de Dados, AI/ML, IoT e Data lake na América Latina para a AWS