Arquitetura de dados moderna na AWS
Arquitetura de dados moderna: como tudo funciona
Uma arquitetura de dados moderna reconhece a ideia de que adotar uma abordagem única para análises acaba resultando em situações difíceis. Não se trata simplesmente de integrar um data lake com um data warehouse, mas sim de integrar um data lake, um data warehouse e datastores desenvolvidos para fins específicos, possibilitando uma governança unificada e a fácil movimentação dos dados. Com uma arquitetura de dados moderna na AWS, os clientes podem rapidamente criar data lakes escaláveis, usar uma coleção abrangente de serviços de dados criados para fins específicos, garantir a conformidade por meio de acesso, segurança e governança unificados a dados, escalar seus sistemas a um baixo custo sem comprometer a performance e compartilhar dados facilmente entre os limites organizacionais, permitindo que eles tomem decisões com velocidade e agilidade em escala.

Por que você precisa de uma arquitetura de dados moderna
Os volumes de dados estão aumentando a uma taxa sem precedentes, explodindo de terabytes para petabytes e, às vezes, até exabytes. As abordagens tradicionais de análises de dados on-premises não dão conta desses volumes de dados, pois são muito caras e não são suficientemente bem escaladas. Muitas empresas estão extraindo seus dados de vários silos e agregando todos esses dados em um único local, o que muitos chamam de data lake, para usá-los diretamente com análises e ML. Em outras ocasiões, essas mesmas empresas estão armazenando outros dados em datastores desenvolvidos para fins específicos, com o objetivo de analisar e obter insights rápidos de dados estruturados e não estruturados. Essa movimentação de dados pode ser “de dentro para fora”, “de fora para dentro”, “em torno do perímetro” ou “compartilhada”, pois os dados têm uma determinada gravidade.
-
De dentro para fora
-
De fora para dentro
-
Em torno do perímetro
-
Compartilhada
-
Gravidade dos dados
-
De dentro para fora
-
Movimentação de dados de dentro para fora
Os clientes armazenam dados em um data lake e, em seguida, transferem uma parte desses dados a um datastore desenvolvido para fins específicos com o objetivo de realizar trabalhos adicionais com machine learning ou análises.
Exemplo: dados de sequência de cliques de aplicações Web podem ser coletados diretamente em um data lake, e uma parte desses dados pode ser movida a um data warehouse para relatórios diários. Pensamos nesse conceito como uma movimentação de dados de dentro para fora.
-
De fora para dentro
-
Movimentação de dados de fora para dentro
Os clientes armazenam dados em datastores desenvolvidos para fins específicos, como um data warehouse ou um banco de dados, e transferem esses dados a um data lake para executar análises neles.
Exemplo: eles copiam os resultados de consultas para vendas de produtos em uma determinada região do data warehouse para o data lake com o objetivo de executar algoritmos de recomendação de produtos em um conjunto de dados maior usando ML.
-
Em torno do perímetro
-
Movimentação de dados em torno do perímetro
Integre perfeitamente seu data lake, data warehouse e datastores desenvolvidos para fins específicos.
Exemplo: eles podem copiar os dados de um catálogo de produtos armazenados em seus bancos de dados para o serviço de pesquisa a fim de facilitar a consulta desse catálogo e o descarregamento das consultas de pesquisa do banco de dados.
-
Compartilhada
-
Movimentação de dados compartilhada
Os clientes estão usando uma arquitetura de dados moderna para facilitar a governança e o compartilhamento de dados entre os limites lógicos ou físicos da governança para criar domínios de dados compatíveis com as linhas de negócios
-
Gravidade dos dados
-
Gravidade dos dados
À medida que os dados nesses data lakes e datastores desenvolvidos para fins específicos continuam a crescer, fica cada vez mais difícil mover todos esses dados, pois eles têm uma determinada gravidade. É igualmente importante garantir que os dados possam chegar facilmente onde quer que forem necessários, com os controles certos, para possibilitar análises e insights.
Pilares da arquitetura de dados moderna
As organizações estão extraindo seus dados de vários silos e agregando todos esses dados em um único local para usá-los diretamente com análises e machine learning. Para obter o máximo de valor desses dados, elas precisam tirar proveito de uma arquitetura de dados moderna que lhes permita mover dados entre data lakes e datastores desenvolvidos para fins específicos. Essa forma moderna de arquitetura requer:
-
Data lakes escaláveis
Dezenas de milhares de clientes executam seus data lakes na AWS.
Hoje em dia, a configuração e o gerenciamento de data lakes hoje envolve muitas tarefas manuais e demoradas. O AWS Lake Formation automatiza essas tarefas para que você possa criar e proteger seu data lake em poucos dias, em vez de meses. Para o armazenamento de data lake, o Amazon S3 é o melhor lugar para criar um data lake, pois fornece números insuperáveis de 99,999999999% de durabilidade e 99,99% de disponibilidade, os melhores recursos de segurança, compatibilidade e auditoria com registro em log de auditoria em nível de objeto e controle de acesso, a maior flexibilidade com cinco níveis de armazenamento e o menor custo, com preços que começam em menos USD 1 por TB por mês.
-
Serviços de análise desenvolvidos para fins específicos
A AWS oferece o portfólio mais amplo e completo de serviços de análise desenvolvidos para fins específicos e otimizados para seus casos de uso exclusivos de análises.
Esses serviços foram todos projetados para serem os melhores da categoria, o que significa que você nunca precisará comprometer a performance, a escala ou o custo ao usá-los. Por exemplo, o Amazon Redshift é três vezes mais rápido e pelo menos 50% mais barato que outros data warehouses na nuvem. O Spark no Amazon EMR é executado 1,7 vezes mais rápido do que o Apache Spark 3.0 padrão, e você pode executar análises em escala de petabytes a menos da metade do custo das soluções on-premises tradicionais.
-
Acesso unificado aos dados
À medida que os dados nos seus data lakes e datastores desenvolvidos para fins específicos continuam a crescer, muitas vezes você precisa ser capaz de mover facilmente uma parte desses dados de um datastore para outro.
A AWS facilita a combinação, a movimentação e a replicação de dados entre vários datastores e seu data lake. Por exemplo, o AWS Glue fornece recursos abrangentes de integração de dados que facilitam a descoberta, a preparação e a combinação de dados para análises, machine learning e desenvolvimento de aplicações, enquanto o Amazon Redshift pode facilmente consultar dados no seu data lake do S3. Nenhum outro provedor de análises facilita tanto a movimentação dos seus dados em alta escala para o local onde você mais precisa deles.
-
Governança unificada
Uma das partes mais importantes de uma arquitetura de análise moderna é a capacidade dos clientes de autorizar, gerenciar e auditar o acesso aos dados.
Isso pode ser um desafio, pois o gerenciamento da segurança, do controle de acesso e das trilhas de auditoria em todos os datastores da sua organização é complexo, demorado e propenso a erros. A AWS oferece a você o recurso de governança para gerenciar o acesso a todos os seus dados em seu data lake e datastores de propósito específico em um único local. O AWS Lake Formation permite definir e gerenciar centralmente políticas de segurança, governança e auditoria, resultando em controle de acesso uniforme para compartilhamento de dados em toda a empresa.
-
Alta performance e bom custo-benefício
A AWS está comprometida em fornecer a melhor performance com o menor custo em todos os serviços de análises e está inovando continuamente para melhorar a performance de preço dos serviços.
Além da melhor performance de preço do setor para serviços de análises, o S3 Intelligent Tiering economiza para os clientes até 70% em custos de armazenamento para dados armazenados no data lake, enquanto o Amazon EC2 fornece acesso a uma opção líder do setor de mais de 200 tipos de instância, até 100 Gbps de largura de banda de rede, e a capacidade de escolher entre instâncias sob demanda, reservadas e Spot.
Mais clientes estão utilizando arquiteturas de dados modernas na AWS do que em qualquer outro lugar
-
BMW Group
-
Para acelerar a inovação e democratizar o uso dos dados em grande escala, o BMW Group migrou seu data lake on-premises para um alimentado pelo Amazon S3. Agora, o BMW Group processa TBs de dados de telemetria de milhões de veículos diariamente e resolve problemas antes que eles afetem os clientes.
-
Nielsen
-
A Nielsen, uma empresa global de medição e análise de dados, aumentou drasticamente a quantidade de dados que ela é capaz de ingerir, processar e relatar aos seus clientes todos os dias, tirando proveito de uma moderna tecnologia de nuvem. Ela passou a medir mais de 30 milhões de lares todos os dias em contraste com os 40.000 que costuma medir.
-
Engie
-
A ENGIE's é uma das maiores empresas de serviços públicos da França, com 160.000 funcionários e 40 unidades de negócios operando em 70 países. O data lake de quase 100 TB do Common Data Hub usa os serviços da AWS para atender à demanda comercial em termos de ciência de dados, marketing e operações.
Parceiros
Saiba como nossos Parceiros estão ajudando as organizações a criar uma arquitetura de dados moderna na AWS.

Cloudera
A execução do Cloudera Enterprise na AWS fornece aos usuários de TI e de negócios uma plataforma de gerenciamento de dados que pode atuar como base para o processamento e a análise de dados modernos.
/Informatica_icon_solutionspace.b413aef928d0d5cb73d65ffe147b99059a187b46.png)
Informatica Cloud
O Informatica Cloud fornece integração otimizada aos serviços de dados da AWS com conectividade nativa a mais de 100 aplicativos.

Dataguise
A Dataguise é líder em execução segura de negócios, fornecendo soluções de segurança centradas em dados que detectam e protegem dados confidenciais de uma empresa, não importa onde ela esteja sediada ou quem precise aproveitá-la.

Alluxio Data Orchestration
O Alluxio Data Orchestration permite que os clientes aproveitem melhor os principais serviços da AWS, como o EMR e o S3 para cargas de trabalho do Analytic e de IA.
Conceitos básicos

AWS Data-Driven Everything
No programa AWS Data-Driven EVERYTHING (D2E), a AWS fará parceria com nossos clientes para avançar mais rápido, com maior precisão e um escopo muito mais ambicioso para impulsionar seu próprio volante de dados.
Saiba mais »

AWS Data Lab
O AWS Data Lab oferece contratos de engenharia acelerados e conjuntos entre clientes e recursos técnicos da AWS, para criar conteúdo de entrega tangível capaz de acelerar iniciativas de modernização de dados e análises.

Arquitetura de referência de big data e análises da AWS
Aprenda as práticas recomendadas de arquitetura para análises de dados na nuvem, armazenamento em data warehouse e gerenciamento de dados na AWS.