Data lakes e análises na AWS

O portfólio de serviços mais abrangente, seguro, escalável e econômico para criar data lakes e soluções analíticas

A AWS oferece um conjunto integrado de serviços que fornece tudo o que é necessário para criar e gerenciar com rapidez e facilidade um data lake para análises. Os data lakes baseados na AWS podem comportar a escala, a agilidade e a flexibilidade necessárias para combinar diferentes tipos de dados e abordagens analíticas, proporcionando insights mais detalhados, de uma forma que seria impossível para silos de dados e data warehouses tradicionais. A AWS oferece aos clientes a mais ampla variedade de serviços de análise e machine learning, para facilitar o acesso a todos os dados relevantes, sem comprometer a segurança ou a governança.

Existem mais organizações com data lakes e análises na AWS do que em qualquer outro lugar. Clientes como Embraer, BTG Pactual, Mercado Livre, Rappi, NASDAQ, Zillow, Yelp, iRobot e FINRA confiam na AWS para executar suas cargas de trabalho analíticas essenciais aos negócios.

Data lakes e análises na AWS

Data lakes e análises na AWS

Para criar uma solução de análise e data lakes, a AWS oferece o conjunto mais abrangente de serviços para mover, armazenar e analisar dados.

aws-datalake-diagram-simplified

Movimentação de dados

Importe seus dados do On-Premises em tempo real

Data lake

Armazene qualquer tipo de dados com segurança, de gigabytes a exabytes.

Análises

Analise dados com a mais abrangente seleção de serviços analíticos.

Machine Learning

Preveja resultados futuros e especifique ações para obter respostas rápidas.

Movimentação de dados

A primeira etapa para criar data lakes na AWS é transferir dados para a nuvem. As limitações físicas da largura de banda e velocidades de transferência restringem a capacidade de mover dados sem interrupções, custos e demoras substanciais. Para que a transferência de dados seja mais fácil e flexível, a AWS oferece a mais ampla variedade de opções de transferência de dados para a nuvem.

Para criar trabalhos de ETL e transformações de ML para data lakes, saiba mais sobre o AWS Lake Formation.

Transferência de dados do On-Premise

A AWS oferece várias maneiras de mover dados de um datacenter para a AWS. Para estabelecer uma conexão de rede dedicada entre a sua rede e a AWS, você pode usar o AWS Direct Connect. Para mover petabytes a exabytes de dados para a AWS usando dispositivos físicos, você pode usar o AWS Snowball e o AWS Snowmobile. Para que aplicativos locais armazenem dados diretamente na AWS, você pode usar o AWS Storage Gateway.  

Ingestão de dados em tempo real

A AWS oferece várias maneiras de consumir dados em tempo real gerados a partir de novas origens, como sites, aplicativos móveis e dispositivos conectados à Internet. Para simplificar a captura e o carregamento de dados de streaming ou dados de dispositivos de IoT, você pode usar o Amazon Kinesis Data Firehose, o Amazon Kinesis Video Streams e o AWS IoT Core.  

Data lake

Depois que os dados estiverem prontos para a nuvem, a AWS facilitará o armazenamento de dados em qualquer formato, com segurança e em escala massiva, usando o Amazon S3 e o Amazon Glacier. Para facilitar a descoberta pelos usuários finais dos dados relevantes a serem usados em suas análises, o AWS Glue cria automaticamente um único catálogo que pode ser pesquisado e consultado pelos usuários.

AWS Lake Formation

Crie um data lake seguro em dias

O AWS Lake Formation é um serviço que facilita a configuração de um data lake seguro em dias. Com ele, você pode mover, armazenar, catalogar e limpar dados com mais agilidade, além de poder usá-lo para centralizar a definição de políticas de segurança, governança e auditoria em um único local (em vez de executar essas tarefas por serviço) e aplicar essas políticas para os usuários em todos os aplicativos de análise. Com o Lake Formation, você ainda cria um catálogo de dados que descreve os diferentes conjuntos de dados disponíveis e quais grupos de usuários têm acesso a cada conjunto. Para criar um data lake seguro mais rapidamente, saiba mais sobre AWS Lake Formation.

Armazenamento de objetos

Amazon S3

O Amazon S3 é um armazenamento de objetos seguro, altamente escalável e durável com latência de milissegundos para acesso a dados. O S3 foi criado para armazenar qualquer tipo de dados de qualquer lugar: sites e aplicativos móveis, aplicativos corporativos e dados de sensores ou dispositivos de IoT. Ele foi criado para armazenar e recuperar qualquer quantidade de dados, com disponibilidade inigualável, e construído a partir do zero para fornecer 99,999999999% (11 noves) de durabilidade. O S3 Select foca a leitura e recuperação de dados, reduzindo os tempos de resposta em até 400%. O S3 oferece recursos abrangentes de segurança e conformidade que cumprem até os requisitos normativos mais rigorosos.  

Backup e arquivamento

Amazon Glacier

O Amazon Glacier é um armazenamento seguro, durável e de custo extremamente baixo para backup e arquivamento a longo prazo que pode acessar dados em minutos e, da mesma forma, o Glacier Select lê e recupera apenas os dados necessários. O serviço foi projetado para oferecer resiliência de 99,999999999% (11 noves) e oferece recursos abrangentes de segurança e conformidade que podem ajudar a cumprir até mesmo os requisitos normativos mais rigorosos. Os clientes podem armazenar dados por apenas 0,004 USD por gigabyte por mês, o que representa uma economia significativa em comparação a soluções locais.

Catálogo de dados

AWS Glue

O AWS Glue é um serviço gerenciado que fornece um catálogo de dados para viabilizar a descoberta de dados em data lakes. Além disso, permite extrair, transformar e carregar (ETL) dados para prepará-los para análise. O catálogo de dados é criado automaticamente como um armazenamento de metadados persistente para todos os ativos de dados. Dessa forma, todos os dados podem ser pesquisados e consultados em uma única visualização.

Webinar On-Demand

Data Lake e Analytics

Assista On-Demand de forma gratuita ao nosso Webinar de Data Lake e Analytics, o qual ocorreu durante nosso Webinar-a-thon de abril. Nele apresentamos inicialmente uma visão geral de Data Lake, mas além disso você também poderá aprender mais sobre ingestão (carga) de dados no Data Lake, consumo do Lake, análise, visualização e Machine Learning. Para aprender mais sobre temas relacionados à nuvem AWS tendo acesso a esse e outros webinars que já ocorreram e para inscrever-se nos próximos, acesse nossa página de Webinars 2019!

Análises

A AWS oferece o conjunto mais amplo e econômico de serviços analíticos executados em um data lake. Cada serviço analítico é criado especificamente para uma grande variedade de casos de uso de análise, como análises interativas, processamento de big data usando Apache Spark e Hadoop, data warehousing, análises em tempo real, análises operacionais, painéis e visualizações.

Para gerenciar o acesso seguro aos dados de um data lake no modelo de autoatendimento para fins de serviços analíticos, saiba mais sobre AWS Lake Formation.

Análises interativas

Amazon Athena

Para a análises interativas, o Amazon Athena facilita a análise de dados diretamente no S3 e no Glacier usando consultas SQL padrão. O Athena é um serviço sem servidor. Portanto, não é necessário configurar ou gerenciar infraestrutura. Você pode começar a consultar dados imediatamente, obter resultados em segundos e pagar apenas pelas consultas executadas. Basta apontar para os dados no Amazon S3, definir o esquema e iniciar as consultas usando SQL padrão. A maioria dos resultados é entregue em segundos.  

Processamento de big data

Amazon EMR

Para o processamento de big data usando as estruturas Spark e Hadoop, o Amazon EMR fornece um serviço gerenciado que permite processar grandes quantidades de dados com facilidade, rapidez e economia. O Amazon EMR oferece suporte a 19 projetos de código aberto diferentes, incluindo Hadoop, Spark, HBase e Presto, com notebooks de EMR gerenciados para engenharia de dados, desenvolvimento de ciência de dados e colaboração. Cada projeto é atualizado no EMR em até 30 dias após o lançamento de uma versão, garantindo que você conte facilmente com os melhores e mais recentes desenvolvimentos da comunidade.

Data warehousing

Amazon Redshift

Para o data warehousing, o Amazon Redshift oferece a capacidade de executar consultas analíticas complexas em petabytes de dados estruturados. O serviço inclui o Redshift Spectrum, que executa consultas SQL diretamente em exabytes de dados do S3, estruturados ou não estruturados, sem precisar de movimentos desnecessários de dados. O Amazon Redshift custa menos de um décimo do custo das soluções tradicionais. Comece aos poucos, por apenas 0,25 USD por hora, e cresça para petabytes de dados por 1.000 USD por terabyte por ano.

Análises em tempo real

Amazon Kinesis e MSK

Para análise em tempo real, o Amazon Kinesis facilita a coleta, o processamento e a análise de dados de streaming, como dados de telemetria da IoT, logs de aplicativos e clickstreams de sites. O Amazon MSK é um serviço gerenciado que facilita a criação e execução de aplicativos que usam o Apache Kafka, plataforma de código aberto para criação de pipelines de dados de streaming e aplicativos em tempo real, para processar dados de streaming.

Análise operacional

Amazon Elasticsearch Service

Para análises operacionais, como monitoramento de aplicativos, análise de logs e análise de clickstreams, o Amazon Elasticsearch Service permite pesquisar, explorar, filtrar, agregar e visualizar dados praticamente em tempo real. O Amazon Elasticsearch Service disponibiliza APIs e recursos de análise em tempo real fáceis de usar e proporciona a disponibilidade, a escalabilidade e a segurança exigidas por cargas de trabalho de produção.

 

Painéis e visualizações

Amazon QuickSight

Para painéis e visualizações, o Amazon QuickSight oferece um serviço de análises empresariais rápido e baseado na nuvem. Ele facilita a criação de visualizações impressionantes e painéis sofisticados que podem ser acessados de qualquer navegador ou dispositivo móvel.

 

Machine Learning

Para casos de uso de análise preditiva, a AWS oferece um conjunto diversificado de serviços de Machine Learning e ferramentas que são executados em data lakes na AWS. Nossos serviços são baseados no conhecimento e nos recursos que desenvolvemos na Amazon, onde o ML viabilizou os mecanismos de recomendação, a cadeia de suprimentos, as previsões, as centrais de atendimento dos pedidos e o planejamento de capacidade da Amazon.com.  

Estruturas e interfaces

Para especialistas em machine learning e cientistas de dados, a AWS fornece AMIs do AWS Deep Learning que facilitam a construção de modelos de aprendizagem profunda e a criação de clusters com instâncias de GPU otimizadas para ML e DL. A AWS oferece suporte a todas as principais estruturas de machine learning como Apache MXNet, TensorFlow e Caffe2. Portanto, você pode trazer ou desenvolver o modelo que quiser. Esses recursos fornecem a potência, a velocidade e a eficiência incomparáveis que as cargas de trabalho de aprendizagem profunda e machine learning exigem.

Serviços de plataforma

Para desenvolvedores que querem se aprofundar com a ML, o Amazon SageMaker é um serviço de plataforma que facilita todo o processo de criação, treinamento e implantação de modelos de ML, fornecendo tudo o que você precisa para se conectar aos seus dados de treinamento, selecionar e otimizar o melhor algoritmo e a melhor estrutura e implantar seu modelo em clusters de escalabilidade automática do Amazon EC2. O SageMaker também inclui notebooks Jupyter hospedados que facilitam a exploração e visualização dos dados de treinamento armazenados no Amazon S3.

Serviços de aplicativos

Para os desenvolvedores que desejam incorporar a funcionalidade de IA pré-construída aos seus aplicativos, a AWS fornece APIs orientadas a soluções para visão computacional e processamento de linguagem natural. Estes serviços de aplicativos permitem que os desenvolvedores adicionem inteligência a seus aplicativos sem desenvolver e treinar seus próprios modelos.

Webinar On-Demand

AI/ML e Big Data

Assista On-Demand de forma gratuita ao nosso Webinar de AI/ML e Big Data, ocorrido em julho. Foi uma sessão completa de perguntas e respostas sobre AI/ML (Inteligência Artificial/Machine Learning) e Big Data, diretamente com nossos especialistas. A apresentação de cada tema teve duração de 30 minutos, com apresentação inicial e tempo dedicado para tirar todas as dúvidas técnicas de quem assistiu. Para aprender mais sobre temas relacionados à nuvem AWS tendo acesso a esse e outros webinars que já ocorreram e para inscrever-se nos próximos, acesse nossa página de Webinars 2019!

Mais data lakes e análises são criados na AWS que em qualquer outro lugar

Por que usar data lakes e análises na AWS?

Flexibilidade e escolha

A AWS oferece o mais amplo conjunto de ferramentas e mecanismos analíticos para analisar dados usando formatos e padrões abertos. Você pode armazenar dados no seu formato de dados baseado em padrões preferido, como CSV, ORC, Grok, Avro e Parquet, além de contar com a flexibilidade de analisar esses dados de várias maneiras, como data warehousing, consultas SQL interativas, análises em tempo real e processamento de big data. A abrangência dos serviços de análise que você pode usar com os dados na AWS garante o atendimento às suas necessidades de casos de uso de análises atuais e futuros.

Escalabilidade e disponibilidade incomparáveis

O Amazon S3 foi criado para armazenar e recuperar qualquer quantidade de dados, com disponibilidade inigualável, e criado do zero para fornecer resiliência de 99,999999999% (11 noves). O serviço é a única oferta de armazenamento que pode armazenar dados em vários datacenters em três zonas de disponibilidade em uma única região da AWS para proporcionar resiliência inigualável a problemas em um único datacenter. Além disso, é também a única oferta de armazenamento que replica dados de forma transparente entre qualquer região.

Altamente seguro

O S3 é a única plataforma de armazenamento na nuvem que permite aplicar políticas de acesso, registro em log e auditoria por conta e por objeto. O S3 fornece criptografia automática do lado do servidor, criptografia com chaves gerenciadas pelo AWS Key Management Service (KMS) e criptografia com chaves gerenciadas por você. O S3 criptografa dados em trânsito durante a replicação entre regiões. Além disso, permite que você use contas separadas para regiões de origem e destino, o que protege contra exclusões internas mal-intencionadas. Para detectar proativamente os estágios iniciais de um ataque, o Amazon Macie, um serviço de segurança baseado em ML, monitora a atividade de acesso aos dados para buscar anomalias e gera alertas detalhados quando detecta um risco de acesso não autorizado ou de vazamento acidental de dados.

Econômico

Os data lakes criados na AWS são os mais econômicos. Os dados que não são usados com frequência podem ser movidos para o Amazon Glacier, que oferece backup e arquivamento de longo prazo a um custo muito reduzido. Os recursos de gerenciamento do Amazon S3 podem analisar padrões de acesso a objetos para mover dados usados com pouca frequência para o Glacier. Essa movimentação pode ser feita sob demanda ou automaticamente, usando políticas de ciclo de vida. Você pode começar a consultar os dados com o Amazon Athena por apenas 0,005 USD/GB consultado. O preço dos outros serviços de análise e Machine Learning segue o modelo de pagamento conforme o uso para os recursos consumidos.

Alto desempenho

Os serviços analíticos da AWS, como o Amazon Redshift e o Amazon Athena, foram criados para oferecer um alto desempenho de consultas interativas para permitir um grande número de consultas interativas simultâneas. Ao executar o amplo portfólio de serviços analíticos e de machine learning da AWS usando o Amazon S3 Select, apenas os subconjuntos de dados necessários em objetos são retornados, levando a consultas até 400% mais rápidas e a um custo consideravelmente menor. O Glacier Select fornece um recurso semelhante, permitindo que você recupere dados arquivados mais rapidamente e que você estenda seu recurso analítico para seu data lake para incluir armazenamento de arquivamento.  

 

A maior rede de parceiros

A rede de parceiros da AWS (APN) tem duas vezes mais integrações de parceiros que qualquer outro lugar. O APN conta com dezenas de milhares de parceiros em todo o mundo, incluindo consultores e provedores independentes de software. Isso facilita o trabalho e a integração com muitas das mesmas ferramentas que você usa e aprecia hoje. Os Quick Starts de data lake, desenvolvidos por arquitetos e parceiros de soluções da AWS, ajudam a criar, testar e implantar, em poucas etapas simples, soluções de data lake baseadas nas melhores práticas de segurança e alta disponibilidade da AWS. 

 

Comece a usar a AWS

Step 1 - Sign up for an AWS account

Cadastre-se para obter uma conta da AWS

Obtenha acesso instantâneo ao nível gratuito da AWS
 
icon2

Crie um data lake seguro em dias

Leia sobre o AWS Lake Formation

 
icon3

Comece a criar com a AWS

Comece a usar data lakes na AWS

Implantar um data lake com o AWS Lake Formation
Tem outras dúvidas?
Entre em contato conosco