Data lakes e análises na AWS

O portfólio de serviços mais abrangente, seguro, escalável e econômico para criar data lakes e soluções analíticas

A AWS oferece um conjunto integrado de serviços que fornece tudo o que é necessário para criar e gerenciar com rapidez e facilidade um data lake para análises. Os data lakes baseados na AWS podem comportar a escala, a agilidade e a flexibilidade necessárias para combinar diferentes tipos de dados e abordagens analíticas, proporcionando insights mais detalhados, de uma forma que seria impossível para silos de dados e data warehouses tradicionais. A AWS oferece aos clientes a mais ampla variedade de serviços de análise e machine learning, para facilitar o acesso a todos os dados relevantes, sem comprometer a segurança ou a governança.

Existem mais organizações com data lakes e análises na AWS do que em qualquer outro lugar. Clientes como NASDAQ, Zillow, Yelp, iRobot e FINRA confiam na AWS para executar suas cargas de trabalho analíticas essenciais aos negócios.

Data lakes e análises na AWS

Data lakes e análises na AWS

Para criar sua solução de data lakes e análises, a AWS fornece o conjunto mais abrangente de serviços para mover, armazenar e analisar seus dados.

aws-datalake-diagram-simplified

Movimentação de dados

Importe seus dados do local e em tempo real.

Data lake

Armazene qualquer tipo de dados com segurança, de gigabytes a exabytes.

Análises

Analise seus dados com a mais ampla seleção de serviços de análise.

Machine Learning

Preveja resultados futuros e prescreva ações para resposta rápida.

Movimentação de dados

A primeira etapa para criar data lakes na AWS é mover dados para a nuvem. As limitações físicas de largura de banda e velocidades de transferência restringem a capacidade de mover dados sem grandes interrupções, custos altos e tempo. Para tornar a transferência de dados mais fácil e flexível, a AWS oferece a mais ampla gama de opções para transferir dados para a nuvem.

Para criar trabalhos de ETL e transformações de ML para data lakes, saiba mais sobre o AWS Lake Formation.

Movimentação de dados no local

A AWS fornece várias maneiras de mover dados do seu datacenter para a AWS. Para estabelecer uma conexão de rede dedicada entre a sua rede e a AWS, use o AWS Direct Connect. Para mover petabytes a exabytes de dados para a AWS usando dispositivos físicos, use o AWS Snowball e o AWS Snowmobile. Para que seus aplicativos locais armazenem dados diretamente na AWS, você pode usar o AWS Storage Gateway.  

Movimentação de dados em tempo real

A AWS oferece várias maneiras de consumir dados em tempo real gerados a partir de novas origens, como sites, aplicativos móveis e dispositivos conectados à Internet. Para simplificar a captura e o carregamento de dados de streaming ou dados do dispositivo IoT, use o Amazon Kinesis Data Firehose, o Amazon Kinesis Video Streams e o AWS IoT Core.  

Data lake

Depois que os dados estiverem prontos para a nuvem, a AWS facilitará o armazenamento de dados em qualquer formato, com segurança e em escala massiva, usando o Amazon S3 e o Amazon Glacier. Para facilitar a descoberta pelos usuários finais dos dados relevantes a serem usados em suas análises, o AWS Glue cria automaticamente um único catálogo que pode ser pesquisado e consultado pelos usuários.

Para criar um data lake seguro mais rapidamente, saiba mais sobre AWS Lake Formation.

Armazenamento de objetos

Amazon S3

O Amazon S3 é um armazenamento de objetos seguro, altamente escalável e durável com latência de milissegundos para acesso a dados. O S3 foi criado para armazenar qualquer tipo de dados de qualquer lugar: sites e aplicativos móveis, aplicativos corporativos e dados de sensores ou dispositivos de IoT. Ele foi criado para armazenar e recuperar qualquer quantidade de dados, com disponibilidade inigualável, e construído a partir do zero para fornecer 99,999999999% (11 noves) de durabilidade. O S3 Select foca a leitura e recuperação de dados, reduzindo os tempos de resposta em até 400%. O S3 oferece recursos abrangentes de segurança e conformidade que cumprem até os requisitos normativos mais rigorosos.  

Backup e arquivamento

Amazon Glacier

O Amazon Glacier é um armazenamento seguro, durável e de custo extremamente baixo para backup e arquivamento a longo prazo que pode acessar dados em minutos e, da mesma forma, o Glacier Select lê e recupera apenas os dados necessários. O serviço foi projetado para oferecer resiliência de 99,999999999% (11 noves) e oferece recursos abrangentes de segurança e conformidade que podem ajudar a cumprir até mesmo os requisitos normativos mais rigorosos. Os clientes podem armazenar dados por apenas 0,004 USD por gigabyte por mês, o que representa uma economia significativa em comparação a soluções locais.

Catálogo de dados

AWS Glue

O AWS Glue é um serviço gerenciado que fornece um catálogo de dados para viabilizar a descoberta de dados em data lakes. Além disso, permite extrair, transformar e carregar (ETL) dados para prepará-los para análise. O catálogo de dados é criado automaticamente como um armazenamento de metadados persistente para todos os ativos de dados. Dessa forma, todos os dados podem ser pesquisados e consultados em uma única visualização.

Análises

A AWS fornece o conjunto mais amplo e econômico de serviços analíticos executados no data lake. Cada serviço analítico é construído especificamente para uma ampla gama de casos de uso de análise, como análise interativa, processamento de big data usando Apache Spark e Hadoop, data warehousing, análise em tempo real, análise operacional, painéis e visualizações.

Para gerenciar o acesso seguro e de autoatendimento aos dados em um data lake para serviços analíticos, saiba mais sobre o AWS Lake Formation.

Análise interativa

Amazon Athena

Para análise interativa, o Amazon Athena facilita a análise de dados diretamente no S3 e no Glacier usando consultas SQL padrão. O Athena é um serviço sem servidor. Portanto, não é necessário configurar ou gerenciar infraestrutura. Você pode começar a consultar dados imediatamente, obter resultados em segundos e pagar apenas pelas consultas executadas. Basta apontar para os dados no Amazon S3, definir o esquema e iniciar as consultas usando SQL padrão. A maioria dos resultados é entregue em segundos.  

Processamento de big data

Amazon EMR

Para processamento de big data usando estruturas Spark e Hadoop, o Amazon EMR fornece um serviço gerenciado que torna fácil, rápido e econômico processar grandes quantidades de dados. O Amazon EMR oferece suporte a 19 projetos de código aberto diferentes, incluindo Hadoop, Spark, HBase e Presto, com Notebooks EMR gerenciados para engenharia de dados, desenvolvimento de ciência de dados e colaboração. Cada projeto é atualizado no EMR no prazo de 30 dias após o lançamento de uma versão, garantindo que você tenha tudo o que há de melhor e mais recente da comunidade, sem esforço.

Data Warehousing

Amazon Redshift

Para o data warehousing, o Amazon Redshift oferece a capacidade de executar consultas analíticas complexas em petabytes de dados estruturados. O serviço inclui o Redshift Spectrum, que executa consultas SQL diretamente em exabytes de dados do S3, estruturados ou não estruturados, sem precisar de movimentos desnecessários de dados. O Amazon Redshift custa menos que um décimo das soluções tradicionais. Comece aos poucos, por apenas 0,25 USD por hora, e cresça para petabytes de dados por 1.000 USD por terabyte por ano.

Análise em tempo real

Amazon Kinesis

Para análise em tempo real, o Amazon Kinesis facilita a coleta, o processamento e a análise de dados de streaming, como dados de telemetria da IoT, logs de aplicativos e clickstreams de sites. Isso permite processar e analisar dados assim que são disponibilizados em seu data lake e responder em tempo real, em vez de aguardar a conclusão da coleta de dados para poder iniciar o processamento.

Análise operacional

Amazon Elasticsearch Service

Para análise operacional, como monitoramento de aplicativo, análise de log e análise de clickstream, o Amazon Elasticsearch Service permite pesquisar, explorar, filtrar, agregar e visualizar seus dados quase em tempo real. O Amazon Elasticsearch Service disponibiliza APIs e recursos de análise em tempo real fáceis de usar, bem como a disponibilidade, a escalabilidade e a segurança exigidas por cargas de trabalho de produção.

 

Painéis e visualizações

Amazon QuickSight

Para painéis e visualizações, o Amazon QuickSight fornece a você um serviço de análise de negócios rápido, baseado em nuvem, que facilita a criação de visualizações impressionantes e painéis sofisticados que podem ser acessados de qualquer navegador ou dispositivo móvel.

 

Machine Learning

Para casos de uso de análise preditiva, a AWS fornece um amplo conjunto de serviços de machine learning e ferramentas executadas em seu data lake na AWS. Nossos serviços vêm do conhecimento e da capacidade que criamos na Amazon, onde a ML desenvolveu os mecanismos de recomendação, cadeia de suprimentos, previsão, centros de atendimento e planejamento de capacidade da Amazon.com.  

Estruturas e interfaces

Para especialistas em machine learning e cientistas de dados, a AWS fornece AMIs do AWS Deep Learning que facilitam a construção de modelos de aprendizagem profunda e a criação de clusters com instâncias de GPU otimizadas para ML e DL. A AWS oferece suporte a todas as principais estruturas de machine learning como Apache MXNet, TensorFlow e Caffe2. Portanto, você pode trazer ou desenvolver o modelo que quiser. Esses recursos fornecem a potência, a velocidade e a eficiência incomparáveis que as cargas de trabalho de aprendizagem profunda e machine learning exigem.

Serviços de plataforma

Para desenvolvedores que querem se aprofundar com a ML, o Amazon SageMaker é um serviço de plataforma que facilita todo o processo de criação, treinamento e implantação de modelos de ML, fornecendo tudo o que você precisa para se conectar aos seus dados de treinamento, selecionar e otimizar o melhor algoritmo e a melhor estrutura e implantar seu modelo em clusters de escalabilidade automática do Amazon EC2. O SageMaker também inclui notebooks Jupyter hospedados que facilitam a exploração e visualização dos dados de treinamento armazenados no Amazon S3.

Serviços de aplicativos

Para os desenvolvedores que desejam incorporar a funcionalidade de IA pré-construída aos seus aplicativos, a AWS fornece APIs orientadas a soluções para visão computacional e processamento de linguagem natural. Estes serviços de aplicativos permitem que os desenvolvedores adicionem inteligência a seus aplicativos sem desenvolver e treinar seus próprios modelos.

Mais data lakes e análises criados na AWS do que em qualquer outro lugar

Por que usar data lakes e análises na AWS?

Flexibilidade e opções

A AWS oferece o mais amplo conjunto de ferramentas analíticas e mecanismos que analisa dados usando formatos abertos e padrões abertos. Você pode armazenar dados no seu formato de dados baseado em padrões preferido, como CSV, ORC, Grok, Avro e Parquet, além de contar com a flexibilidade de analisar esses dados de várias maneiras, como data warehousing, consultas SQL interativas, análises em tempo real e processamento de big data. A amplitude dos serviços analíticos que você pode usar com seus dados na AWS garante que suas necessidades sejam atendidas para seus casos de uso de análise existentes e futuros.

Escalabilidade e disponibilidade inigualáveis

O Amazon S3 foi criado para armazenar e recuperar qualquer quantidade de dados, com disponibilidade inigualável, e construído a partir do zero para fornecer 99,999999999% (11 noves) de durabilidade. É a única oferta de armazenamento que pode armazenar seus dados em vários datacenters em três zonas de disponibilidade dentro de uma única região da AWS, para uma resiliência incomparável a problemas únicos do datacenter, sendo a única oferta de armazenamento que replica dados com facilidade entre quaisquer regiões.

Altamente seguro

O S3 é a única plataforma de armazenamento em nuvem que permite aplicar políticas de acesso, log e auditoria no nível da conta e do objeto. O S3 fornece criptografia automática no servidor, criptografia com chaves gerenciadas pelo AWS Key Management Service (KMS) e criptografia com chaves que você gerencia. O S3 criptografa os dados em trânsito ao replicar as regiões e permite usar contas separadas para regiões de origem e de destino para proteger contra exclusões maliciosas internas. Para detectar proativamente os estágios iniciais de um ataque, o Amazon Macie, um serviço de segurança com tecnologia ML, monitora continuamente atividades de acesso a dados para detectar anomalias e envia alertas quando detecta risco de acesso não autorizado ou vazamento acidental de dados.

Econômico

Os data lakes construídos na AWS são os mais econômicos. Os dados pouco usados podem ser movidos para o Amazon Glacier, que fornece backup e arquivamento a longo prazo a custos muito baixos. Os recursos de gerenciamento do Amazon S3 podem analisar padrões de acesso a objetos para mover dados usados com pouca frequência para o Glacier sob demanda ou automaticamente com políticas de ciclo de vida. Você pode começar a consultar os dados com o Amazon Athena por apenas 0,005 USD/GB. O preço dos outros serviços de análise e Machine Learning segue o modelo de pagamento conforme o uso para os recursos consumidos.

Performance rápida

Os serviços analíticos da AWS, como o Amazon Redshift e o Amazon Athena, foram criados para oferecer uma performance rápida de consultas interativas para permitir um grande número de consultas interativas simultâneas. Ao executar o amplo portfólio de serviços analíticos e de machine learning da AWS usando o Amazon S3 Select, apenas os subconjuntos de dados necessários em objetos são retornados, levando a consultas até 400% mais rápidas e a um custo consideravelmente menor. O Glacier Select fornece um recurso semelhante, permitindo que você recupere dados arquivados mais rapidamente e que você estenda seu recurso analítico para seu data lake para incluir armazenamento de arquivamento.  

 

A maior rede de parceiros

A rede de parceiros da AWS (APN) tem duas vezes mais integrações de parceiros que qualquer outro lugar. O APN conta com dezenas de milhares de parceiros em todo o mundo, incluindo consultores e provedores independentes de software. Isso facilita o trabalho e a integração com muitas das mesmas ferramentas que você usa e adora hoje. Os Quick Starts de data lake, desenvolvidos por arquitetos e parceiros de soluções da AWS, ajudam a criar, testar e implantar, em poucas etapas simples, soluções de data lake baseadas nas melhores práticas de segurança e alta disponibilidade da AWS. 

 

Conceitos básicos da AWS

Step 1 - Sign up for an AWS account

Cadastre-se para obter uma conta da AWS

Obtenha acesso instantâneo ao nível gratuito da AWS
 
icon2

Crie um data lake seguro em dias

Leia sobre o AWS Lake Formation

 
icon3

Comece a criar com a AWS

Introdução aos data lakes na AWS

Implantar um data lake com o AWS Quick Starts