Data lakes e análises na AWS

A maneira mais rápida de obter respostas de todos os dados para todos os usuários

A AWS oferece um conjunto integrado de serviços que fornece tudo o que é necessário para criar e gerenciar com rapidez e facilidade um data lake para análises. Os data lakes baseados na AWS podem comportar a escala, a agilidade e a flexibilidade necessárias para combinar diferentes tipos de dados e abordagens analíticas, proporcionando insights mais detalhados, de uma forma que seria impossível para silos de dados e data warehouses tradicionais. A AWS oferece aos clientes a mais ampla variedade de serviços de análise e machine learning, para facilitar o acesso a todos os dados relevantes, sem comprometer a segurança ou a governança.

Existem mais organizações com data lakes e análises na AWS do que em qualquer outro lugar. Clientes como Embraer, BTG Pactual, Mercado Livre, Rappi, NASDAQ, Zillow, Yelp, iRobot e FINRA confiam na AWS para executar suas cargas de trabalho analíticas essenciais aos negócios.

Data lakes e análises na AWS

Data lakes e análises na AWS

Para criar sua solução de data lakes e análises, a AWS fornece o conjunto mais abrangente de serviços para mover, armazenar e analisar seus dados.

aws-datalake-diagram-simplified

Movimentação de dados

Importe seus dados do On-Premises em tempo real

Data lake

Armazene qualquer tipo de dados com segurança, de gigabytes a exabytes.

Análises

Analise seus dados com a mais ampla seleção de serviços de análise.

Machine Learning

Preveja resultados futuros e prescreva ações para resposta rápida.

Por que usar data lakes e análises na AWS?

Maneira mais fácil de criar data lakes

Crie um data lake seguro em poucos dias, em vez de meses. A nossa experiência de trabalho com dezenas de milhares de clientes para criar data lakes produtivos nos permitiu facilitar todos os aspectos da análise de dados na nuvem. Por exemplo, o AWS Lake Formation automatiza os procedimentos manuais necessários para criar um data lake e oferece um único mecanismo de segurança para todos os seus dados. Com isso, você leva menos tempo no trabalho pesado indiferenciado para criar um data lake e se dedica mais a explorar seus dados para obter respostas para as suas questões mais importantes.

Melhor desempenho pelo menor custo

A AWS é o local mais ágil e mais econômico para armazenar e analisar dados. Por exemplo, o Amazon S3 fornece cinco classes de armazenamento e gerenciamento automático do ciclo de vida dos dados, e você só paga pelo que precisa para os seus dados de acordo com a maneira como eles são usados. O Amazon Redshift é três vezes mais rápido do que qualquer outro data warehouse na nuvem, e fica ainda mais rápido a cada ano. O Amazon EMR oferece o local mais rápido para executar cargas de trabalho do Apache Spark e do Apache HIVE na nuvem. A profunda integração do EMR com o restante da AWS facilita o aproveitamento de recursos econômicos, como instâncias spot do EC2 e reduz os custos em até 90%.

Mais abrangente e aberto

Manter todos os dados em um único serviço de análise isolado não funciona mais. O serviço de análise moderno requer um conjunto de ferramentas e abordagens diferentes, que incluem SQL, R, Scala, Jupyter e Python, para gerar os insights e as respostas certas com diversas linguagens. A AWS fornece um conjunto de serviços de análise maduro e abrangente que é executado no data lake aberto, para que você possa usar a ferramenta certa para o trabalho certo, sem precisar movimentar ou transformar os dados para cada abordagem de análise específica. Todos os nossos serviços conseguem acessar os dados que estão em um único armazenamento de objetos (S3) com APIs abertas, em formatos abertos (por exemplo, Apache Paquet, Apache ORC, Apache Avro) e usar mecanismos proprietários (Redshift para armazenamento em data warehouse) e mecanismos abertos (por exemplo, Spark, Hive). 

Alto desempenho

Os serviços analíticos da AWS, como o Amazon Redshift e o Amazon Athena, foram criados para oferecer um alto desempenho de consultas interativas para permitir um grande número de consultas interativas simultâneas. Ao executar o amplo portfólio de serviços analíticos e de machine learning da AWS usando o Amazon S3 Select, apenas os subconjuntos de dados necessários em objetos são retornados, levando a consultas até 400% mais rápidas e a um custo consideravelmente menor. O Glacier Select fornece um recurso semelhante, permitindo que você recupere dados arquivados mais rapidamente e que você estenda seu recurso analítico para seu data lake para incluir armazenamento de arquivamento.  

 

Movimentação de dados

A primeira etapa para criar data lakes na AWS é mover dados para a nuvem. As limitações físicas de largura de banda e velocidades de transferência restringem a capacidade de mover dados sem grandes interrupções, custos altos e tempo. Para tornar a transferência de dados mais fácil e flexível, a AWS oferece a mais ampla gama de opções para transferir dados para a nuvem.

Para criar trabalhos de ETL e transformações de ML para data lakes, saiba mais sobre o AWS Lake Formation.

Transferência de dados do On-Premise

A AWS fornece várias maneiras de mover dados do seu datacenter para a AWS. Para estabelecer uma conexão de rede dedicada entre a sua rede e a AWS, use o AWS Direct Connect. Para mover petabytes a exabytes de dados para a AWS usando dispositivos físicos, use o AWS Snowball e o AWS Snowmobile. Para que seus aplicativos locais armazenem dados diretamente na AWS, você pode usar o AWS Storage Gateway.  

Ingestão de dados em tempo real

A AWS oferece várias maneiras de consumir dados em tempo real gerados a partir de novas origens, como sites, aplicativos móveis e dispositivos conectados à Internet. Para simplificar a captura e o carregamento de dados de streaming ou dados do dispositivo IoT, use o Amazon Kinesis Data Firehose, o Amazon Kinesis Video Streams e o AWS IoT Core.  

Data lake

Depois que os dados estiverem prontos para a nuvem, a AWS facilitará o armazenamento de dados em qualquer formato, com segurança e em escala massiva, usando o Amazon S3 e o Amazon Glacier. Para facilitar a descoberta pelos usuários finais dos dados relevantes a serem usados em suas análises, o AWS Glue cria automaticamente um único catálogo que pode ser pesquisado e consultado pelos usuários.

AWS Lake Formation

Crie um data lake seguro em dias

O AWS Lake Formation é um serviço que facilita a configuração de um data lake seguro em dias. Com ele, você pode mover, armazenar, catalogar e limpar dados com mais agilidade, além de poder usá-lo para centralizar a definição de políticas de segurança, governança e auditoria em um único local (em vez de executar essas tarefas por serviço) e aplicar essas políticas para os usuários em todos os aplicativos de análise. Com o Lake Formation, você ainda cria um catálogo de dados que descreve os diferentes conjuntos de dados disponíveis e quais grupos de usuários têm acesso a cada conjunto. Para criar um data lake seguro mais rapidamente, saiba mais sobre AWS Lake Formation.

Armazenamento de objetos

Amazon S3

O Amazon S3 é um armazenamento de objetos seguro, altamente escalável e durável com latência de milissegundos para acesso a dados. O S3 foi criado para armazenar qualquer tipo de dados de qualquer lugar: sites e aplicativos móveis, aplicativos corporativos e dados de sensores ou dispositivos de IoT. Ele foi criado para armazenar e recuperar qualquer quantidade de dados, com disponibilidade inigualável, e construído a partir do zero para fornecer 99,999999999% (11 noves) de durabilidade. O S3 Select foca a leitura e recuperação de dados, reduzindo os tempos de resposta em até 400%. O S3 oferece recursos abrangentes de segurança e conformidade que cumprem até os requisitos normativos mais rigorosos.  

Backup e arquivamento

Amazon Glacier

O Amazon Glacier é um armazenamento seguro, durável e de custo extremamente baixo para backup e arquivamento a longo prazo que pode acessar dados em minutos e, da mesma forma, o Glacier Select lê e recupera apenas os dados necessários. O serviço foi projetado para oferecer resiliência de 99,999999999% (11 noves) e oferece recursos abrangentes de segurança e conformidade que podem ajudar a cumprir até mesmo os requisitos normativos mais rigorosos. Os clientes podem armazenar dados por apenas 0,004 USD por gigabyte por mês, o que representa uma economia significativa em comparação a soluções locais.

Catálogo de dados

AWS Glue

O AWS Glue é um serviço gerenciado que fornece um catálogo de dados para viabilizar a descoberta de dados em data lakes. Além disso, permite extrair, transformar e carregar (ETL) dados para prepará-los para análise. O catálogo de dados é criado automaticamente como um armazenamento de metadados persistente para todos os ativos de dados. Dessa forma, todos os dados podem ser pesquisados e consultados em uma única visualização.

Webinar On-Demand

Data Lake e Analytics

Assista On-Demand de forma gratuita ao nosso Webinar de Data Lake e Analytics, o qual ocorreu durante nosso Webinar-a-thon de abril. Nele apresentamos inicialmente uma visão geral de Data Lake, mas além disso você também poderá aprender mais sobre ingestão (carga) de dados no Data Lake, consumo do Lake, análise, visualização e Machine Learning. Para aprender mais sobre temas relacionados à nuvem AWS tendo acesso a esse e outros webinars que já ocorreram e para inscrever-se nos próximos, acesse nossa página de Webinars 2019!

Análises

A AWS fornece o conjunto mais amplo e econômico de serviços analíticos executados no data lake. Cada serviço analítico é construído especificamente para uma ampla gama de casos de uso de análise, como análise interativa, processamento de big data usando Apache Spark e Hadoop, data warehousing, análise em tempo real, análise operacional, painéis e visualizações.

Para gerenciar o acesso seguro e de autoatendimento aos dados em um data lake para serviços analíticos, saiba mais sobre o AWS Lake Formation.

Análise interativa

Amazon Athena

Para análise interativa, o Amazon Athena facilita a análise de dados diretamente no S3 e no Glacier usando consultas SQL padrão. O Athena é um serviço sem servidor. Portanto, não é necessário configurar ou gerenciar infraestrutura. Você pode começar a consultar dados imediatamente, obter resultados em segundos e pagar apenas pelas consultas executadas. Basta apontar para os dados no Amazon S3, definir o esquema e iniciar as consultas usando SQL padrão. A maioria dos resultados é entregue em segundos.  

Processamento de big data

Amazon EMR

Para processamento de big data usando estruturas Spark e Hadoop, o Amazon EMR fornece um serviço gerenciado que torna fácil, rápido e econômico processar grandes quantidades de dados. O Amazon EMR oferece suporte a 19 projetos de código aberto diferentes, incluindo Hadoop, Spark, HBase e Presto, com Notebooks EMR gerenciados para engenharia de dados, desenvolvimento de ciência de dados e colaboração. Cada projeto é atualizado no EMR no prazo de 30 dias após o lançamento de uma versão, garantindo que você tenha tudo o que há de melhor e mais recente da comunidade, sem esforço.

Data Warehousing

Amazon Redshift

Para o data warehousing, o Amazon Redshift oferece a capacidade de executar consultas analíticas complexas em petabytes de dados estruturados. O serviço inclui o Redshift Spectrum, que executa consultas SQL diretamente em exabytes de dados do S3, estruturados ou não estruturados, sem precisar de movimentos desnecessários de dados. O Amazon Redshift custa menos que um décimo das soluções tradicionais. Comece aos poucos, por apenas 0,25 USD por hora, e cresça para petabytes de dados por 1.000 USD por terabyte por ano.

Análise em tempo real

Amazon Kinesis e MSK

Para análise em tempo real, o Amazon Kinesis facilita a coleta, o processamento e a análise de dados de streaming, como dados de telemetria da IoT, logs de aplicativos e clickstreams de sites. O Amazon MSK é um serviço gerenciado que facilita a criação e execução de aplicativos que usam o Apache Kafka, plataforma de código aberto para criação de pipelines de dados de streaming e aplicativos em tempo real, para processar dados de streaming.

Análise operacional

Amazon Elasticsearch Service

Para análise operacional, como monitoramento de aplicativo, análise de log e análise de clickstream, o Amazon Elasticsearch Service permite pesquisar, explorar, filtrar, agregar e visualizar seus dados quase em tempo real. O Amazon Elasticsearch Service disponibiliza APIs e recursos de análise em tempo real fáceis de usar, bem como a disponibilidade, a escalabilidade e a segurança exigidas por cargas de trabalho de produção.

 

Painéis e visualizações

Amazon QuickSight

Para painéis e visualizações, o Amazon QuickSight fornece a você um serviço de análise de negócios rápido, baseado em nuvem, que facilita a criação de visualizações impressionantes e painéis sofisticados que podem ser acessados de qualquer navegador ou dispositivo móvel.

 

Machine Learning

Para casos de uso de análise preditiva, a AWS fornece um amplo conjunto de serviços de machine learning e ferramentas executadas em seu data lake na AWS. Nossos serviços vêm do conhecimento e da capacidade que criamos na Amazon, onde a ML desenvolveu os mecanismos de recomendação, cadeia de suprimentos, previsão, centros de atendimento e planejamento de capacidade da Amazon.com.  

Estruturas e interfaces

Para especialistas em machine learning e cientistas de dados, a AWS fornece AMIs do AWS Deep Learning que facilitam a construção de modelos de aprendizagem profunda e a criação de clusters com instâncias de GPU otimizadas para ML e DL. A AWS oferece suporte a todas as principais estruturas de machine learning como Apache MXNet, TensorFlow e Caffe2. Portanto, você pode trazer ou desenvolver o modelo que quiser. Esses recursos fornecem a potência, a velocidade e a eficiência incomparáveis que as cargas de trabalho de aprendizagem profunda e machine learning exigem.

Serviços de plataforma

Para desenvolvedores que querem se aprofundar com a ML, o Amazon SageMaker é um serviço de plataforma que facilita todo o processo de criação, treinamento e implantação de modelos de ML, fornecendo tudo o que você precisa para se conectar aos seus dados de treinamento, selecionar e otimizar o melhor algoritmo e a melhor estrutura e implantar seu modelo em clusters de escalabilidade automática do Amazon EC2. O SageMaker também inclui notebooks Jupyter hospedados que facilitam a exploração e visualização dos dados de treinamento armazenados no Amazon S3.

Serviços de aplicativos

Para os desenvolvedores que desejam incorporar a funcionalidade de IA pré-construída aos seus aplicativos, a AWS fornece APIs orientadas a soluções para visão computacional e processamento de linguagem natural. Estes serviços de aplicativos permitem que os desenvolvedores adicionem inteligência a seus aplicativos sem desenvolver e treinar seus próprios modelos.

Webinar On-Demand

AI/ML e Big Data

Assista On-Demand de forma gratuita ao nosso Webinar de AI/ML e Big Data, ocorrido em julho. Foi uma sessão completa de perguntas e respostas sobre AI/ML (Inteligência Artificial/Machine Learning) e Big Data, diretamente com nossos especialistas. A apresentação de cada tema teve duração de 30 minutos, com apresentação inicial e tempo dedicado para tirar todas as dúvidas técnicas de quem assistiu. Para aprender mais sobre temas relacionados à nuvem AWS tendo acesso a esse e outros webinars que já ocorreram e para inscrever-se nos próximos, acesse nossa página de Webinars 2019!

Mais data lakes e análises criados na AWS do que em qualquer outro lugar

Comece a usar a AWS

Step 1 - Sign up for an AWS account

Cadastre-se para obter uma conta da AWS

Obtenha acesso instantâneo ao nível gratuito da AWS
 
icon2

Crie um data lake seguro em dias

Leia sobre o AWS Lake Formation

 
icon3

Comece a criar com a AWS

Comece a usar data lakes na AWS

Implantar um data lake com o AWS Lake Formation
Tem outras dúvidas?
Entre em contato conosco