Pular para o conteúdo principal

O que é analytics de banco de dados?

Os dados sustentam a tomada de decisões nas empresas, exigindo gerenciamento, manuseio e análise cuidadosos. Operações de dados inadequadas, mesmo que por analistas de dados mais qualificados, podem levar a suposições incorretas e decisões equivocadas.

Um pipeline de análise de dados bem-desenvolvido permite que as organizações identifiquem tendências com precisão, realizem analytics descritiva, analytics prescritiva e análises estatísticas, além de introduzir recursos de machine learning e IA.

A escolha de um sistema de analytics de banco de dados depende dos dados existentes, dos formatos atuais do banco de dados e de outros tipos de análise necessários. Os dados são armazenados nas empresas em vários formatos, incluindo bancos de dados relacionais, bancos de dados não relacionais e outros formatos de arquivo. Bancos de dados relacionais e não relacionais têm suporte incorporado para analytics básica, mas ela por si só não é suficiente para obter insights mais profundos sobre funções e fontes de negócios.

Os analistas de dados precisam de data warehouses, data lakes e lakehouses para integração de dados de fontes diferentes, preparando-os para mineração e analytics de dados multifuncionais e multiformatos.

Exploraremos todas essas diferentes tecnologias no espaço de analytics de banco de dados do restante do guia.

Quais são os principais tipos de sistemas de dados usados em analytics?

Esta é uma breve visão geral sobre os diferentes tipos de sistemas disponíveis para uso em analytics

Bancos de dados relacionais

Bancos de dados relacionais são coleções de dados estruturados organizados em tabelas com linhas e colunas. Cada tabela contém uma coleção de dados relacionados que representam objetos ou conceitos do mundo real.

Cada linha em uma tabela representa um único registro, como os detalhes de um cliente, incluindo nome, número de telefone e endereço. Cada tabela pode ser relacionada a uma ou mais tabelas. Por exemplo, uma tabela de clientes pode ser relacionada a uma tabela de compras, permitindo que cada compra seja vinculada a um cliente específico.

Todos os sistemas de gerenciamento de banco de dados relacional têm um esquema fixo, conforme descrito acima, e oferecem suporte à Linguagem de Consulta Estruturada (SQL) para consulta de dados em tabelas.

Exemplos de serviços de banco de dados relacional na AWS incluem o Amazon Relational Database Service e o Amazon Aurora, que é uma solução de banco de dados relacional de alto desempenho e escalável globalmente para PostgreSQL, MySQL e DSQL.

Bancos de dados não relacionais

Os bancos de dados não relacionais têm um esquema flexível e são conhecidos como bancos de dados NoSQL, pois não são compatíveis com consultas via SQL. Os diferentes tipos de bancos de dados não relacionais incluem: bancos de dados de chave-valor, bancos de dados de documentos, bancos de dados orientado a colunas, bancos de dados de grafos, bancos de dados em memória e bancos de dados de pesquisa.

Cada tipo de banco de dados NoSQL é adequado para um caso de uso específico. Por exemplo, um banco de dados de documentos é ideal para um sistema interno de gerenciamento de conteúdo, e um armazenamento orientado a colunas é adequado para dados de séries temporais de uma frota de IoT.

Alguns exemplos de serviços de banco de dados não relacionais na AWS são apresentados abaixo.

  • O Amazon DynamoDB é um banco de dados NoSQL, sem servidor, totalmente gerenciado, com desempenho com menos de dez milissegundos, adequado para bancos de dados de chave-valor e armazenamentos de documentos.
  • O Amazon DocumentDB (compatível com MongoDB) é um serviço de banco de dados de documentos JSON nativo totalmente gerenciado.
  • O Amazon Keyspaces (para Apache Cassandra) é um serviço escalável, altamente disponível e gerenciado para bancos de dados orientados a colunas compatíveis com o Apache Cassandra.
  • O Amazon Neptune é um serviço de banco de dados de grafos sem servidor de alta performance que oferece analytics, escalabilidade e disponibilidade superiores.
  • O Amazon ElastiCache é um serviço de cache em memória totalmente gerenciado, compatível com bancos de dados em memória Valkey, Redis e Memcached.
  • O Amazon MemoryDB é um serviço de banco de dados em memória, durável e compatível com Valkey e Redis OSS, que oferece performance ultrarrápida.

Data warehouse

Data warehouse é uma solução de analytics que amplia os recursos dos bancos de dados relacionais em grande escala, prestando suporte a consultas SQL. Os data warehouses são usados para armazenar e analisar dados relacionais em um grande número de bancos de dados. Uma solução de warehouse pode transformar dados não relacionais durante o processo de extração, transformação e carregamento (ETL), normalizando-os de forma a prepará-los para análise.

O Amazon Redshift é uma solução gerenciada de data warehouse que presta suporte ao armazenamento de dados e à escala de workloads de data analytics de forma prática.

Data lake

Data lake é um repositório centralizado que permite armazenar todos os dados estruturados e não estruturados em qualquer escala. A transformação dos dados pode ocorrer antes ou depois de serem transferidos para o data lake. Um data lake requer serviços adicionais para ETL e análise. A análise de dados brutos normalmente não é uma opção.

O Amazon S3 é um armazenamento de dados de objetos projetado para recuperar qualquer quantidade de dados de qualquer lugar, podendo servir como um data lake. O S3 pode ser combinado com o AWS Lake Formation para oferecer acesso a dados, permissões e compartilhamentos de dados armazenados

Data lakehouse

Data lakehouse é uma combinação de data warehouse e data lake. Um data lakehouse pode armazenar dados estruturados e não estruturados, fornecer uma camada de formato para adicionar esquemas e estruturas e incluir um mecanismo de consulta. O data lakehouse é uma camada necessária na análise de dados corporativos moderna devido à sua capacidade de executar consultas em todos os dados simultaneamente.

O Amazon SageMaker Lakehouse unifica dados entre data lakes do Amazon S3 e warehouses de bancos de dados analíticos do Amazon Redshift. O SageMaker Lakehouse proporciona flexibilidade de acesso e consulta de dados de forma direta, utilizando todas as ferramentas e mecanismos compatíveis com o Apache Iceberg.

Outros tipos

No que tange a analytics de toda a empresa, vários tipos de dados podem não se encaixar perfeitamente no modelo de banco de dados relacional ou não relacional, como arquivos e tabelas brutos. Isso significa que tais dados serão armazenados em formatos diferentes. Por exemplo, dados de streaming semiestruturados podem ser armazenados em arquivos Apache Avro, e o Amazon S3 pode ser usado para armazenar qualquer tipo de dado.

Ao selecionar um sistema de data analytics, será provavelmente preciso usar a capacidade de análise desses tipos de arquivo em conjunto com seus bancos de dados.

Como implementar analytics de banco de dados na AWS?

Diferentes bancos de dados, tipos de dados e sistemas de gerenciamento e armazenamento de banco de dados lidam com data analytics de maneiras únicas. A realização de analytics em data warehouses, data lakes e lakehouses exige estratégias e tecnologias diferentes.

Garanta uma governança de dados fundamental desde o início ao usar o Amazon DataZone para catalogar, descobrir, compartilhar e governar dados armazenados na AWS, on-premises e em fontes de terceiros.

O Amazon Managed Workflows para Apache Airflow (MWAA) pode ajudar a orquestrar o processo de análise de dados por meio da transferência e transformação de dados como uma ferramenta de automação de pipelines e acionar fluxos de trabalho de analytics em seu warehouse, lake ou lakehouse.

Etapa 1: centralizar dados de diversas fontes em um sistema maior

Há várias maneiras de transferir dados das fontes atuais para data warehouses, data lakes e data lakehouses. Talvez os dados precisem ser transformados e limpos antes do armazenamento. Pode haver outras considerações, como tipos de dados confidenciais do cliente, permissões de acesso e acesso local a alguns dados.

A maneira mais fácil de transferir dados em preparação para uma configuração de warehouse, lake ou lakehouse da AWS é primeiro mover os dados para o S3.

Os dados de streaming podem exigir novos serviços, como o Amazon Data Firehose para entrega de dados de streaming em tempo real ou o Amazon Kinesis Data Streams para ingestão e agregação de dados.

Etapa 2: transformar e normalizar dados

Alguns dados precisarão de transformação e normalização antes de serem analisados.

O AWS Glue descobre e se conecta a mais de 100 fontes de dados diversas, gerencia dados em um catálogo de dados centralizado e cria, executa e monitora visualmente pipelines de dados para carregar dados em data lakes, data warehouses e lakehouses. O AWS Glue DataBrew é uma ferramenta de preparação de dados visuais que facilita tarefas como limpar e normalizar dados para analistas e cientistas de dados.

O Amazon EMR oferece runtimes com desempenho otimizado para big data analytics do Apache Spark, Trino, Apache Flink e Hive, simplificando os fluxos de trabalho e os tempos de processamento do data lake.

O Amazon SageMaker Data Wrangler é a maneira mais rápida e fácil de preparar dados para machine learning.

Etapa 3: análise combinada de dados

Depois que os dados são armazenados, conectados e transformados, os analistas de dados utilizam o warehouse, lake ou lakehouse para realizar análises. Existem várias técnicas de data analytics, dependendo do caso de uso.

Consultas

O Amazon Redshift tem recursos de consulta integrados para data warehouses. O Amazon Athena presta suporte à análise e consulta de dados não estruturados, semiestruturados e estruturados armazenados em data lakes do Amazon S3. Esse serviço é otimizado para realizar análise e exploração de dados em tempo real, o que permite que os usuários consultem e visualizem dados de forma interativa. O Amazon SageMaker Lakehouse também oferece recursos de consulta integrados.

Business intelligence

O Amazon QuickSight fornece data analytics de business intelligence (BI) unificado em grande escala, abrangendo data warehouses, data lakes e lakehouses. A visualização de dados é um serviço fundamental no Amazon QuickSight.

Machine learning

O Amazon Redshift ML pode ser usado para análises de machine learning em warehouses do Redshift. O Amazon SageMaker oferece machine learning e outros recursos de analytics em data lakes e lakehouses.

Para o Amazon SageMaker Lakehouse

Com o SageMaker Lakehouse, é possível acessar e consultar seus dados diretamente com todas as ferramentas compatíveis com Apache Iceberg em uma única cópia de dados. É possível usar ferramentas e mecanismos de analytics de sua preferência, como o SQL, o Apache Spark, ferramentas de business intelligence (BI) e de IA/ML, bem como colaborar com dados armazenados em data lakes do Amazon S3 e em warehouses do Amazon Redshift.

Dados de streaming

O Amazon Kinesis pode coletar, processar e analisar fluxos de dados e vídeo em tempo real de forma segura e escalável.

Como a AWS pode prestar suporte às suas necessidades de analytics de banco de dados?

A análise de bancos de dados exige muito mais do que apenas consultas SQL em ambientes corporativos modernos. Ao usar data warehouses, data lakes e lakehouses, os analistas de dados podem aproveitar todo o valor dos dados, realizando data analytics em várias fontes, tipos e funções.

A arquitetura correta de análise de banco de dados ajuda a garantir que sua solução seja escalável, pronta para ser executada e integrável aos serviços atualmente essenciais de ML e analytics preditivo. Comece criando uma conta gratuita na AWS hoje mesmo.