Geral
- Repositório de metadados unificado: o AWS Glue é integrado a uma grande variedade de Serviços da AWS. O AWS Glue aceita dados armazenados no Amazon Aurora, no Amazon RDS MySQL, no Amazon RDS PostgreSQL, no Amazon Redshift e no Amazon S3, bem como nos bancos de dados MySQL e PostgreSQL da Virtual Private Cloud (Amazon VPC) em execução no Amazon EC2. O AWS Glue disponibiliza integração pronta para uso com os serviços Amazon Athena, Amazon EMR e Amazon Redshift Spectrum e também com qualquer aplicativo compatível com o Apache Hive Metastore.
- Reconhecimento automático de esquema e partição: o AWS Glue faz automaticamente crawling de fontes de dados, identifica formatos de dados e sugere esquemas e transformações. Os crawlers podem ajudar a automatizar a criação de tabelas e o carregamento automático de partições.
- Pipelines fáceis de criar: o mecanismo ETL do AWS Glue gera código Python personalizável, reutilizável e portátil. É possível editar o código usando um notebook ou um IDE preferencial, e compartilhá-lo com outras pessoas usando o GitHub. Quando seu trabalho ETL estiver pronto, você poderá programá-lo para que seja executado na infraestrutura Spark com aumento de escala horizontal, totalmente gerenciada do AWS Glue. O AWS Glue não tem servidor, por isso ele administra o provisionamento, a configuração e a escalabilidade dos recursos exigidos para executar trabalhos ETL, o que permite a integração total do ETL ao seu fluxo de trabalho.
Quando usar o Athena em vez de outros serviços de big data
Criação de tabelas, formatos de dados e partições
- Logs do Apache Web: "org.apache.hadoop.hive.serde2.RegexSerDe"
- CSV: "org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe"
- TSV: "org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe"
- Delimitadores personalizados: "org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe"
- Parquet: "org.apache.hadoop.hive.ql.io.parquet.serde.ParquetHiveSerDe"
- Orc: "org.apache.hadoop.hive.ql.io.orc.OrcSerde"
- JSON: “org.apache.hive.hcatalog.data.JsonSerDe” OU org.openx.data.jsonserde.JsonSerDe
Criação de consultas e formatos de dados
P: Posso usar o Amazon QuickSight com o Amazon Athena?
P: O Athena é compatível com outras ferramentas de BI e outros clientes SQL?
P: Como faço para acessar as funções compatíveis com o Amazon Athena?
Você pode gravar suas UDFs em Java usando o SDK do Athena Query Federation. Quando uma UDF é usada em uma consulta SQL enviada ao Athena, ela é invocada e executada no AWS Lambda. Os UDFs podem ser usados nas cláusulas SELECT e FILTER de uma consulta SQL. Você pode invocar várias UDFs na mesma consulta.
Consulta federada
P: O que é uma consulta federada?
Se você tiver dados em fontes diferentes do Amazon S3, poderá usar o Athena para consultar os dados no local ou criar pipelines que extraem dados de várias fontes de dados e os armazenam no Amazon S3. Com o Athena Federated Query, você pode executar consultas SQL em dados armazenados em fontes de dados relacionais, não relacionais, de objetos e personalizadas.
P: Por que você deve usar consultas federadas no Athena?
As organizações geralmente armazenam dados em uma fonte de dados que atende às necessidades de suas aplicações ou processos de negócios. Podem incluir bancos de dados relacionais, de chave-valor, de documento, de memória, de pesquisa, de grafos, de séries temporais e de livros contábeis para armazenar dados em um data lake do S3. A execução de análises em fontes tão diversas pode ser complexa e demorada porque normalmente requer aprender novas linguagens de programação ou construções de banco de dados e construir pipelines complexos para extrair, transformar e duplicar dados antes que possam ser usados para análise. O Athena elimina essa complexidade, permitindo que você execute consultas SQL nos dados onde estão. Você pode usar construções SQL conhecidas para consultar dados em várias fontes de dados para uma análise rápida, ou usar consultas SQL agendadas para extrair e transformar dados de várias fontes de dados e armazená-las no S3 para análises adicionais.
P: Quais fontes de dados têm suporte?
O Athena fornece conectores integrados para vários armazenamentos de dados populares, incluindo Amazon Redshift e Amazon DynamoDB. Você pode usar esses conectores para habilitar casos de uso de análise SQL em tipos de armazenamento estruturado, semiestruturado, de objetos, de grafos, de séries temporais e outros. Para obter uma lista de fontes compatíveis, consulte Usar conectores de origem dos dados do Athena.
Você também pode usar o SDK do conector de dados do Athena para criar um conector de origem dos dados personalizado e consultá-lo com o Athena. Comece analisando nossa documentação e o exemplo de implementação do conector.
P: Quais casos de uso a consulta federada permite?
Com o Athena, você pode aproveitar seu conhecimento SQL existente para extrair insights de uma ampla variedade de origens dos dados sem aprender uma nova linguagem, desenvolver scripts para extrair (e duplicar) dados ou gerenciar infraestrutura. Com o Amazon Athena, é possível:
- Executar análises sob demanda em dados espalhados por vários armazenamentos de dados usando uma única ferramenta e dialeto SQL
- Visualizar dados em aplicações de inteligência de negócios que enviam junções complexas e de várias fontes para o mecanismo de computação distribuído do Athena por meio de interfaces JDBC e ODBC
- Projetar pipelines ETL de autoatendimento e fluxos de trabalho de processamento de dados baseados em eventos com a integração do Athena ao AWS Step Functions
- Unificar diversas origens dos dados para produzir recursos de entrada avançados para fluxos de trabalho de treinamento de modelos de machine learning
- Desenvolver aplicações de dados como um produto voltadas para o usuário que apresentam insights em arquiteturas de malha de dados
- Suporte a casos de uso de análise enquanto sua organização migra fontes on-premises para a Nuvem AWS
P: Posso usar uma consulta federada para ETL (Extrair, Transformar, Carregar)?
O Athena salva os resultados da consulta em um arquivo no Amazon S3. Isso significa que você pode usar o Athena para disponibilizar dados federados para outros usuários e aplicações. Se você deseja realizar análises nos dados usando o Athena sem consultar repetidamente a fonte subjacente, use a função CREATE TABLE AS do Athena. Você também pode usar a função UNLOAD do Athena para consultar os dados e armazenar os resultados em um formato de arquivo específico no Amazon S3.
P: Como funcionam os conectores de fonte de dados?
Um conector de origem dos dados é um trecho de código executado no AWS Lambda que faz a tradução entre sua origem dos dados de destino e o Athena. Depois de usar um conector de origem dos dados para registrar um armazenamento de dados no Athena, você pode executar consultas SQL em armazenamentos de dados federados. Quando uma consulta é executada em uma fonte federada, o Athena chama a função do Lambda e a encarrega de executar as partes de sua consulta que são específicas da fonte federada. Para saber mais, consulte Usar a consulta federada do Amazon Athena.
Machine learning
Segurança e disponibilidade
Definição de preço e faturamento

Explore todas as opções de definição de preço oferecidas pelo Amazon Athena.

Obtenha acesso instantâneo ao nível gratuito da AWS.

Comece a criar com o Amazon Athena no Console de Gerenciamento da AWS.