Geral

P: O que é o Amazon Athena?
O Amazon Athena é um serviço de consultas interativas que facilita a análise de dados no Amazon S3 usando SQL padrão. O Athena não usa servidor, de forma que não existe uma infraestrutura para configurar ou gerenciar; é possível começar a analisar os dados imediatamente. Não é necessário nem mesmo carregar dados no Athena, ele trabalha diretamente com os dados armazenados no S3. Para começar, basta fazer login no Athena Management Console, definir seu esquema e dar início às consultas. O Amazon Athena usa o Presto, com suporte completo a SQL padrão, e funciona com diversos formatos de dados padrão, como CSV, JSON, ORC, Apache Parquet e Avro. Apesar de o Amazon Athena ser ideal para queries rápidas ad hoc e se integrar com o Amazon QuickSight para facilidade de visualização, ele também consegue lidar com análise complexa, inclusive grandes junções, funções de janela e arrays.
 
P: O que posso fazer com o Amazon Athena?
O Amazon Athena ajuda você analisar os dados armazenados no Amazon S3. Você pode usar o Athena para rodar queries ad hoc usando SQL padrão ANSI, sem a necessidade de agregar ou carregar os dados no Athena. O Amazon Athena pode processar datasets desestruturados, semi-estruturados e estruturados. Os exemplos incluem formatos de dados CSV, JSON e Avro, além de formatos de dados colunares como Apache Parquet e Apache ORC. O Amazon Athena se integra com o Amazon QuickSight para facilidade de visualização. Você também pode usar o Amazon Athena para gerar relatórios ou explorar dados com ferramentas de inteligência de negócios ou clientes SQL conectados por meio de um driver ODBC ou JDBC.
 
P: Como faço para começar a usar o Amazon Athena?
Para começar a usar o Amazon Athena, basta fazer login no Console de Gerenciamento da AWS para o Athena e criar seu esquema escrevendo statements DDL no console ou usando um assistente de criação de tabelas. Então, você pode começar a consultar dados usando o editor de queries incorporado. O Athena faz queries dos dados diretamente pelo Amazon S3, para que nenhum carregamento seja necessário.
 
P: Como faço para acessar o Amazon Athena?
O Amazon Athena pode ser acessado por meio do Console de Gerenciamento da AWS, de uma API ou de um driver ODBC ou JDBC. Você pode executar consultas e adicionar tabelas ou partições de forma programática usando o driver ODBC ou JDBC.
 
P: Quais são os limites de serviço associados ao Amazon Athena?
Clique aqui para saber mais sobre os limites de serviço.
 
P: Qual é a tecnologia por trás do Amazon Athena?
O Amazon Athena usa o Presto com suporte completo a SQL padrão, e funciona com diversos formatos de dados padrão, como CSV, JSON, ORC, Avro e Parquet. O Athena consegue lidar com análises complexas, inclusive grandes associações, funções de janela e matrizes. Como o Amazon Athena usa o Amazon S3 como datastore subjacente, ele é altamente disponível e durável, com dados armazenados em redundância em vários locais e vários dispositivos em cada local. Saiba mais sobre o Presto aqui.
 
P: Como o Amazon Athena armazena definições e esquemas de tabela?
O Amazon Athena usa um catálogo de dados gerenciado para armazenar informações e esquemas sobre os bancos de dados e as tabelas que você cria para os dados armazenados no Amazon S3. Nas regiões em que o AWS Glue encontra-se disponível, você pode fazer o upgrade para usar o AWS Glue Data Catalog com o Amazon Athena. Nas regiões em que o AWS Glue não está disponível, o Athena usa um catálogo interno.
Você pode modificar o catálogo usando statements DDL ou pelo Console de Gerenciamento da AWS. Todos os esquemas que você definir serão automaticamente salvos, a menos que você explicitamente os exclua. O Athena usa a tecnologia schema-on-read, o que significa que suas definições de tabela são aplicadas aos dados no S3 quando as queries estiverem sendo executadas. Não é necessário carregamento nem transformação de dados. Você pode excluir as definições de tabela e o esquema sem afetar os dados subjacentes armazenados no Amazon S3.
 
P: Por que devo atualizar para o AWS Glue Data Catalog?
O AWS Glue é um serviço ETL totalmente gerenciado. O Glue tem três componentes principais: 1) um crawler que automaticamente verifica as fontes de dados, identifica formatos de dados e infere esquemas, 2) um serviço ETL gerenciado que permite transformar e migrar dados para vários destinos, e 3) um catálogo de dados que armazena informações de metadados sobre tabelas e bancos de dados armazenados no S3 ou em um datastore compatível com ODBC ou JDBC. Para usar os benefícios do Glue, você deve fazer o upgrade, deixando de usar o catálogo interno do Athena e adotando o Glue Data Catalog.
Os benefícios do upgrade para o Glue Data Catalog são:
  1. Repositório de metadados unificado: o AWS Glue é integrado a uma grande variedade de Serviços da AWS. O AWS Glue aceita dados armazenados no Amazon Aurora, no Amazon RDS MySQL, no Amazon RDS PostgreSQL, no Amazon Redshift e no Amazon S3, bem como nos bancos de dados MySQL e PostgreSQL da Virtual Private Cloud (Amazon VPC) em execução no Amazon EC2. O AWS Glue disponibiliza integração pronta para uso com os serviços Amazon Athena, Amazon EMR e Amazon Redshift Spectrum e também com qualquer aplicativo compatível com o Apache Hive Metastore.
  2. Reconhecimento automático de esquema e partição: o AWS Glue faz automaticamente crawling de fontes de dados, identifica formatos de dados e sugere esquemas e transformações. Os crawlers podem ajudar a automatizar a criação de tabelas e o carregamento automático de partições.
  3. Pipelines fáceis de criar: o mecanismo ETL do AWS Glue gera código Python personalizável, reutilizável e portátil. É possível editar o código usando um notebook ou um IDE preferencial, e compartilhá-lo com outras pessoas usando o GitHub. Quando seu trabalho ETL estiver pronto, você poderá programá-lo para que seja executado na infraestrutura Spark com aumento de escala horizontal, totalmente gerenciada do AWS Glue. O AWS Glue não tem servidor, por isso ele administra o provisionamento, a configuração e a escalabilidade dos recursos exigidos para executar trabalhos ETL, o que permite a integração total do ETL ao seu fluxo de trabalho.
Clique aqui para saber mais sobre o Glue Data Catalog.
 
P: Existem instruções detalhadas sobre o upgrade para o AWS Data Catalog?
Sim. O guia detalhado pode ser encontrado aqui.
 
P: Em quais regiões o Amazon Athena está disponível?
Consulte a tabela de produtos e serviços por região para conhecer detalhes da disponibilidade do serviço do Amazon Athena por região.
 

Recursos de demonstração

P: Quais recursos de visualização estão disponíveis no Athena?
Agora você pode invocar seus modelos de machine learning (ML) do SageMaker em uma consulta SQL do Athena para executar inferência. A capacidade de usar modelos de ML em consultas SQL simplifica tarefas complexas, como detecção de anomalias, análise de coorte de clientes e previsões de vendas, para que sejam tão simples quanto escrever uma consulta SQL. Saiba mais.
 
Com a consulta federada, você pode analisar os dados armazenados em uma variedade de armazenamentos de dados, locais ou hospedados na AWS, dentro da mesma consulta. O Athena oferece suporte a consultas federadas em fontes de dados relacionais, não relacionais, de objetos ou personalizadas. Você também pode gravar seu próprio conector de fonte de dados usando o Query Federation SDK. Saiba mais.
 
Com as funções definidas pelo usuário (UDFs), você pode escrever suas próprias funções em Java e invocá-las na sua consulta SQL do Athena. Saiba mais.
 
Você pode conectar o Athena ao seu Metastore Apache Hive externo. Se o conjunto de dados estiver armazenado no Amazon S3, além de usar o Catálogo de dados do AWS Glue como seu armazenamento de metadados, você poderá conectar o Athena ao Metastore Hive usando um conector de fonte de dados baseado no AWS Lambda. Saiba mais.
 
P: Como testo os recursos de demonstração?
Todas as consultas do Athena originárias do Workgroup AmazonAthenaPreviewFunctionality serão consideradas consultas de teste de demonstração. Você pode criar e configurar um novo Workgroup AmazonAthenaPreviewFunctionality usando as APIs do Athena ou o Athena UX. Para criar um novo Workgroup, siga as etapas aqui.
 
As notas a seguir são importantes para o uso dos recursos de demonstração. Não edite o nome do Workgroup. Você pode editar outras propriedades do Workgroup, como Enable CloudWatch metrics e Enable Requester Pays. Você pode usar o Console do Athena, os drivers JDBC/ODBC ou as APIs para enviar suas consultas de teste. Não deixe de especificar o Workgroup: AmazonAthenaPreviewFunctionality quando enviar as consultas de teste. A funcionalidade de demonstração está disponível apenas na região us-east-1. Se você usar o Athena em qualquer outra região e enviar consultas usando o Workgroup:A mazonAthenaPreviewFunctionality,sua consulta falhará. As chamadas entre regiões da AWS não são permitidas no modo de demonstração.
 
P: É seguro usar os recursos de demonstração do Athena na minha conta de produção?
Não recomendamos a integração da sua carga de trabalho de produção ao Workgroup de demonstração AmazonAthenaPreviewFunctionality. O desempenho da consulta pode variar entre o Workgroup de demonstração e os outros workgroups da sua conta. Além disso, podemos adicionar novos recursos e correções de bugs ao Workgroup de demonstração que pode não ser compatível com versões anteriores.
 
P: Como posso enviar minhas consultas?
Você pode enviar suas consultas usando o Console do Athena, as APIs do Athena ou o driver JDBC de demonstração do Athena com qualquer consulta pronta para uso e ferramentas de demonstração de resultados, como o SQL WorkBench.
 
P: Como forneço feedback sobre a funcionalidade do recurso de demonstração?
Seu feedback é importante para nós. Envie seus comentários para athena-feedback@amazon.com.
 
P: O teste dos recursos de demonstração é pago?
Durante a demonstração, você não será cobrado pelos dados acessados em fontes de dados federadas. No entanto, serão cobradas as taxas padrão do Athena pelos dados acessados no Amazon S3. Além disso, serão cobradas as taxas padrão pelos serviços da AWS usados com o Athena, como Amazon S3, AWS Lambda, AWS Glue, Amazon SageMaker e AWS Serverless Application Repository. Por exemplo, serão cobradas as taxas de armazenamento, solicitações e transferência de dados entre regiões do S3. Como padrão, os resultados de consulta são armazenados em um bucket do S3 de sua escolha e também são cobrados de acordo com as taxas padrão do Amazon S3. Se você usar o AWS Lambda, será cobrado pelo número de solicitações de funções e pela duração dessas funções, ou seja, o tempo necessário para a execução do código.
 
P: O que acontece quando a demonstração chega ao fim?
Todas as consultas enviadas por meio do Workgroup AmazonAthenaPreviewFunctionality falharão. Você pode continuar enviando consultas de outros Workgroups. Se você não especificar nenhum workgroup, a consulta será executada automaticamente usando o Workgroup primário padrão. Note que a demonstração de qualquer recurso pode ser encerrada a qualquer momento.

Quando usar o Athena em vez de outros serviços de big data

P: Qual é a diferença entre o Amazon Athena, o Amazon EMR e o Amazon Redshift?
Serviços de query, como o Amazon Athena, data warehouses, como o Amazon Redshift, e estruturas de processamento de dados sofisticadas, como o Amazon EMR, atendem a diferentes necessidades e casos de uso. Você só precisa escolher a ferramenta certa para o trabalho. O Amazon Redshift tem a maior rapidez no desempenho de query para relatórios corporativos e cargas de trabalho de business intelligence, especialmente naqueles que envolvem SQL extremamente complexo com múltiplas junções e subqueries. O Amazon EMR simplifica e oferece boa relação custo-benefício para a execução de estruturas de processamento altamente distribuídas, como Hadoop, Spark e Presto, quando comparado a implantações locais (on-premises). O Amazon EMR é flexível – você pode rodar aplicações e código personalizados, além de definir parâmetros computacionais, de memória, armazenamento e aplicações específicos para otimizar os requisitos analíticos. O Amazon Athena é a forma mais fácil de rodar queries ad hoc para dados no S3 sem a necessidade de configurar nem gerenciar nenhum servidor.
 
P: Quando você deve usar um data warehouse corporativo repleto de recursos, como o Amazon Redshift, em vez de um serviço de query como o Amazon Athena?
Um data warehouse como o Amazon Redshift é a sua melhor opção quando você precisar reunir em um formato comum dados de várias fontes diferentes – como sistemas de inventário, sistemas financeiros e sistemas de vendas a varejo – e armazená-lo por longos períodos, de forma a criar relatórios de negócios sofisticados com base em dados históricos; nesse caso, um data warehouse como o Amazon Redshift é a melhor escolha.
 
Data warehouses coletam dados de toda a empresa e agem como "fonte única da verdade" para geração e análise de relatórios. Os data warehouses pegam dados de várias fontes, os formata e organiza, armazena e oferece suporte a queries complexas de alta velocidade que produzem relatórios comerciais. O mecanismo de query do Amazon Redshift foi otimizado para ter um desempenho especialmente bom neste caso de uso – quando você precisa rodar queries complexas que fazem a junção de um grande números de tabelas de bancos de dados muito grandes. O TPC-DS é um benchmark padrão projetado para replicar este caso de uso, e o Redshift roda essas queries até 20 vezes mais rápido que os serviços de queries otimizados para dados não estruturados. Quando você precisar rodar queries em dados altamente estruturados que apresentem muitas junções em muitas tabelas muito grandes, selecione Amazon Redshift.
 
Por comparação, serviços de query, como o Amazon Athena, facilitam a execução de queries interativas em dados diretamente no Amazon S3, sem a preocupação de formatação de dados ou gerenciamento de infraestrutura. Por exemplo, o Athena é ótimo se você precisar só rodar uma query rápida em alguns logs da web para solucionar um problema de desempenho no seu local. Com os serviços de query, isso pode ser feito com mais rapidez. Basta definir uma tabela para seus dados e iniciar a query usando SQL padrão.
 
Você também pode usar os dois serviços em conjunto. Se você colocar seus dados no Amazon S3 antes de carregá-los no Amazon Redshift, esses dados também poderão ser registrados e consultados pelo Amazon Athena.
 
P: Quando eu devo usar o Amazon EFS em vez do Amazon Athena?
O Amazon EMR vai muito além da simples execução de consultas SQL. Com o EMR, você pode rodar diversas tarefas de processamento de dados de escalonamento horizontal para aplicações como Machine Learning, análise de gráficos, transformação de dados, streaming de dados e praticamente qualquer coisa que você puder codificar. Você deve usar o Amazon EMR se usar código personalizado para processar e analisar datasets extremamente grandes com as estruturas de processamento de big data mais recentes, como Spark, Hadoop, Presto ou Hbase. O Amazon EMR lhe dá controle total sobre a configuração dos seus clusters e do software instalado neles.
 
Você deverá usar o Amazon Athena se quiser rodar queries SQL ad hoc interativas nos dados no Amazon S3 sem ter de gerenciar infraestruturas ou clusters.
 
P: Posso usar o Amazon Athena para fazer queries de dados que processo usando o Amazon EMR?
Sim, o Amazon Athena é compatível com muitos dos mesmos formatos de dados que o Amazon EMR. O catálogo de dados do Athena é compatível com a metastore Hive. Se você estiver usando EMR e já tiver um metastore Hive, basta executar os statements DDL no Amazon Athena e começar a consultar os dados imediatamente, sem afetar as tarefas no Amazon EMR.
 
P: Como a consulta federada no Athena se relaciona com outros serviços da AWS? [demonstração]
A consulta federada no Athena permite executar consultas SQL em várias fontes de dados relacionais, não relacionais e personalizadas. Você obtém uma maneira unificada de executar consultas SQL em vários armazenamentos de dados.
 
P: Como o machine learning no Athena se relaciona com outros serviços da AWS? [demonstração]
As consultas SQL do Athena podem chamar modelos de ML implantados no Amazon SageMaker. Você pode especificar a localização do Amazon S3 em que deseja armazenar os resultados dessas consultas SQL do Athena.
 
 

Criação de tabelas, formatos de dados e partições

P: Como faço para criar tabelas e esquema para meus dados no Amazon S3?
O Amazon Athena usa Apache Hive DDL para definir tabelas. Você pode executar statements DDL por meio do console do Athena, de um driver ODBC ou JDBC, da API ou do assistente de criação de tabelas do Athena. Se você usar o AWS Glue Data Catalog com o Athena, poderá também usar os crawlers do Glue para inferir esquemas e partições automaticamente. Um crawler do AWS Glue conecta-se a um datastore, analisa uma lista priorizada de classificadores para extrair o esquema dos dados e de outras estatísticas e, por fim, preenche o Glue Data Catalog com os metadados obtidos. Os crawlers podem ser executados periodicamente para detectar a disponibilidade de novos dados, bem como alterações feitas nos dados atuais, inclusive alterações de definição de tabela. Os crawlers adicionam automaticamente novas tabelas, novas partições para tabelas atuais e novas versões de definições de tabela. É possível personalizar os crawlers do Glue para classificar seus próprios tipos de arquivos.
 
Ao criar um novo esquema de tabela no Amazon Athena, o esquema será armazenado no catálogo de dados e usado ao executar consultas, mas não modificará os dados no S3. O Athena usa uma abordagem conhecida como schema-on-read, que permite a você projetar um esquema nos dados no momento em que executa uma query. Isso elimina a necessidade de carregamento ou transformação de dados. Saiba mais sobre criação de tabelas.
 
P: Que formatos de dados são compatíveis com o Amazon Athena?
O Amazon Athena é compatível com uma grande variedade de formatos de dados, como CSV, TSV, JSON ou Textfiles, e também com formatos colunares de código aberto, como Apache ORC e Apache Parquet. O Athena também é compatível com dados compactados em formato Snappy, Zlib, LZO e GZIP. Ao compactar, particionar e usar formatos colunares, você pode melhorar o desempenho e reduzir os custos.
 
P: Que tipos de dados são compatíveis com o Amazon Athena?
O Amazon Athena é compatível com tipos de dados simples, como INTEGER, DOUBLE, VARCHAR, e com tipos de dados complexos, como MAPS, ARRAY e STRUCT.  
 
P: Posso executar uma query Hive no Athena?
O Amazon Athena só usa o Hive para DDL (Data Definition Language) e para criação/modificação e exclusão de tabelas e/ou partições. Clique aqui para ver a lista completa de statement compatíveis. O Athena usa Presto ao executar queries SQL no Amazon S3. Você pode executar statements SELECT de SQL compatível com ANSI para fazer query dos seus dados no Amazon S3.
 
P: O que é SerDe?
SerDe é a sigla de Serializer/Deserializer (serializador/desserializador), que são bibliotecas que dizem ao Hive como interpretar formatos de dados. Os statements DLL do Hive exigem que você especifique um SerDe, de forma que o sistema saiba como interpretar os dados para os quais você está apontando. O Amazon Athena usa SerDes para interpretar os dados lidos pelo Amazon S3. O conceito do SerDes no Athena é o mesmo que o conceito usado no Hive. O Amazon Athena é compatível com os seguintes SerDes:
  1. Logs do Apache Web: "org.apache.hadoop.hive.serde2.RegexSerDe"
  2. CSV: "org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe"
  3. TSV: "org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe"
  4. Delimitadores personalizados: "org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe"
  5. Parquet: "org.apache.hadoop.hive.ql.io.parquet.serde.ParquetHiveSerDe"
  6. Orc: "org.apache.hadoop.hive.ql.io.orc.OrcSerde"
  7. JSON: “org.apache.hive.hcatalog.data.JsonSerDe” OU org.openx.data.jsonserde.JsonSerDe
 
P: Posso adicionar meu próprio SerDe (serializador/desserializador) ao Amazon Athena?
Atualmente, não é possível adicionar seu próprio SerDe ao Amazon Athena. Como nós valorizamos seus comentários, se houver algum SerDe que você gostaria de adicionar, entre em contato com a equipe do Athena pelo Athena-feedback@amazon.com
 
P: Eu criei arquivos Parquet/ORC usando Spark/Hive. Poderei fazer query deles via Athena?
Sim, arquivos Parquet e ORC criados via Spark podem ser lidos no Athena.
 
P: Tenho dados que vêm do Kinesis Firehose. Posso fazer query deles usando o Athena?
Se os dados do seu Kinesis Firehose estiverem armazenados no Amazon S3, você pode fazer query deles usando o Amazon Athena. Basta criar um esquema para seus dados no Athena e iniciar a query. Recomendamos que você organize os dados em partições para otimizar o desempenho. Você pode adicionar partições criadas pelo Kinesis Firehose usando statements DDL ALTER TABLE. Saiba mais sobre partições.
 
P: O Amazon Athena é compatível com particionamento de dados?
Sim. O Amazon Athena permite que você particione os dados em qualquer coluna. As partições lhe permitem limitar a quantidade de dados lidos a cada query, acarretando economia de custos e agilidade no desempenho. Você pode especificar o esquema de particionamento usando a cláusula PARTITIONED BY no statement CREATE TABLE. Saiba mais sobre particionamento de dados.
 
P: Como faço para adicionar novos dados a uma tabela do Amazon Athena?
Se seus dados forem particionados, você precisará executar uma query de metadados (ALTER TABLE ADD PARTITION) para adicionar a partição ao Athena quando forem disponibilizados novos dados no Amazon S3. Se seus dados não estiverem particionados, a simples adição de novos dados (ou arquivos) ao prefixo existente adicionará automaticamente os dados ao Athena. Saiba mais sobre particionamento de dados.
 
P: Já tenho grandes quantidades de dados de log no Amazon S3. Posso usar o Amazon Athena para fazer queries?
Sim, o Amazon Athena facilita rodar queries SQL padrão nos dados de log existentes. O Athena faz queries dos dados diretamente pelo Amazon S3, para que nenhuma movimentação ou carregamento de dados sejam necessários. Basta definir seu esquema usando statements DDL e iniciar imediatamente as queries dos dados.

Criação de queries e formatos de dados

P: Que tipos de queries são compatíveis com o Amazon Athena?
O Amazon Athena é compatível com queries SQL padrão ANSI. O Amazon Athena usa o Presto, um mecanismo SQL distribuído, in-memory e de código aberto, e é capaz de lidar com análises complexas, inclusive grandes junções, funções de janela e arrays.

P: Posso usar o Amazon QuickSight com o Amazon Athena?
Sim. O Amazon Athena se integra ao Amazon QuickSight, permitindo que você visualize os dados armazenados no Amazon S3.

P: O Athena é compatível com outras ferramentas de BI e outros clientes SQL?
Sim. O Amazon Athena é fornecido com um driver ODBC e JDBC que você pode usar com outras ferramentas de inteligência de negócios ou clientes SQL. Saiba mais sobre como usar um driver ODBC ou JDBC com o Athena.

P: Como faço para acessar as funções compatíveis com o Amazon Athena?
Clique aqui para saber mais sobre as funções compatíveis com o Amazon Athena.
 
P: Como faço para melhorar o desempenho da minha query?
Você pode melhorar o desempenho da sua query ao compactar, particionar ou converter os dados em formatos colunares. O Amazon Athena é compatível com formatos de dados em CSV, JSON ou colunar, como Apache Parquet e Apache ORC. Converter seus dados em formato compactado e colunar diminui o custo e melhora o desempenho da query ao permitir que o Athena examine menos dados do S3 ao executar sua query.
 
P: O Athena é compatível com funções definidas pelo usuário (UDF)? [demonstração]
O Amazon Athena agora oferece suporte às funções definidas pelo usuário (UDFs) para permitir a criação de funções escalares personalizadas e invocá-las em consultas SQL. Enquanto o Athena forneça funções internas, as UDFs permitem executar um processamento personalizado, como compactar e descompactar dados, redigir dados confidenciais ou aplicar descriptografia personalizada.

Você pode gravar seus UDFs em Java usando o Athena Query Federation SDK. Quando um UDF é usado em uma consulta SQL enviada ao Athena, é invocado e executado no AWS Lambda. Os UDFs podem ser usados nas cláusulas SELECT e FILTER de uma consulta SQL. Você pode chamar vários UDFs na mesma consulta.
 
P: Qual é a experiência do usuário durante a gravação de um UDF? [demonstração]
Você pode usar o Athena Query Federation SDK para gravar seu UDF. Os exemplos de UDF são fornecidos aqui. Você pode fazer upload de sua função para o AWS Lambda e depois invocá-la na sua consulta do Athena. Clique aqui para começar.
 
O Athena invocará seu UDF em um lote de linhas do conjunto de dados para otimizar o desempenho.

Consulta federada [em demonstração]

P: Por que você deve usar consultas federadas no Athena? [demonstração]
Os desenvolvedores costumam escolher bancos de dados relacionais, de valor-chave, de documento, de memória, de pesquisa, de gráfico, de séries temporais e de ledger, além de armazenar seus dados no S3. A execução de análises em dados espalhados por uma ampla variedade de fontes de dados pode ser complexa e demorada. Os analistas geralmente precisam aprender novas linguagens de programação e constructos de banco de dados e criar pipelines complexos que extraem, transformam e criam cópias de dados antes que eles possam analisá-los. Da mesma forma, os cientistas de dados geralmente precisam extrair dados de várias fontes de dados para criar um conjunto de dados adequado para extração e treinamento de recursos. Esse processo é demorado e inibe a criação de plataformas de autoatendimento, onde analistas e cientistas de dados podem criar facilmente pipelines que podem extrair dados de várias fontes. Os analistas geralmente dependem das equipes de engenharia de dados para criar esses pipelines, o que adiciona atrasos e complexidade. A consulta federada elimina essa complexidade fornecendo um serviço simples de usar, pago por consulta, sem servidor, que permite executar consultas SQL em uma variedade desses armazenamentos de dados. Você pode usar construções SQL conhecidas para consultar dados em várias fontes de dados para uma análise rápida, ou usar consultas SQL agendadas para extrair e transformar dados de várias fontes de dados e armazená-las no S3 para análises adicionais.
 
Além disso, você também pode ter bancos de dados e catálogos proprietários ou personalizados. As consultas federadas do Athena são extensíveis porque permitem que você escreva suas próprias ou use conectores desenvolvidos pela comunidade para executar consultas SQL em qualquer fonte de dados ou catálogo personalizado de sua escolha. Existem implementações de referência de código aberto para várias fontes de dados que podem ser usadas como base para o desenvolvimento de novas.
 
P: Quais casos de uso têm suporte pelas consultas federadas do Athena? [demonstração]
As consultas federadas do Athena oferecem suporte a uma ampla variedade de casos de uso. Um exemplo é a análise ad-hoc, na qual você costuma ter dados armazenados em vários armazenamentos de dados. Considere uma empresa de comércio eletrônico que usa o Amazon ElasticCache Redis para armazenar pedidos ativos, o Amazon DocumentDB ou o MongoDB para armazenar informações específicas do cliente, como endereço de e-mail, endereço de entrega, o Amazon CloudWatch Logs (por exemplo, armazenamento de dados personalizado) para armazenar os eventos de log da aplicação de processamento de pedidos. Você pode entender o que aconteceu com um pedido específico que foi relatado como atrasado. Você pode usar uma consulta simples para unir dados nos vários armazenamentos de dados e executar rapidamente a análise.
 
Outro exemplo é o ETL de várias fontes de dados. A execução da análise geralmente requer a montagem de dados de várias fontes de dados, para que possam ser publicadas posteriormente em um data warehouse ou consultadas usando mecanismos como Athena, Apache Spark ou Apache Presto. Essa montagem requer a construção de pipelines de dados que podem extrair e transformar dados de várias fontes em uma programação. A criação de pipelines de dados geralmente requer o aprendizado de novas linguagens de programação, como Python e Java, ou o uso de sistemas distribuídos em larga escala, como Apache Spark. Os analistas geralmente dependem das equipes de engenharia de dados para criar esses pipelines. Com as consultas federadas do Athena, qualquer pessoa pode expressar seus pipelines como instruções SQL e programá-los para execução.
 
Um terceiro exemplo são os extratos de machine learning: os cientistas de dados geralmente precisam extrair dados de várias fontes de dados para criar um conjunto de dados adequado para extração e treinamento de recursos. Esse processo é demorado e inibe a criação de plataformas de autoatendimento.
 
P: Como funcionam os conectores de fonte de dados do Athena? [demonstração]
Você pode executar consultas SQL em novos armazenamentos de dados registrando-os no Athena. Para registrar uma fonte de dados, use um Athena Data Source Connector específico para a fonte de dados. Um conector pode ser usado para estender a capacidade de consulta do Athena para novas fontes de dados. Você pode usar os conectores de código aberto fornecidos pela AWS, criar seus próprios, contribuir com os conectores existentes ou usar conectores criados pela comunidade ou pelo mercado. Dependendo do tipo de fonte de dados, um conector gerencia informações de metadados, identifica partes específicas das tabelas que precisam ser verificadas, lidas ou filtradas e gerencia o paralelismo.
 
Os conectores são executados como funções do AWS Lambda na conta do cliente. Cada conector é composto de duas funções do Lambda específicas para uma fonte de dados: uma para metadados e outra para leitura de registros. Você pode implantar as funções do Lambda usando o código no repositório do Github ou pode usar funções do Lambda pré-implantadas no AWS Serverless Application Repository. Depois que as funções do Lambda são implantadas, elas produzem um nome de recurso da Amazon ou ARN exclusivo. Você deve registrar esses ARNs no Athena. O registro de um ARN permite que o Athena descubra com qual função do Lambda deve falar durante a execução da consulta. Depois que o ARN estiver registrado, você poderá consultar a fonte de dados registrada. O processo precisa ser repetido para cada fonte de dados.
 
Quando uma consulta é executada em uma fonte de dados federada, o Athena expulsa as invocações do Lambda lendo metadados e dados em paralelo. O número de invocações paralelas depende dos limites de simultaneidade do Lambda em sua conta. Por exemplo, se você tiver um limite de 300 invocações simultâneas do Lambda, o Athena poderá executar 300 funções paralelas do Lambda para leitura de registros. Para duas consultas em execução paralela, o Athena invocará o dobro do número de execuções simultâneas. Você pode definir seu próprio limite permitindo controlar o custo e a taxa de transferência para a fonte de dados.
 
P: Quais conectores estão disponíveis para a consulta federada do Athena? [demonstração]
O Athena tem conectores de fonte de dados de código aberto para o Apache HBase, o Amazon DocumentDB, o Amazon DynamoDB e o Amazon CloudWatch Logs e CloudWatch Metrics. O Athena também possui um conector JDBC genérico que se conecta a qualquer fonte de dados compatível com JDBC e um conector do AWS Configuration Management Database (CMDB) que permite aos clientes executar consultas nos metadados de recursos da AWS.
 
P: Como uso o Query Federation SDK? [demonstração]
Você pode usar o Query Federation SDK para criar seu próprio conector a ser usado consultando uma fonte de dados usando o Athena. As implementações de modelo são fornecidas para cada um dos conectores. Você pode usar os modelos como base. Comece consultando nossa documentação.
 
P: Posso usar recursos de consulta federada para ETL? Qual é o fluxo de trabalho? [demonstração]
Todos os resultados da consulta do Athena são armazenados em uma localização do Amazon S3 definida por você. Você pode usar os recursos de consulta federada do Athena para executar uma consulta que verifica as fontes de dados de sua escolha e armazenar o resultado no S3 em uma consulta SQL. Há suporte para constructos SQL comuns, como JOINs, cláusulas de filtro etc. Além disso, você também pode definir suas próprias funções usando a funcionalidade UDF do Athena para pré ou pós-processamento do conjunto de dados de resultados.
 
P: Você vai liberar o suporte ao SDK em linguagens de programação que não sejam JAVA? [demonstração]
Informe-nos as linguagens de programação para as quais você deseja obter suporte enviando um e-mail para athena-feedback@amazon.com
 
P: Quais são as limitações conhecidas do Query Federation SDK? [demonstração]
No lançamento da demonstração, o Query Federation SDK oferece suporte apenas às funções do Lambda baseadas em JAVA e Reads.

Machine learning [em demonstração]

P: Quais casos de uso o Athena permite para ML incorporado? [demonstração]
Os casos de uso do Athena para ML abrangem diferentes setores, como nos exemplos abaixo. Os analistas de dados de risco financeiro podem executar análises hipotéticas e simulações de Monte Carlo. Os analistas de negócios podem executar modelos de regressão linear ou de previsão para prever valores futuros que os ajudam a criar painéis de negócios mais sofisticados e prospectivos que preveem receitas. Os analistas de marketing poderiam usar modelos de clustering de k-means para ajudar a determinar seus diferentes segmentos de clientes. Os analistas de segurança podem usar modelos de regressão logística (bivariante e multivariante) para encontrar anomalias e detectar incidentes de segurança com base em vários logs.
 
P: Quais modelos de ML podem ser usados com o Athena? [demonstração]
O Athena pode invocar qualquer modelo de ML implantado no Amazon SageMaker. Você tem a flexibilidade de treinar seu próprio modelo usando seus dados proprietários ou usar um modelo pré-treinado e implantado no SageMaker. Por exemplo, a análise de cluster provavelmente seria treinada com seus próprios dados, pois você deseja categorizar novos registros nas mesmas categorias usadas nos registros anteriores. Por outro lado, para prever eventos esportivos do mundo real, você poderia usar um modelo disponível ao público, pois os dados de treinamento usados já seriam de domínio público. As previsões específicas do domínio ou do setor geralmente serão treinadas com seus próprios dados no SageMaker, e as necessidades indiferenciadas de ML poderão usar modelos externos.
 
P: Posso treinar meu modelo de ML usando o Athena? [demonstração]
Você não pode treinar e implantar seus modelos de ML no SageMaker usando o Athena. Você pode treinar seu modelo de ML ou usar um modelo pré-treinado existente que é implantado no SageMaker usando o Athena. A documentação que detalha as etapas de treinamento no SageMaker está aqui.
 
P: Posso executar inferência em modelos implantados em outros serviços, como Compreensão, Previsão ou Modelos, implantados em meu próprio cluster do EC2? [demonstração]
O Athena oferece suporte apenas à invocação de modelos ML implementados no SageMaker. Agradecemos o feedback sobre outros serviços que você deseja usar com o Athena. Envie seus comentários para: athena-feedback@amazon.com.
 
P: Quais são as implicações de desempenho do uso de consultas do Athena para inferência do SageMaker? [demonstração]
Estamos constantemente adicionando melhorias de desempenho operacional aos nossos recursos e serviços. Para otimizar o desempenho de suas consultas de ML do Athena, criamos lotes de linhas ao invocar seu modelo de ML do SageMaker para inferência. No momento, não oferecemos suporte a substituições de tamanho de lote de linhas fornecidas pelo usuário.
 
P: Quais recursos o ML do Athena permite? [demonstração]
O Athena oferece recursos de inferência (previsão) de ML envolvidos por uma interface SQL. Você também pode chamar uma função definida pelo usuário (UDF, também incluída na Demonstração) do Athena para invocar a lógica de pré ou pós-processamento no seu conjunto de resultados. As entradas podem incluir qualquer coluna, registro ou tabela e várias chamadas podem ser agrupadas em lote para maior escalabilidade. Você pode executar a inferência na fase Selecionar ou na fase Filtrar. Para saber mais, consulte nossa documentação.
 
P: Quais modelos de ML posso usar? [demonstração]
O Amazon SageMaker oferece suporte a uma variedade de algoritmos de ML. Você também pode criar seu modelo de ML proprietário e implantá-lo no Amazon SageMaker. Por exemplo, a análise de cluster provavelmente seria treinada com seus próprios dados, pois você deseja categorizar novos registros nas mesmas categorias usadas nos registros anteriores. Por outro lado, para prever eventos esportivos do mundo real, você poderia usar um modelo disponível ao público, pois os dados de treinamento usados seriam de domínio público.
 
Esperamos que as previsões específicas do domínio ou do setor geralmente serão treinadas com seus próprios dados no SageMaker, e as necessidades indiferenciadas de ML como machine translation poderão usar modelos externos.

Segurança e disponibilidade

P: Como faço para controlar o acesso aos meus dados?
O Amazon Athena lhe permite controlar o acesso aos seus dados usando políticas do AWS Identity and Access Management (IAM), listas de controle de acesso (ACLs) e políticas do bucket do Amazon S3. Com as políticas de IAM, você pode conceder aos usuários do IAM controle fino aos buckets do S3. Ao controlar o acesso aos dados no S3, você pode restringir quais usuários podem fazer queries usando o Athena.
 
O Athena pode consultar dados criptografados no Amazon S3?
Sim, você pode consultar dados criptografados usando a Criptografia no lado do servidor com o Amazon S3-Managed Encryption Keys, a Criptografia no lado do servidor com o AWS Key Management Service (KMS) – Managed Keys e a Criptografia no lado do cliente com as chaves gerenciadas pelo KMS. O Amazon Athena também tem integração com o KMS e oferece uma opção de criptografar seus conjuntos de resultados.
 
P: O Athena tem alta disponibilidade?
Sim. O Amazon Athena tem alta disponibilidade e executa queries usando recursos computacionais em vários locais, roteando automaticamente as queries da forma adequada se determinada unidade não estiver acessível. O Athena usa o Amazon S3 como datastore subjacente, conferindo alta disponibilidade e durabilidade aos seus dados. O Amazon S3 proporciona infraestrutura durável para armazenar dados importantes e foi projetado para oferecer durabilidade de objetos de 99,999999999%. Seus dados são armazenados com redundância em várias instalações e diversos dispositivos em cada instalação.
 
P: Posso fornecer acesso intercontas ao bucket do S3 de outra pessoa?
Sim, você pode fornecer acesso intercontas ao Amazon S3.

Definição de preço e faturamento

P: Como é determinado o preço do Amazon Athena?
O preço do Amazon Athena é determinado por query e cobranças baseadas na quantidade de dados examinados pela query. Você pode armazenar dados em diversos formatos no Amazon S3. Se você compactar seus dados, particioná-los ou convertê-los em formatos de armazenamento colunar, pagará menos, pois examinará menos dados. Converter dados pelo formato colunar permite que o Athena leia somente as colunas de que precisa para processar a query. Veja a página de preços do Athena para obter mais detalhes
 
P: Por que a cobrança é menor quando eu uso um formato de colunas?
O Amazon Athena cobra você pela quantidade de dados examinada por query. Compactar seus dados permite que o Amazon Athena examine menos dados. Converter seus dados em formatos colunares permite que o Athena leia seletivamente somente as colunas necessárias para processar os dados. Particionar seus dados também permite que o Athena restrinja a quantidade de dados examinados. Isso traz economia de custo e melhoria no desempenho. Veja o exemplo de definição de preços para obter mais detalhes.
 
P: Como faço para diminuir meus custos?
Você pode economizar de 30% a 90% nos custos com queries e obter melhor desempenho ao compactar, particionar e converter seus dados em formatos colunares. Cada uma dessas operações reduz a quantidade de dados de que o Amazon Athena precisa para examinar e executar uma query. O Amazon Athena é compatível com Apache Parquet e ORC, dois dos formatos colunares abertos mais populares. Você pode ver a quantidade de dados escaneados por query no console do Athena.
 
P: O Amazon Athena pode me cobrar por queries que falharem?
Não, você não é cobrado por queries que falharem.
 
P: O Amazon Athena pode me cobrar por queries canceladas?
Sim, se você cancelar uma query manualmente, será cobrado pela quantidade de dados examinados até o ponto em que cancelou a query.
 
P: Há alguma cobrança adicional associada ao Amazon Athena?
O Amazon Athena consulta dados diretamente pelo Amazon S3; por isso, seus dados-fonte são cobrados segundo as tarifas do S3. Quando o Amazon Athena roda uma query, ele armazena os resultados em um bucket do S3 da sua escolha e você é cobrado na tarifa padrão do S3 para esses conjuntos de resultados. Recomendamos que você monitore esses buckets e use políticas de ciclo de vida para controlar quantos dados ficam retidos.
 
P: P: Serei cobrado pelo uso do AWS Glue Data Catalog?
Sim. Você será cobrado separadamente pelo uso do AWS Glue Data Catalog. Clique aqui para saber mais sobre a definição de preço do Glue Data Catalog.
Imagem de página da web
Acesse a página de definição de preço

Explore as opções de definição de preço.

Saiba mais 
Imagem de cadastramento de conta
Cadastre-se para obter uma conta gratuita

Obtenha acesso instantâneo ao nível gratuito da AWS. 

Cadastre-se 
Imagem da caixa de ferramentas
Comece a criar no console

Comece a criar com o Amazon Athena no Console de Gerenciamento da AWS.

Faça login