Geral

P: O que é o AWS Glue?

O AWS Glue é um serviço de extração, transformação e carga (ETL) gerenciado e com pagamento conforme o uso. O serviço automatiza as etapas demoradas de preparação de dados para análise. O AWS Glue descobre e cria automaticamente o perfil dos dados usando o Glue Data Catalog, recomenda e gera código ETL para transformar dados de origem em esquemas de destino, e ainda executa as tarefas de ETL em um ambiente Apache Spark gerenciado com escalabilidade horizontal para carregar os dados no destino. O serviço permite configurar, orquestrar e monitorar fluxos de dados complexos.

P: Como faço para começar a usar o AWS Glue?

Para começar a usar o AWS Glue, basta fazer login no Console de Gerenciamento da AWS e navegar até a opção “Glue” sob a categoria “Analytics”. Você pode seguir um dos nossos tutoriais orientados para examinar um exemplo de caso de uso do AWS Glue. Também é possível encontrar código de exemplo de ETL no repositório do GitHub, em AWS Labs.

P: Quais são os principais componentes do AWS Glue?

O AWS Glue consiste em um catálogo de dados, que é um repositório central de metadados; um mecanismo de ETL que pode gerar automaticamente código Scala ou Python; e um programador flexível que processa a resolução de dependências, o monitoramento de tarefas e as tentativas de nova execução. Juntos, esses componentes automatizam a maior parte do trabalho pesado genérico necessário para descobrir, categorizar, limpar, enriquecer e aprimorar dados, permitindo que você invista mais tempo na análise dos dados.

P: Quando devo usar o AWS Glue?

Você deve usar o AWS Glue para descobrir propriedades de dados, transformá-los e prepará-los para análises. O Glue é capaz de descobrir automaticamente dados estruturados e semiestruturados armazenados em um data lake no Amazon S3, em um data warehouse no Amazon Redshift e em diversos bancos de dados executados na AWS. O serviço oferece uma visualização unificada dos dados por meio do catálogo de dados do Glue, disponível para ETL, consultas e relatórios usando serviços como Amazon Athena, Amazon EMR e Amazon Redshift Spectrum. O Glue gera automaticamente código Scala ou Python para tarefas de ETL que podem ser personalizadas ainda mais usando as ferramentas que você já conhece. O AWS Glue é um serviço sem servidor. Portanto, não há necessidade de configurar e gerenciar recursos de computação.

P: Para quais fontes de dados o AWS Glue oferece suporte?

O AWS Glue oferece suporte nativo a dados armazenados nos serviços Amazon Aurora, Amazon RDS for MySQL, Amazon RDS for Oracle, Amazon RDS for PostgreSQL, Amazon RDS for SQL Server, Amazon Redshift, DynamoDB e Amazon S3, bem como nos bancos de dados MySQL, Oracle, Microsoft SQL Server e PostgreSQL em uma Virtual Private Cloud (Amazon VPC) executada no Amazon EC2. O AWS Glue também oferece suporte a streams de dados do Amazon MSK, Amazon Kinesis Data Streams e Apache Kafka.

Também é possível criar código Scala ou Python personalizado e importar bibliotecas e arquivos Jar personalizados em trabalhos de ETL do AWS Glue para acessar fontes de dados que não contam com o suporte nativo do AWS Glue. Para obter mais detalhes sobre a importação de bibliotecas personalizadas, consulte a nossa documentação.

P: Como o AWS Glue se relaciona com o AWS Lake Formation?

R: O Lake Formation utiliza uma infraestrutura compartilhada com o AWS Glue, incluindo controles de console, criação de códigos e monitoramento de tarefas de ETL, um catálogo comum de dados e uma arquitetura sem servidor. Embora o AWS Glue ainda seja direcionado a esses tipos de funções, o Lake Formation abrange todos os recursos do AWS Glue E fornece recursos adicionais destinados a ajudar na criação, proteção e gerenciamento de um data lake. Consulte as páginas do AWS Lake Formation para obter mais detalhes.

Catálogo de dados do AWS Glue

P: O que é o catálogo de dados do AWS Glue?

O catálogo de dados do AWS Glue é um repositório central para armazenamento de metadados estruturais e operacionais de todos os ativos de dados. Para um determinado conjunto de dados, é possível armazenar a definição da tabela, a localização física e atributos relevantes para os negócios, bem como rastrear as alterações dos dados ao longo do tempo.

O catálogo de dados do AWS Glue é compatível com o Apache Hive Metastore e pode substituí-lo imediatamente para aplicativos de big data executados no Amazon EMR. Para obter mais informações sobre como configurar um cluster do EMR para usar o AWS Glue Data Catalog como substituto do Apache Hive Metastore, clique aqui.

O catálogo de dados do AWS Glue também oferece integração pronta para uso com o Amazon Athena, o Amazon EMR e o Amazon Redshift Spectrum. Após a adição das definições de tabelas ao catálogo de dados do Glue, elas estarão disponíveis para ETL e para consultas no Amazon Athena, no Amazon EMR e no Amazon Redshift Spectrum, oferecendo uma visualização comum dos dados em todos esses serviços.

P: Como faço para colocar metadados no catálogo de dados do AWS Glue?

O AWS Glue oferece diversas formas de inclusão de metadados no catálogo de dados do AWS Glue. Os crawlers do Glue varrem diversos datastores para inferir automaticamente esquemas e estrutura de partições, preenchendo o catálogo de dados do Glue com as definições e estatísticas de tabela correspondentes. Também é possível programar a execução periódica dos crawlers para manter os metadados sempre atualizados e sincronizados com os dados subjacentes. Como alternativa, você pode adicionar e atualizar manualmente detalhes de tabela, usando o console do AWS Glue ou chamando sua API. Além disso, é possível executar instruções de DDL do Hive por meio do console do Amazon Athena ou de um cliente do Hive em um cluster do Amazon EMR. Por fim, se você já tiver um Apache Hive Metastore persistente, poderá executar uma importação em massa desses metadados para o catálogo de dados do AWS Glue usando o nosso script de importação.

P: O que são os crawlers do AWS Glue?

Um crawler do AWS Glue conecta-se a um datastore, analisa uma lista priorizada de classificadores para extrair o esquema dos dados e de outras estatísticas e, por fim, preenche o Glue Data Catalog com os metadados obtidos. Os crawlers podem ser executados periodicamente para detectar a disponibilidade de novos dados, bem como alterações feitas nos dados atuais, inclusive alterações de definição de tabela. Os crawlers adicionam automaticamente novas tabelas, novas partições para tabelas atuais e novas versões de definições de tabela. É possível personalizar os crawlers do Glue para classificar seus próprios tipos de arquivos.

P: Como posso importar dados de um Apache Hive Metastore existente para o catálogo de dados do AWS Glue?

Basta executar uma tarefa de ETL que lê o Apache Hive Metastore, exporta os dados para um formato intermediário no Amazon S3 e importa esses dados para o catálogo de dados do AWS Glue.

P: Precisarei manter o meu Apache Hive Metastore se armazenar os metadados no catálogo de dados do AWS Glue?

Não. O catálogo de dados do AWS Glue é compatível com o Apache Hive Metastore. Você pode indicar o endpoint do Glue Data Catalog e usá-lo como substituto do Apache Hive Metastore. Para obter mais informações sobre como configurar um cluster para usar o catálogo de dados do AWS Glue Data Catalog como substituto do Apache Hive Metastore, leia a nossa documentação aqui.

P: Se eu já estiver usando o Amazon Athena ou o Amazon Redshift Spectrum e tiver tabelas no catálogo de dados interno do Amazon Athena, como poderei começar a usar o catálogo de dados do AWS Glue como repositório de metadados comum?

Antes de começar a usar o catálogo de dados do AWS Glue como repositório de metadados comum entre o Amazon Athena, o Amazon Redshift Spectrum e o AWS Glue, é necessário atualizar o catálogo de dados do Amazon Athena para o catálogo de dados do AWS Glue. As etapas necessárias para a atualização estão detalhadas aqui.

P: Quais serviços analíticos usam o catálogo de dados do AWS Glue?

Os metadados armazenados no catálogo de dados do AWS Glue podem ser acessados imediatamente pelo ETL do Glue, pelo Amazon Athena, pelo Amazon EMR, pelo Amazon Redshift Spectrum e por serviços de terceiros.

Extrair, transformar e carregar (ETL)

P: O AWS Glue possui alguma interface sem código para o visual ETL?

Sim. O AWS Glue Studio oferece uma oferece uma interface gráfica para a criação de trabalhos do Glue para processar dados. Depois de definir o fluxo das suas fontes de dados, transformações e destinos na interface visual, o AWS Glue Studio gerará o código Apache Spark para você.

P: Qual linguagem de programação posso usar para escrever código ETL para o AWS Glue?

Você pode usar Scala ou Python.

P: Como posso personalizar o código de ETL gerado pelo AWS Glue?

O sistema de recomendação de scripts ETL do AWS Glue gera código Scala ou Python. Esse sistema aproveita a biblioteca personalizada de ETL do Glue para simplificar o acesso a fontes de dados e gerenciar a execução de tarefas. Você pode encontrar mais detalhes sobre a biblioteca em nossa documentação. Você pode escrever código de ETL usando a biblioteca personalizada do AWS Glue ou criar código arbitrário em Scala ou Python usando a edição em linha do editor de scripts do console do AWS Glue, fazendo o download do código gerado automaticamente e editando esse código em seu próprio IDE. Também é possível começar com um dos vários exemplos hospedados em nosso repositório do Github, personalizando o código dos exemplos.

P: Posso importar bibliotecas personalizadas como parte de um script de ETL?

Sim. Você pode importar bibliotecas Python e arquivos Jar personalizados para uma tarefa de ETL do AWS Glue. Para obter mais detalhes, consulte a nossa documentação aqui.

P: Posso usar o meu próprio código?

Sim. Você pode escrever o seu próprio código usando a biblioteca de ETL do AWS Glue ou escrever o seu próprio código Scala ou Python e fazer upload dele para uma tarefa de ETL do Glue. Para obter mais detalhes, consulte a nossa documentação aqui.

P: Como posso desenvolver código de ETL em meu próprio IDE?

Você pode criar e conectar endpoints de desenvolvimento que permitem a conexão de notebooks e IDEs.

P: Como posso criar um fluxo de trabalho completo de ETL usando várias tarefas no AWS Glue?

Além da biblioteca ETL e da geração de código, o AWS Glue oferece um conjunto sólido de recursos de orquestração que permite gerenciar dependências entre várias tarefas para criar fluxos de trabalho completos de ETL. Os trabalhos de ETL do AWS Glue podem ser acionados de forma programada ou por eventos de conclusão de trabalho. Várias tarefas podem ser acionadas em paralelo ou sequencialmente no evento de conclusão de uma tarefa. Também é possível acionar uma ou mais tarefas do Glue de uma fonte externa, como uma função do AWS Lambda.

P: Como o AWS Glue monitora dependências?

O AWS Glue gerencia dependências entre duas ou mais tarefas ou dependências de eventos externos usando triggers. Os triggers podem observar e invocar uma ou mais tarefas. É possível ter um trigger programado que invoca periodicamente as tarefas, um trigger sob demanda ou um trigger de conclusão de tarefa.

P: Como o AWS Glue processa erros?

O AWS Glue monitora métricas e erros de eventos de trabalhos e envia todas as notificações ao Amazon CloudWatch. Com o Amazon CloudWatch, você pode configurar diversas ações que podem ser acionadas de acordo com notificações específicas do AWS Glue. Por exemplo, se você receber uma notificação de erro ou conclusão bem-sucedida do Glue, poderá acionar uma função do AWS Lambda. Além disso, o Glue oferece um comportamento padrão de novas tentativas que tenta executar novamente três vezes todos os processos que apresentaram falha antes de enviar uma notificação de erro.

P: Posso executar trabalhos de ETL existentes com o AWS Glue?

Sim. É possível executar código Scala ou Python existente no AWS Glue. Basta fazer upload do código para o Amazon S3 e criar um ou mais trabalhos que usam esse código. Você pode reutilizar o mesmo código em diversos trabalhos, direcionando-os ao mesmo local de código no Amazon S3.

P: Como posso usar o AWS Glue para executar ETL com dados de streaming?

O AWS Glue oferece suporte a ETL em streams do Amazon Kinesis Data Streams, do Apache Kafka e do Amazon MSK. Adicione o stream ao catálogo de dados do Glue e escolha-o como a fonte de dados ao configurar sua tarefa do AWS Glue.

P: Tenho de usar o catálogo de dados do AWS Glue e o ETL do Glue para usar o serviço?

Não. Acreditamos que o uso do catálogo de dados e do ETL do AWS Glue proporcione uma experiência completa de ETL. No entanto, é possível usar um deles independentemente do outro.

P: Quando devo usar o streaming do AWS Glue e quando devo usar o Amazon Kinesis Data Analytics?

Tanto o AWS Glue quanto o Amazon Kinesis Data Analytics podem ser usados para processar dados de streaming. O AWS Glue é recomendado quando seus casos de uso são principalmente ETL e quando você deseja executar tarefas em uma plataforma sem servidor baseada no Apache Spark. O Amazon Kinesis Data Analytics é recomendado quando seus casos de uso são principalmente análises e quando você deseja executar tarefas em uma plataforma sem servidor baseada no Apache Flink.

O Streaming ETL no AWS Glue permite realizar operações avançadas de ETL em dados de streaming usando a mesma plataforma sem servidor com o sistema de pagamento por consumo que você usa no momento para suas tarefas em lote. O AWS Glue gera código ETL personalizável para preparar seus dados enquanto estão em trânsito e tem uma funcionalidade incorporada para processar dados de streaming semiestruturados ou que tenham um esquema em evolução. Use o Glue para aplicar suas transformações incorporadas e nativas do Spark a streams de dados e carregá-las em seu data lake ou data warehouse.

O Amazon Kinesis Data Analytics permite criar aplicativos de streaming sofisticados para analisar dados de streaming em tempo real. Ele oferece um runtime sem servidor do Apache Flink que é dimensionado automaticamente sem servidores e salva o estado do aplicativo de forma durável. Use o Amazon Kinesis Data Analytics para análises em tempo real e processamento mais genérico de dados de stream.

P: Quando devo usar o AWS Glue e quando devo usar o Amazon Kinesis Data Firehose?

Tanto o AWS Glue quanto o Amazon Kinesis Data Firehose podem ser usados para ETL de streaming. O AWS Glue é recomendado para operações complexas de ETL, inclusive junção de streams e particionamento da saída no Amazon S3 com base no conteúdo dos dados. O Amazon Kinesis Data Firehose é recomendado quando seus casos de uso estão focados na entrega de dados e na preparação de dados para serem processados após sua entrega.

O Streaming ETL no AWS Glue permite realizar operações avançadas de ETL em dados de streaming usando a mesma plataforma sem servidor com o sistema de pagamento por consumo que você usa no momento para suas tarefas em lote. O AWS Glue gera código ETL personalizável para preparar seus dados enquanto estão em trânsito e tem uma funcionalidade incorporada para processar dados de streaming semiestruturados ou que tenham um esquema em evolução. Use o Glue para aplicar transformações complexas a streams de dados, enriquecer registros com informações de outros streams e armazenamentos de dados persistentes e depois carregar registros em seu data lake ou data warehouse.

O Streaming ETL no Amazon Kinesis Data Firehose permite capturar, transformar e entregar dados de streaming facilmente. O Amazon Kinesis Data Firehose oferece recursos de ETL, que incluem transformação de dados sem servidor por meio do AWS Lambda e conversão de formato JSON para Parquet. Ele inclui recursos de ETL projetados para facilitar o processamento de dados após a entrega, mas não inclui os recursos avançados de ETL aos quais o AWS Glue oferece suporte.

Limpar e deduplicar dados

P: Que tipo de problemas a transformação de ML do FindMatches resolve?

O FindMatches geralmente resolve problemas de vinculação de registros e de deduplicação de dados. A deduplicação é o que você precisa fazer quando está tentando identificar registros em um banco de dados que são conceitualmente “os mesmos”, mas para os quais você possui registros separados. Esse problema será trivial se os registros duplicados puderem ser identificados por uma chave exclusiva (por exemplo, se os produtos puderem ser identificados exclusivamente por um código UPC), mas se tornarão muito desafiadores quando você tiver que fazer uma "correspondência difusa".

A vinculação de registros tem basicamente o mesmo problema da deduplicação de dados, mas esse termo normalmente significa que você está realizando uma "junção difusa" de dois bancos de dados que não compartilham uma chave exclusiva, em vez de deduplicar um único banco de dados. Como exemplo, considere o problema de combinar um grande banco de dados de clientes com um pequeno banco de dados de fraudadores conhecidos. Os FindMatches podem ser usados em problemas de vinculação de registros e deduplicação.

Por exemplo, a transformação de ML do FindMatches da AWS Glue pode ajudá-lo com os seguintes problemas:

Vinculação de registros de pacientes entre hospitais para que os médicos tenham mais informações básicas e sejam mais capazes de tratar os pacientes usando FindMatches em bancos de dados separados que contêm campos comuns, como nome, data de nascimento, endereço residencial, número de telefone etc.

Deduplicação de um banco de dados de filmes contendo colunas como "título", "sinopse de enredo", "ano de lançamento", "tempo de execução" e "elenco". Por exemplo, o mesmo filme pode ser identificado como "Star Wars", "Star Wars: Uma Nova Esperança" e "Star Wars: Episódio IV — Uma Nova Esperança (Edição Especial)".

Agrupe automaticamente todos os produtos relacionados em sua vitrine identificando itens equivalentes em um catálogo de produtos de vestuário onde você deseja definir "equivalente" para significar que eles são os mesmos, ignorando as diferenças de tamanho e cor. Por isso, "Levi 501 Blue Jeans, tamanho 34x34" é definido como o mesmo que "Levi 501 Jeans--preto, Tamanho 32x31".

P: Como o AWS Glue deduplica meus dados?

A transformação de ML do FindMatches do AWS Glue facilita a localização e a vinculação de registros que se referem à mesma entidade, mas não compartilham um identificador confiável. Antes do FindMatches, os desenvolvedores resolviam problemas de correspondência de dados deterministicamente, escrevendo um grande número de regras ajustadas à mão. O FindMatches usa algoritmos de machine learning nos bastidores para aprender a corresponder registros de acordo com os critérios comerciais de cada desenvolvedor. O FindMatches primeiro identifica registros para o cliente rotular quanto ao fato deles serem correspondentes ou não e, em seguida, usa machine learning para criar uma transformação de ML. Os clientes podem executar essa transformação no banco de dados para encontrar registros correspondentes ou podem solicitar que os FindMatches forneçam a eles registros adicionais para rotular e enviar sua transformação de ML a níveis mais altos de precisão.

P: O que são transformações de ML?

As transformações de ML fornecem um destino para criar e gerenciar transformações aprendidas por máquinas. Depois de criadas e treinadas, essas transformações de ML podem ser executadas em scripts padrão do AWS Glue. Os clientes selecionam um algoritmo específico (por exemplo, a transformação de ML do FindMatches), os conjuntos de dados de entrada e os exemplos de treinamento, além dos parâmetros de ajuste necessários para esse algoritmo. O AWS Glue usa essas entradas para criar uma transformação de ML que pode ser incorporada em um fluxo de trabalho de trabalho ETL normal.

P: Como funcionam as transformações de ML?

O AWS Glue inclui algoritmos especializados de transformação de conjuntos de dados baseados em ML que os clientes podem usar para criar suas próprias transformações de ML. Isso inclui a deduplicação de registros e a correspondência de resultados.

Os clientes começam navegando até a guia Transformações de ML no console (ou usando os endpoints de serviço de transformações de ML ou acessando o treinamento de transformações de ML via ILC) para criar seu primeiro modelo de transformação de ML. A guia Transformações de ML fornece uma visão amigável para o gerenciamento de transformações do usuário. As transformações de ML requerem requisitos de fluxo de trabalho distintos de outras transformações, incluindo a necessidade de treinamento separado, ajuste de parâmetros e fluxos de trabalho de execução; a necessidade de estimar as métricas de qualidade das transformações geradas; e a necessidade de gerenciar e coletar rótulos truth adicionais para treinamento e aprendizado ativo.

Para criar uma transformação de ML por meio do console, os clientes primeiro selecionam o tipo de transformação (como deduplicação de registros ou correspondência de registros) e fornecem as fontes de dados apropriadas previamente descobertas no catálogo de dados. Dependendo da transformação, os clientes podem ser solicitados a fornecer dados do rótulo truth para treinamento ou parâmetros adicionais. Os clientes podem monitorar o status de seus trabalhos de treinamento e visualizar métricas de qualidade para cada transformação. (As métricas de qualidade são relatadas usando um conjunto de dados de rótulo fornecidos pelo cliente.)

Quando estão satisfeitos com o desempenho, os clientes podem promover modelos de transformações de ML para uso na produção. As transformações de ML podem ser usadas durante os fluxos de trabalho ETL, tanto no código gerado automaticamente pelo serviço quanto nos scripts definidos pelo usuário enviados com outros trabalhos, semelhantes às transformações pré-criadas das oferecidas em outras bibliotecas do AWS Glue.

P: Posso ver uma apresentação sobre o uso do AWS Glue (e do AWS Lake Formation) para encontrar correspondências e deduplicar registros?

R: Sim, a gravação completa do AWS Online Tech Talk, "Fuzzy Matching and Deduplicating Data with ML Transforms for AWS Lake Formation" está disponível aqui.

Integrações de produtos da AWS

P: Quando devo usar o AWS Glue e quando devo usar o AWS Data Pipeline?

O AWS Glue disponibiliza um serviço ETL gerenciado, executado em um ambiente Apache Spark sem servidor. Assim, você pode se concentrar nos trabalhos de ETL e deixar de se preocupar com a configuração e o gerenciamento dos recursos computacionais subjacentes. O AWS Glue adota uma abordagem voltada a dados e permite que você se concentre nas propriedades e na manipulação dos dados para transformá-los em um formato que permite obter insights empresariais. O serviço oferece um catálogo de dados integrado que disponibiliza metadados para ETL e para consultas por meio do Amazon Athena e do Amazon Redshift Spectrum.

O AWS Data Pipeline oferece um serviço gerenciado de orquestração que proporciona maior flexibilidade em termos do ambiente de execução, do acesso e do controle sobre os recursos computacionais que executam código, bem como sobre o próprio código responsável pelo processamento dos dados. O AWS Data Pipeline executa recursos computacionais na sua conta, permitindo acessar diretamente instâncias do Amazon EC2 ou clusters do Amazon EMR.

Além disso, trabalhos de ETL do AWS Glue são baseados em Scala ou Python. Se o seu caso de uso exigir outro mecanismo que não seja o Apache Spark, ou se você quiser executar um conjunto heterogêneo de trabalhos em diversos mecanismos (como Hive, Pig etc.), o AWS Data Pipeline será a melhor opção.

P: Quando devo usar o AWS Glue e quando devo usar o Amazon EMR?

O AWS Glue trabalha em um ambiente Apache Spark para disponibilizar um ambiente de execução com escalabilidade horizontal para trabalhos de transformação de dados. O AWS Glue infere, desenvolve e monitora trabalhos de ETL para simplificar consideravelmente o processo de criação e manutenção de trabalhos. O Amazon EMR oferece acesso direto a um ambiente Hadoop, permitindo acesso em nível mais baixo e maior flexibilidade no uso de ferramentas diferentes do Spark.

P: Quando devo usar o AWS Glue e quando devo usar o AWS Database Migration Service?

O AWS Database Migration Service (DMS) ajuda a migrar bancos de dados para a AWS de modo fácil e seguro. Para casos de uso que exigem uma migração de bancos de dados locais para a AWS ou uma replicação de bancos de dados entre fontes locais e na AWS, recomendamos o uso do AWS DMS. Depois que os dados estiverem na AWS, você poderá usar o AWS Glue para movimentar e transformar dados da fonte de dados para outro banco de dados ou data warehouse, como o Amazon Redshift.

P: Quando devo usar o AWS Glue e quando devo usar o AWS Batch?

O AWS Batch permite executar com facilidade e eficiência qualquer trabalho de computação em lotes na AWS, independentemente da natureza do trabalho. O AWS Batch cria e gerencia recursos computacionais em uma conta da AWS, oferecendo controle e visibilidade totais sobre os recursos usados. O AWS Glue é um serviço ETL gerenciado que disponibiliza um ambiente Apache Spark sem servidor para a execução de trabalhos ETL. Para casos de uso de ETL, recomendamos avaliar o uso do AWS Glue. Para outros casos de uso voltados a lotes, inclusive alguns casos de uso de ETL, o AWS Batch pode ser uma melhor opção.

Definição de preço e faturamento

P: Como sou cobrado pelo AWS Glue?

Você paga uma única taxa mensal, acima do nível gratuito do catálogo de dados do AWS Glue, pelo armazenamento e acesso de metadados no catálogo de dados do AWS Glue. Você paga uma taxa horária, cobrada por segundo, pela execução do crawler, com um período mínimo de 10 minutos. Se optar pelo uso de um endpoint de desenvolvimento para desenvolver interativamente código de ETL, você pagará uma taxa horária, cobrada por segundo, pelo tempo de provisionamento do endpoint de desenvolvimento, com um período mínimo de 10 minutos. Adicionalmente, você pagará uma taxa horária, cobrada por segundo, para o trabalho de ELT com mínimo de 1 minuto ou de 10 minutos com base na versão Glue selecionada. Para obter mais detalhes, consulte a nossa página de definição de preço.

P: Quando começa e quando termina a cobrança de trabalhos do AWS Glue?

A cobrança começa assim que o trabalho é programado para execução e continua até o término de todo o trabalho. Com o AWS Glue, você paga apenas pelo tempo de execução do trabalho e não paga pelo tempo de provisionamento ou encerramento do ambiente.

Segurança e disponibilidade

P: Como o AWS Glue mantém meus dados seguros?

Disponibilizamos criptografia no lado do servidor para dados ociosos, e SSL para dados em trânsito.

P: Quais são os limites de serviço associados ao AWS Glue?

Consulte a nossa documentação para saber mais sobre os limites do serviço.

P: Em quais regiões o AWS Glue está disponível?

Consulte a tabela de regiões da AWS para obter detalhes sobre a disponibilidade do serviço AWS Glue por região.

P: Como várias unidades de processamento de dados (DPUs) são alocadas ao endpoint de desenvolvimento?

Por padrão, um endpoint de desenvolvimento é provisionado com 5 DPUs. Você pode configurar um endpoint de desenvolvimento com 2 a 5 DPUs.

P: Como faço para escalar o tamanho e a performance dos trabalhos de ETL do AWS Glue?

Basta especificar o número de unidades de processamento de dados (DPUs) que você quer alocar a um trabalho de ETL. Um trabalho de ETL do Glue exige pelo menos 2 DPUs. Por padrão, o AWS Glue aloca 10 DPUs a cada trabalho de ETL.

P: Como faço para monitorar a execução de trabalhos do AWS Glue?

O AWS Glue fornece o status de cada trabalho e envia todas as notificações a eventos do Amazon CloudWatch. Você pode configurar notificações SNS por meio de ações do CloudWatch para ser informado sobre falhas ou conclusões de trabalhos.

Acordo de Nível de Serviço

P: Quais as garantias do SLA do AWS Glue?

Nosso SLA do AWS Glue garante uma porcentagem de tempo de disponibilidade mensal de pelo menos 99,9% para o AWS Glue.

P: Como saberei se me qualifico para um crédito de serviço do SLA?

Você estará qualificado para um crédito de SLA para o AWS Glue nos termos do SLA do AWS Glue se mais de uma zona de disponibilidade na qual você executar uma tarefa, na mesma região, tiver uma porcentagem de tempo de disponibilidade inferior a 99,9% durante qualquer ciclo de faturamento mensal.

Para obter detalhes completos sobre todos os termos e condições do SLA, bem como detalhes sobre como enviar uma alegação, consulte a página de detalhes do SLA do AWS Glue.

Product-Page_Standard-Icons_01_Product-Features_SqInk
Acesse a página de definição de preço

Explore as opções de definição de preço do AWS Glue.

Saiba mais 
Product-Page_Standard-Icons_02_Sign-Up_SqInk
Cadastre-se para obter uma conta gratuita

Obtenha acesso instantâneo ao nível gratuito da AWS. 

Cadastrar-se 
Product-Page_Standard-Icons_03_Start-Building_SqInk
Comece a criar no console

Comece a criar com o AWS Glue no Console de Gerenciamento da AWS.

Fazer login