Geral

P: O que é AWS Glue?

AWS Glue é um serviço de integração de dados sem servidor que facilita descobrir, preparar e combinar dados para análise, machine learning e desenvolvimento da aplicação. Ele oferece todos os recursos necessários para a integração dos dados, portanto é possível começar a analisar seus dados e usá-los em minutos, ao invés de meses. O AWS Glue oferece interfaces visuais e baseadas em código para facilitar a integração dos dados. Os usuários podem encontrar e acessar facilmente os dados usando o catálogos de dados do AWS Glue. Engenheiros de dados e desenvolvedores de ETL (extrair, transformar e carregar) podem criar, executar e monitorar visualmente fluxos de trabalho ETL com apenas alguns cliques no AWS Glue Studio. Analistas e cientistas de dados podem usar o AWS Glue DataBrew para enriquecer, limpar e normalizar visualmente os dados sem escrever código. Com o AWS Glue Elastic Views, os desenvolvedores de aplicação podem usar uma SQL (Structured Query Language) familiar para combinar e replicar os dados em diferentes armazenamentos de dados.

P: Como faço para começar a usar o AWS Glue?

Para começar a usar o AWS Glue, basta fazer login no Console de Gerenciamento da AWS e navegar até a opção “Glue” sob a categoria “Analytics”. Você pode seguir um dos nossos tutoriais orientados para examinar um exemplo de caso de uso do AWS Glue. Também é possível encontrar um código de exemplo de ETL no repositório do GitHub, em AWS Labs. Para se registrar na visualização do AWS Glue Elastic Views, saiba mais aqui.

P: Quais são os principais componentes do AWS Glue?

O AWS Glue consiste em um catálogo de dados, que é um repositório central de metadados; um mecanismo ETL que pode gerar automaticamente código Scala ou Python; um programador flexível que lida com a resolução de dependências, o monitoramento de trabalhos e novas tentativas; AWS Glue DataBrew para limpar e normalizar os dados com uma interface visual; e AWS Glue Elastic Views para combinar e replicar os dados em vários armazenamentos de dados. Juntos, esses componentes automatizam a maior parte do trabalho pesado genérico necessário para descobrir, categorizar, limpar, enriquecer e migrar os dados, permitindo que você invista mais tempo na análise dos dados.

P: Quando devo usar o AWS Glue?

Você deve usar o AWS Glue para descobrir propriedades de dados, transformá-los e prepará-los para análises. O Glue é capaz de descobrir automaticamente dados estruturados e semiestruturados armazenados em um data lake no Amazon S3, em um data warehouse no Amazon Redshift e em diversos bancos de dados executados na AWS. O serviço oferece uma visualização unificada dos dados por meio do catálogo de dados do Glue, disponível para ETL, consultas e relatórios usando serviços como Amazon Athena, Amazon EMR e Amazon Redshift Spectrum. O Glue gera automaticamente código Scala ou Python para os trabalhos de ETL que podem ser personalizados ainda mais usando as ferramentas que você já conhece. É possível usar o AWS Glue DataBrew para limpar e normalizar visualmente os dados sem escrever código. Você deve usar o AWS Glue Elastic Views para combinar e replicar continuamente os dados em vários armazenamentos de dados quase em tempo real. O AWS Glue é um serviço sem servidor. Portanto, não há necessidade de configurar e gerenciar recursos de computação.

P: Para quais fontes de dados o AWS Glue oferece suporte?

O AWS Glue oferece suporte nativo a dados armazenados nos serviços Amazon Aurora, Amazon RDS for MySQL, Amazon RDS for Oracle, Amazon RDS for PostgreSQL, Amazon RDS for SQL Server, Amazon Redshift, DynamoDB e Amazon S3, bem como nos bancos de dados MySQL, Oracle, Microsoft SQL Server e PostgreSQL em uma Virtual Private Cloud (Amazon VPC) executada no Amazon EC2. O AWS Glue também oferece suporte a streams de dados do Amazon MSK, Amazon Kinesis Data Streams e Apache Kafka.

Também é possível criar código Scala ou Python personalizado e importar bibliotecas e arquivos Jar personalizados em trabalhos de ETL do AWS Glue para acessar fontes de dados que não contam com o suporte nativo do AWS Glue. Para obter mais detalhes sobre a importação de bibliotecas personalizadas, consulte a nossa documentação.

A visualização do The AWS Glue Elastic Views suporta atualmente o Amazon DynamoDB como fonte, com suporte para o Amazon Aurora e o Amazon RDS a seguir. No momento, os destinos suportados são Amazon Redshift, Amazon S3 e Amazon Elasticsearch Service, com suporte para Amazon Aurora, Amazon RDS e Amazon DynamoDB a seguir.

P: Como o AWS Glue se relaciona com o AWS Lake Formation?

R: O Lake Formation utiliza uma infraestrutura compartilhada com o AWS Glue, incluindo controles de console, criação de códigos e monitoramento de trabalhos de ETL, um catálogo comum de dados e uma arquitetura sem servidor. Embora o AWS Glue ainda seja direcionado a esses tipos de funções, o Lake Formation abrange todos os recursos do AWS Glue E fornece recursos adicionais destinados a ajudar na criação, na proteção e no gerenciamento de um data lake. Consulte as páginas do AWS Lake Formation para obter mais detalhes.

Catálogo de dados do AWS Glue

P: O que é o catálogo de dados do AWS Glue?

O catálogo de dados do AWS Glue é um repositório central para armazenamento de metadados estruturais e operacionais de todos os ativos de dados. Para um determinado conjunto de dados, é possível armazenar a definição da tabela, a localização física e atributos relevantes para os negócios, bem como rastrear as alterações dos dados ao longo do tempo.

O catálogo de dados do AWS Glue é compatível com o Apache Hive Metastore e pode substituí-lo imediatamente para aplicativos de big data executados no Amazon EMR. Para obter mais informações sobre como configurar um cluster do EMR para usar o AWS Glue Data Catalog como substituto do Apache Hive Metastore, clique aqui.

O catálogo de dados do AWS Glue também oferece integração pronta para uso com o Amazon Athena, o Amazon EMR e o Amazon Redshift Spectrum. Após a adição das definições de tabelas ao catálogo de dados do Glue, elas estarão disponíveis para ETL e para consultas no Amazon Athena, no Amazon EMR e no Amazon Redshift Spectrum, oferecendo uma visualização comum dos dados em todos esses serviços.

P: Como faço para colocar metadados no catálogo de dados do AWS Glue?

O AWS Glue oferece diversas formas de inclusão de metadados no catálogo de dados do AWS Glue. Os crawlers do Glue varrem diversos datastores para inferir automaticamente esquemas e estrutura de partições, preenchendo o catálogo de dados do Glue com as definições e estatísticas de tabela correspondentes. Também é possível programar a execução periódica dos crawlers para manter os metadados sempre atualizados e sincronizados com os dados subjacentes. Como alternativa, você pode adicionar e atualizar manualmente detalhes de tabela, usando o console do AWS Glue ou chamando sua API. Além disso, é possível executar instruções de DDL do Hive por meio do console do Amazon Athena ou de um cliente do Hive em um cluster do Amazon EMR. Por fim, se você já tiver um Apache Hive Metastore persistente, poderá executar uma importação em massa desses metadados para o catálogo de dados do AWS Glue usando o nosso script de importação.

P: O que são os crawlers do AWS Glue?

Um crawler do AWS Glue conecta-se a um datastore, analisa uma lista priorizada de classificadores para extrair o esquema dos dados e de outras estatísticas e, por fim, preenche o Glue Data Catalog com os metadados obtidos. Os crawlers podem ser executados periodicamente para detectar a disponibilidade de novos dados, bem como alterações feitas nos dados atuais, inclusive alterações de definição de tabela. Os crawlers adicionam automaticamente novas tabelas, novas partições para tabelas atuais e novas versões de definições de tabela. É possível personalizar os crawlers do Glue para classificar seus próprios tipos de arquivos.

P: Como posso importar dados de um Apache Hive Metastore existente para o catálogo de dados do AWS Glue?

Basta executar uma tarefa de ETL que lê o Apache Hive Metastore, exporta os dados para um formato intermediário no Amazon S3 e importa esses dados para o catálogo de dados do AWS Glue.

P: Precisarei manter o meu Apache Hive Metastore se armazenar os metadados no catálogo de dados do AWS Glue?

Não. O catálogo de dados do AWS Glue é compatível com o Apache Hive Metastore. Você pode indicar o endpoint do Glue Data Catalog e usá-lo como substituto do Apache Hive Metastore. Para obter mais informações sobre como configurar um cluster para usar o catálogo de dados do AWS Glue Data Catalog como substituto do Apache Hive Metastore, leia a nossa documentação aqui.

P: Se eu já estiver usando o Amazon Athena ou o Amazon Redshift Spectrum e tiver tabelas no catálogo de dados interno do Amazon Athena, como poderei começar a usar o catálogo de dados do AWS Glue como repositório de metadados comum?

Antes de começar a usar o catálogo de dados do AWS Glue como repositório de metadados comum entre o Amazon Athena, o Amazon Redshift Spectrum e o AWS Glue, é necessário atualizar o catálogo de dados do Amazon Athena para o catálogo de dados do AWS Glue. As etapas necessárias para a atualização estão detalhadas aqui.

P: Quais serviços analíticos usam o catálogo de dados do AWS Glue?

Os metadados armazenados no catálogo de dados do AWS Glue podem ser acessados imediatamente no ETL do Glue, no Amazon Athena, no Amazon EMR, no Amazon Redshift Spectrum e nos serviços de terceiros.

AWS Glue Schema Registry

P: O que é AWS Glue Schema Registry?

O AWS Glue Schema Registry, um recurso sem servidor do AWS Glue, permite validar e controlar a evolução dos dados de streaming usando esquemas Apache Avro registrados, sem custo adicional. Por meio de serializadores e desserializadores licenciados pelo Apache, o Schema Registry se integra a aplicações Java desenvolvidas para o Apache Kafka,Amazon Managed Streaming for Apache Kafka (MSK), Amazon Kinesis Data Streams, Apache Flink, Amazon Kinesis Data Analytics for Apache Flink e AWS Lambda. Quando as aplicações de streaming de dados são integradas ao Schema Registry, você pode melhorar a qualidade dos dados e se proteger de mudanças inesperadas usando verificações de compatibilidade que controlam a evolução do esquema. E mais, você pode criar ou atualizar as tabelas e as partições do AWS Glue usando os esquemas armazenados no registro.

P: Por que devo usar o AWS Glue Schema Registry?

Com o AWS Glue Schema Registry, é possível:

  1. Validar esquemas. Quando as aplicações de streaming de dados são integradas no AWS Glue Schema Registry, os esquemas usados para a produção de dados são validados em relação aos esquemas em um registro central, permitindo controlar centralmente a qualidade dos dados.
  2. Proteger a evolução do esquema. Você pode definir regras sobre como os esquemas podem ou não evoluir usando um dos oito modos de compatibilidade.
  3. Melhorar a qualidade dos dados. Serializadores melhoram os esquemas usados pelos produtores de dados em relação aos armazenados no registro, melhorando a qualidade dos dados quando são originados e reduzindo os problemas posteriores quanto a uma variação inesperada do esquema.
  4. Economizar custos. Serializadores convertem os dados em um formato binário e podem compactá-los antes do envio, reduzindo os custos com a transferência dos dados e o armazenamento.
  5. melhorar a eficiência do processamento. Em muitos casos, um fluxo de dados contém registros de diferentes esquemas. O Schema Registry permite que as aplicações leiam os fluxos de dados para processarem seletivamente cada registro com base no esquema, sem precisarem analisar o conteúdo, o que aumenta a eficiência do processamento.

P: Qual formato de dados, linguagem cliente e integrações são suportados pelo AWS Glue Schema Registry?

O Schema Registry suporta os esquemas de dados do Apache Avro e as aplicações clientes do Java, e planejamos expandir o suporte para os clientes não Avro e não Java. O Schema Registry se integra nas aplicações desenvolvidas para Apache Kafka, Amazon Managed Streaming para Apache Kafka, Amazon Kinesis Data Streams, Apache Flink, Amazon Kinesis Data Analytics para Apache Flink e AWS Lambda.

P: Quais regras de evolução o AWS Glue Schema Registry suporta?

Os seguintes modos de compatibilidade estão disponíveis para gerenciar a evolução do esquema: Backward, Backward All, Forward, Forward All, Full, Full All, None e Disabled. Visite a documentação do usuário do Schema Registry para saber mais sobre as regras de compatibilidade.

P: Como o AWS Glue Schema Registry mantém uma alta disponibilidade para minhas aplicações?

O plano de armazenamento e controle do Schema Registry é projetado para uma alta disponibilidade e apoiado pelo SLA do AWS Glue. Serializadores e desserializadores utilizam técnicas de cache recomendadas para maximizar a disponibilidade do esquema nos clientes.

P: O AWS Glue Schema Registry é de fonte aberta?

O armazenamento AWS Glue Schema Registry é um serviço AWS, já os serializadores e os desserializadores são componentes de fonte aberta licenciados pelo Apache.

P: O AWS Glue Schema Registry fornece criptografia em repouso e em trânsito?

Sim, seus clientes se comunicam com o Schema Registry via chamadas da API que criptografam os dados em trânsito usando a criptografia TLS no HTTPS. Os esquemas armazenados no Schema Registry são sempre criptografados em repouso usando uma chave KMS gerenciada pelo serviço.

P: Como posso conectar de forma privada o AWS Glue Schema Registry?

Você pode usar o AWS PrivateLink para conectar a VPC do seu produtor de dados ao AWS Glue definindo um VPC endpoint de interface para o AWS Glue. Quando você usa um VPC endpoint de interface, a comunicação entre a VPC e o AWS Glue é realizada inteiramente na rede da AWS. Para obter mais informações, consulte a documentação do usuário.

P: Como posso monitorar meu uso do AWS Glue Schema Registry?

As métricas do AWS CloudWatch estão disponíveis como parte do nível gratuito do CloudWatch. É possível acessar essas métricas no console do CloudWatch. Visite a documentação do usuário do AWS Glue Schema Registry para ter mais informações.

P: O AWS Glue Schema Registry fornece ferramentas para gerenciar a autorização do usuário?

Sim, o Schema Registry suporta permissões no nível do recurso e políticas IAM baseadas em identidade.

P: Como migro de um registro do esquema existente para o AWS Glue Schema Registry?

As etapas para migrar de um registro do esquema de terceiros para o AWS Glue Schema Registry estão disponíveis na documentação do usuário.

Extrair, transformar e carregar (ETL)

P: O AWS Glue possui alguma interface sem código para o visual ETL?

Sim. O AWS Glue Studio oferece uma oferece uma interface gráfica para a criação de trabalhos do Glue para processar dados. Depois de definir o fluxo das suas fontes de dados, transformações e destinos na interface visual, o AWS Glue Studio gerará o código Apache Spark para você.

P: Qual linguagem de programação posso usar para escrever código ETL para o AWS Glue?

Você pode usar Scala ou Python.

P: Como posso personalizar o código de ETL gerado pelo AWS Glue?

O sistema de recomendação de scripts ETL do AWS Glue gera código Scala ou Python. Esse sistema aproveita a biblioteca personalizada de ETL do Glue para simplificar o acesso a fontes de dados e gerenciar a execução de tarefas. Você pode encontrar mais detalhes sobre a biblioteca em nossa documentação. Você pode escrever código de ETL usando a biblioteca personalizada do AWS Glue ou criar código arbitrário em Scala ou Python usando a edição em linha do editor de scripts do console do AWS Glue, fazendo o download do código gerado automaticamente e editando esse código em seu próprio IDE. Também é possível começar com um dos vários exemplos hospedados em nosso repositório do Github, personalizando o código dos exemplos.

P: Posso importar bibliotecas personalizadas como parte de um script de ETL?

Sim. Você pode importar bibliotecas Python e arquivos Jar personalizados para uma tarefa de ETL do AWS Glue. Para obter mais detalhes, consulte a nossa documentação aqui.

P: Posso usar o meu próprio código?

Sim. Você pode escrever o seu próprio código usando a biblioteca de ETL do AWS Glue ou escrever o seu próprio código Scala ou Python e fazer upload dele para uma tarefa de ETL do Glue. Para obter mais detalhes, consulte a nossa documentação aqui.

P: Como posso desenvolver código de ETL em meu próprio IDE?

Você pode criar e conectar endpoints de desenvolvimento que permitem a conexão de notebooks e IDEs.

P: Como posso criar um fluxo de trabalho completo de ETL usando várias tarefas no AWS Glue?

Além da biblioteca ETL e da geração de código, o AWS Glue oferece um conjunto sólido de recursos de orquestração que permite gerenciar dependências entre várias tarefas para criar fluxos de trabalho completos de ETL. Os trabalhos de ETL do AWS Glue podem ser acionados de forma programada ou por eventos de conclusão de trabalho. Várias tarefas podem ser acionadas em paralelo ou sequencialmente no evento de conclusão de uma tarefa. Também é possível acionar uma ou mais tarefas do Glue de uma fonte externa, como uma função do AWS Lambda.

P: Como o AWS Glue monitora dependências?

O AWS Glue gerencia dependências entre duas ou mais tarefas ou dependências de eventos externos usando triggers. Os triggers podem observar e invocar uma ou mais tarefas. É possível ter um trigger programado que chama periodicamente os trabalhos, um trigger sob demanda ou um trigger de conclusão do trabalho.

P: Como o AWS Glue lida com os erros ETL?

O AWS Glue monitora as métricas e os erros dos eventos do trabalho, e envia todas as notificações para o Amazon CloudWatch. Com o Amazon CloudWatch, você pode configurar diversas ações que podem ser acionadas de acordo com notificações específicas do AWS Glue. Por exemplo, se você receber uma notificação de erro ou conclusão bem-sucedida do Glue, poderá acionar uma função do AWS Lambda. Além disso, o Glue oferece um comportamento padrão de novas tentativas que tenta executar novamente três vezes todos os processos que apresentaram falha antes de enviar uma notificação de erro.

P: Posso executar trabalhos de ETL existentes com o AWS Glue?

Sim. É possível executar código Scala ou Python existente no AWS Glue. Basta fazer upload do código para o Amazon S3 e criar um ou mais trabalhos que usam esse código. Você pode reutilizar o mesmo código em diversos trabalhos, direcionando-os ao mesmo local de código no Amazon S3.

P: Como posso usar o AWS Glue para executar ETL com dados de streaming?

O AWS Glue oferece suporte a ETL em streams do Amazon Kinesis Data Streams, do Apache Kafka e do Amazon MSK. Adicione o stream ao catálogo de dados do Glue e escolha-o como a fonte de dados ao configurar sua tarefa do AWS Glue.

P: Tenho de usar o catálogo de dados do AWS Glue e o ETL do Glue para usar o serviço?

Não. Acreditamos que o uso do catálogo de dados e do ETL do AWS Glue proporcione uma experiência completa de ETL. No entanto, é possível usar um deles independentemente do outro.

P: Quando devo usar o streaming do AWS Glue e quando devo usar o Amazon Kinesis Data Analytics?

Tanto o AWS Glue quanto o Amazon Kinesis Data Analytics podem ser usados para processar dados de streaming. O AWS Glue é recomendado quando seus casos de uso são principalmente ETL e quando você deseja executar tarefas em uma plataforma sem servidor baseada no Apache Spark. O Amazon Kinesis Data Analytics é recomendado quando seus casos de uso são principalmente análises e quando você deseja executar tarefas em uma plataforma sem servidor baseada no Apache Flink.

O Streaming ETL no AWS Glue permite realizar operações avançadas de ETL em dados de streaming usando a mesma plataforma sem servidor com o sistema de pagamento por consumo que você usa no momento para suas tarefas em lote. O AWS Glue gera código ETL personalizável para preparar seus dados enquanto estão em trânsito e tem uma funcionalidade incorporada para processar dados de streaming semiestruturados ou que tenham um esquema em evolução. Use o Glue para aplicar suas transformações incorporadas e nativas do Spark a streams de dados e carregá-las em seu data lake ou data warehouse.

O Amazon Kinesis Data Analytics permite criar aplicativos de streaming sofisticados para analisar dados de streaming em tempo real. Ele oferece um runtime sem servidor do Apache Flink que é dimensionado automaticamente sem servidores e salva o estado do aplicativo de forma durável. Use o Amazon Kinesis Data Analytics para análises em tempo real e processamento mais genérico de dados de stream.

P: Quando devo usar o AWS Glue e quando devo usar o Amazon Kinesis Data Firehose?

Tanto o AWS Glue quanto o Amazon Kinesis Data Firehose podem ser usados para ETL de streaming. O AWS Glue é recomendado para operações complexas de ETL, inclusive junção de streams e particionamento da saída no Amazon S3 com base no conteúdo dos dados. O Amazon Kinesis Data Firehose é recomendado quando seus casos de uso estão focados na entrega de dados e na preparação de dados para serem processados após sua entrega.

O Streaming ETL no AWS Glue permite realizar operações avançadas de ETL em dados de streaming usando a mesma plataforma sem servidor com o sistema de pagamento por consumo que você usa no momento para suas tarefas em lote. O AWS Glue gera código ETL personalizável para preparar seus dados enquanto estão em trânsito e tem uma funcionalidade incorporada para processar dados de streaming semiestruturados ou que tenham um esquema em evolução. Use o Glue para aplicar transformações complexas a streams de dados, enriquecer registros com informações de outros streams e armazenamentos de dados persistentes e depois carregar registros em seu data lake ou data warehouse.

O Streaming ETL no Amazon Kinesis Data Firehose permite capturar, transformar e entregar dados de streaming facilmente. O Amazon Kinesis Data Firehose oferece recursos de ETL, que incluem transformação de dados sem servidor por meio do AWS Lambda e conversão de formato JSON para Parquet. Ele inclui recursos de ETL projetados para facilitar o processamento de dados após a entrega, mas não inclui os recursos avançados de ETL compatíveis com o AWS Glue.

Eliminar duplicidade de dados

P: Que tipo de problemas a transformação de ML do FindMatches resolve?

O FindMatches geralmente resolve problemas de vinculação de registros e de deduplicação de dados. A deduplicação é o que você precisa fazer quando está tentando identificar registros em um banco de dados que são conceitualmente “os mesmos”, mas para os quais você possui registros separados. Esse problema será trivial se os registros duplicados puderem ser identificados por uma chave exclusiva (por exemplo, se os produtos puderem ser identificados exclusivamente por um código UPC), mas se tornarão muito desafiadores quando você tiver que fazer uma "correspondência difusa".

A vinculação de registros tem basicamente o mesmo problema da deduplicação de dados, mas esse termo normalmente significa que você está realizando uma "junção difusa" de dois bancos de dados que não compartilham uma chave exclusiva, em vez de deduplicar um único banco de dados. Como exemplo, considere o problema de combinar um grande banco de dados de clientes com um pequeno banco de dados de fraudadores conhecidos. Os FindMatches podem ser usados em problemas de vinculação de registros e deduplicação.

Por exemplo, a transformação de ML do FindMatches da AWS Glue pode ajudá-lo com os seguintes problemas:

Vinculação de registros de pacientes entre hospitais para que os médicos tenham mais informações básicas e sejam mais capazes de tratar os pacientes usando FindMatches em bancos de dados separados que contêm campos comuns, como nome, data de nascimento, endereço residencial, número de telefone etc.

Deduplicação de um banco de dados de filmes contendo colunas como "título", "sinopse de enredo", "ano de lançamento", "tempo de execução" e "elenco". Por exemplo, o mesmo filme pode ser identificado como "Star Wars", "Star Wars: Uma Nova Esperança" e "Star Wars: Episódio IV — Uma Nova Esperança (Edição Especial)".

Agrupe automaticamente todos os produtos relacionados em sua vitrine identificando itens equivalentes em um catálogo de produtos de vestuário onde você deseja definir "equivalente" para significar que eles são os mesmos, ignorando as diferenças de tamanho e cor. Por isso, "Levi 501 Blue Jeans, tamanho 34x34" é definido como o mesmo que "Levi 501 Jeans--preto, Tamanho 32x31".

P: Como o AWS Glue deduplica meus dados?

A transformação de ML do FindMatches do AWS Glue facilita a localização e a vinculação de registros que se referem à mesma entidade, mas não compartilham um identificador confiável. Antes do FindMatches, os desenvolvedores resolviam problemas de correspondência de dados deterministicamente, escrevendo um grande número de regras ajustadas à mão. O FindMatches usa algoritmos de machine learning nos bastidores para aprender a corresponder registros de acordo com os critérios comerciais de cada desenvolvedor. O FindMatches primeiro identifica registros para o cliente rotular quanto ao fato deles serem correspondentes ou não e, em seguida, usa machine learning para criar uma transformação de ML. Os clientes podem executar essa transformação no banco de dados para encontrar registros correspondentes ou podem solicitar que os FindMatches forneçam a eles registros adicionais para rotular e enviar sua transformação de ML a níveis mais altos de precisão.

P: O que são transformações de ML?

As transformações de ML fornecem um destino para criar e gerenciar transformações aprendidas por máquinas. Depois de criadas e treinadas, essas transformações de ML podem ser executadas em scripts padrão do AWS Glue. Os clientes selecionam um algoritmo específico (por exemplo, a transformação de ML do FindMatches), os conjuntos de dados de entrada e os exemplos de treinamento, além dos parâmetros de ajuste necessários para esse algoritmo. O AWS Glue usa essas entradas para criar uma transformação de ML que pode ser incorporada em um fluxo de trabalho de trabalho ETL normal.

P: Como funcionam as transformações de ML?

O AWS Glue inclui algoritmos especializados de transformação de conjuntos de dados baseados em ML que os clientes podem usar para criar suas próprias transformações de ML. Isso inclui a deduplicação de registros e a correspondência de resultados.

Os clientes começam navegando até a guia Transformações de ML no console (ou usando os endpoints de serviço de transformações de ML ou acessando o treinamento de transformações de ML via ILC) para criar seu primeiro modelo de transformação de ML. A guia Transformações de ML fornece uma visão amigável para o gerenciamento de transformações do usuário. As transformações de ML requerem requisitos de fluxo de trabalho distintos de outras transformações, incluindo a necessidade de treinamento separado, ajuste de parâmetros e fluxos de trabalho de execução; a necessidade de estimar as métricas de qualidade das transformações geradas; e a necessidade de gerenciar e coletar rótulos truth adicionais para treinamento e aprendizado ativo.

Para criar uma transformação de ML por meio do console, os clientes primeiro selecionam o tipo de transformação (como deduplicação de registros ou correspondência de registros) e fornecem as fontes de dados apropriadas previamente descobertas no catálogo de dados. Dependendo da transformação, os clientes podem ser solicitados a fornecer dados do rótulo truth para treinamento ou parâmetros adicionais. Os clientes podem monitorar o status de seus trabalhos de treinamento e visualizar métricas de qualidade para cada transformação. (As métricas de qualidade são relatadas usando um conjunto de dados de rótulo fornecidos pelo cliente.)

Quando estão satisfeitos com o desempenho, os clientes podem promover modelos de transformações de ML para uso na produção. As transformações de ML podem ser usadas durante os fluxos de trabalho ETL, tanto no código gerado automaticamente pelo serviço quanto nos scripts definidos pelo usuário enviados com outros trabalhos, semelhantes às transformações pré-criadas das oferecidas em outras bibliotecas do AWS Glue.

P: Posso ver uma apresentação sobre o uso do AWS Glue (e do AWS Lake Formation) para encontrar correspondências e deduplicar registros?

R: Sim, a gravação completa do AWS Online Tech Talk, "Fuzzy Matching and Deduplicating Data with ML Transforms for AWS Lake Formation" está disponível aqui.

AWS Glue DataBrew

P: O que é o AWS Glue DataBrew?

O AWS Glue DataBrew é uma ferramenta de preparação de dados que facilita o trabalho de analistas e cientistas de dados na preparação de dados, com uma interface visual interativa do tipo apontar e clicar, sem escrever código. Com o Glue DataBrew, é fácil visualizar, limpar e normalizar terabytes e até petabytes de dados diretamente dos seus data lake, data warehouses e bancos de dados, incluindo o Amazon S3, o Amazon Redshift, o Amazon Aurora e o Amazon RDS. O AWS Glue DataBrew está atualmente disponível nas seguintes regiões: Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Oregon), UE (Irlanda), UE (Frankfurt), Ásia-Pacífico (Sydney) e Ásia-Pacífico (Tóquio). 

P: Quem pode usar o AWS Glue DataBrew?

O AWS Glue DataBrew foi criado para usuários que precisam limpar e normalizar dados para análise e machine learning. Os analistas e cientistas de dados são os principais usuários. Para analistas de dados, exemplos de cargos são analistas de business intelligence, analistas de operações, analistas de inteligência de mercado, analistas jurídicos, analistas financeiros, economistas, analistas quantitativos ou contadores. Para cientistas de dados, exemplos de cargos são cientistas de material, cientistas bioanalíticos e pesquisadores científicos.

P: Quais tipos de transformações são aceitas no AWS Glue DataBrew?

Você pode escolher entre mais de 250 transformações integradas para combinar, girar e migrar os dados sem escrever código. O AWS Glue DataBrew também recomenda automaticamente transformações como filtragem de anomalias, correção de dados inválidos, incorretamente classificados ou duplicados, normalização de dados com os valores padrão de data e hora ou geração de agregados para análises. Para transformações complexas, como conversão de palavras em uma base comum ou palavra raiz, o Glue DataBrew oferece transformações que usam técnicas avançadas de machine learning como Natural Language Processing (NLP - processamento de linguagem natural). É possível agrupar várias transformações, salvá-las como receitas e aplicar as receitas diretamente aos novos dados recebidos.

P: Quais os formatos de arquivo compatíveis com o AWS Glue DataBrew?

Para dados de entrada, o AWS Glue DataBrew aceita os formatos de arquivo comumente usados, como valores separados por vírgulas (.csv), JSON e JSON aninhado, Apache Parquet e Apache Parquet aninhado, bem como planilhas do Excel. Para dados de saída, o AWS Glue DataBrew aceita valores separados por vírgulas (.csv), JSON, Apache Parquet, Apache Avro, Apache ORC e XML.

P: Posso experimentar o AWS Glue DataBrew gratuitamente?

Sim. Cadastre-se em uma conta de nível gratuito da AWS, acesse o console de gerenciamento do AWS Glue DataBrew e comece a usar de graça imediatamente. Se você está usando o Glue DataBrew pela primeira vez, as primeiras 40 sessões interativas são gratuitas. Acesse a página de definição de preço do AWS Glue para saber mais.

P: É preciso usar o AWS Glue Data Catalog ou AWS Lake Formation para usar o AWS Glue DataBrew?

Não. Você pode usar o AWS Glue DataBrew sem usar o AWS Glue Data Catalog ou o AWS Lake Formation. Se você usa o Glue Data Catalog para armazenar esquemas e metadados, o Glue DataBrew deduz o esquema automaticamente do Glue Data Catalog. Se os dados estão centralizados e protegidos no AWS Lake Formation, os usuários do DataBrew podem usar todos os conjuntos de dados disponíveis no respectivo catálogo de dados centralizado.

P: Posso reter um registro de todas as alterações feitas nos meus dados?

Sim. Você pode rastrear visualmente todas as alterações feitas nos seus dados no console de gerenciamento do AWS Glue DataBrew. A exibição visual facilita o rastreamento de alterações e relacionamentos em conjuntos de dados, projetos e receitas, além de todos os outros trabalhos associados. Além disso, o Glue DataBrew registra todas as atividades da conta em logs no AWS CloudTrail.

 

AWS Glue Elastic Views (prévia)

O que é AWS Glue Elastic Views?

O AWS Glue Elastic Views facilita a construção de exibições materializadas que combinam e replicam dados em vários armazenamentos de dados sem que você precise escrever código personalizado. Com o AWS Glue Elastic Views, você pode usar o SQL (Structured Query Language) familiar para criar rapidamente uma tabela virtual, chamada de exibição materializada, em vários armazenamentos de dados de origem diferentes. O AWS Glue Elastic Views copia dados de cada armazenamento de dados de origem e cria uma réplica em um armazenamento de dados de destino. O AWS Glue Elastic Views monitora continuamente as alterações nos dados em seus armazenamentos de dados de origem e fornece atualizações para as exibições materializadas em seus armazenamentos de dados de destino automaticamente, garantindo que os dados acessados por meio da exibição materializada estejam sempre atualizados. O AWS Glue Elastic Views suporta vários bancos de dados e armazenamentos de dados da AWS, incluindo Amazon DynamoDB, Amazon S3, Amazon Redshift e Amazon Elasticsearch Service, com suporte para Amazon RDS, Amazon Aurora e vários outros em breve. O AWS Glue Elastic Views é um recurso servidor e aumenta ou diminui a capacidade automaticamente com base na demanda. Portanto, não há infraestrutura para gerenciar. O AWS Glue Elastic Views está disponível como uma prévia hoje.

Por que devo usar o AWS Glue Elastic Views?

Você deve usar o AWS Glue Elastic Views para combinar e replicar continuamente os dados em vários armazenamentos de dados quase em tempo real. Muitas vezes isso se aplica ao criar uma nova funcionalidade da aplicação, quando tal aplicação precisa acessar os dados de um ou mais armazenamentos de dados existentes. Por exemplo, uma empresa pode usar uma aplicação CRM (gestão de relacionamento com o cliente) para controlar os contatos do cliente e um site de e-commerce para vendas online. Essas aplicações usariam um ou mais armazenamentos de dados para guardar as informações. Agora, a empresa cria uma nova aplicação personalizada que gera e exibe ofertas especiais para os visitantes ativos do site. Para tanto, essa aplicação combina as informações do cliente na aplicação CRM com os dados da sequência de cliques na web a partir da aplicação de e-commerce. Com o AWS Glue Elastic Views, um desenvolvedor pode criar a nova funcionalidade em três etapas. Primeiro, ele conecta o CRM e os armazenamentos de dados da aplicação de e-commerce com o AWS Glue Elastic Views. Depois, usa o SQL para escolher os dados certos no CRM e nos armazenamentos de dados de e-commerce. Por fim, conecta o armazenamento de dados da aplicação personalizada para armazenar os resultados.

Como o AWS Glue Elastic Views trabalha com outros serviços da AWS?

O AWS Glue Elastic Views permite conectar várias fontes de armazenamento de dados e criar exibições com essas fontes usando o SQL familiar. É possível materializar essas exibições nos armazenamentos de dados de destino. Como exemplo, você pode criar exibições que acessam as informações do restaurante no Amazon Aurora e as exibições do cliente no Amazon DynamoDB e materializá-las no Amazon Redshift. Também pode criar uma aplicação combinando as preferências por pratos e restaurantes populares no Amazon Redshift. E como as fontes do AWS Glue Elastic Views são separadas dos destinos, se você leu aplicações pesadas, pode descarregar as solicitações de leitura em um destino do AWS Glue Elastic Views que mantém uma cópia consistente da fonte. É possível visualizar os dados nos armazenamentos de dados de destino do AWS Glue Elastic Views usando serviços como o Amazon QuickSight ou ferramentas de visualização de terceiros, como Tableau.

Posso usar o AWS Glue Elastic Views para cargas de trabalho operacionais e analíticas?

Sim. Com o AWS Glue Elastic Views, você pode replicar os dados de um armazenamento de dados em outro, quase em tempo real. Isso permite aplicações operacionais com alto desempenho que precisam acessar dados atualizados a partir de vários armazenamentos de dados. O AWS Glue Elastic Views também permite integrar seus sistemas operacionais e analíticos sem precisar criar e manter pipelines complexos de integração de dados. Usando o AWS Glue Elastic Views, você pode criar exibições do banco de dados nos dados em seus bancos operacionais e materializar essas exibições em seu data warehouse ou data lake. O AWS Glue Elastic Views controla as alterações em seus bancos de dados operacionais e assegura que os dados em seu data warehouse e data lake fiquem em sincronia. Agora é possível fazer consultas analíticas em seus dados operacionais mais recentes.

Quais fontes e destinos o AWS Glue Elastic Views suporta hoje?

Atualmente, as fontes suportadas para a visualização incluem Amazon DynamoDB, com suporte para Amazon Aurora MySQL, Amazon Aurora PostgreSQL, Amazon RDS for MySQL e Amazon RDS for PostgreSQL a seguir. Atualmente os destinos suportados são Amazon Redshift, Amazon S3 e Amazon Elasticsearch Service, com suporte para Amazon Aurora MySQL, Amazon Aurora PostgreSQL, Amazon RDS for MySQL e Amazon RDS for PostgreSQL a seguir.

Como o AWS Glue Elastic Views se relaciona com um data lake?

Data lake é um repositório central escalável no Amazon S3 que é otimizado para tornar acessíveis os dados de muitos armazenamento de dados diferentes em um lugar para suportar aplicações analíticas e consultas. Um data lake permite a análise e o machine learning em todos os dados de sua empresa para ter melhores insights comerciais e tomada de decisão. Por outro lado, o AWS Glue Elastic Views é um serviço que permite combinar e replicar dados em vários bancos de dados e em seu data lake do Amazon S3. Se você estiver criando uma funcionalidade da aplicação que precisa acessar dados específicos em um ou mais armazenamentos de dados existentes quase em tempo real, o AWS Glue Elastic permite replicar os dados de vários armazenamentos de dados e manter esses dados atualizados. Você também pode usar o AWS Glue Elastic Views para carregar os dados dos bancos de dados operacionais em um data lake criando exibições nesses bancos de dados operacionais e materializando-os em seu data lake.

Integrações de produtos da AWS

P: Quando devo usar o AWS Glue e quando devo usar o AWS Data Pipeline?

O AWS Glue disponibiliza um serviço ETL gerenciado, executado em um ambiente Apache Spark sem servidor. Assim, você pode se concentrar nos trabalhos de ETL e deixar de se preocupar com a configuração e o gerenciamento dos recursos computacionais subjacentes. O AWS Glue adota uma abordagem voltada a dados e permite que você se concentre nas propriedades e na manipulação dos dados para transformá-los em um formato que permite obter insights empresariais. O serviço oferece um catálogo de dados integrado que disponibiliza metadados para ETL e para consultas por meio do Amazon Athena e do Amazon Redshift Spectrum.

O AWS Data Pipeline oferece um serviço gerenciado de orquestração que proporciona maior flexibilidade em termos do ambiente de execução, do acesso e do controle sobre os recursos computacionais que executam código, bem como sobre o próprio código responsável pelo processamento dos dados. O AWS Data Pipeline executa recursos computacionais na sua conta, permitindo acessar diretamente instâncias do Amazon EC2 ou clusters do Amazon EMR.

Além disso, trabalhos de ETL do AWS Glue são baseados em Scala ou Python. Se o seu caso de uso exigir outro mecanismo que não seja o Apache Spark, ou se você quiser executar um conjunto heterogêneo de trabalhos em diversos mecanismos (como Hive, Pig etc.), o AWS Data Pipeline será a melhor opção.

P: Quando devo usar o AWS Glue e quando devo usar o Amazon EMR?

O AWS Glue trabalha em um ambiente Apache Spark para disponibilizar um ambiente de execução com escalabilidade horizontal para trabalhos de transformação de dados. O AWS Glue infere, desenvolve e monitora trabalhos de ETL para simplificar consideravelmente o processo de criação e manutenção de trabalhos. O Amazon EMR oferece acesso direto a um ambiente Hadoop, permitindo acesso em nível mais baixo e maior flexibilidade no uso de ferramentas diferentes do Spark.

P: Quando devo usar o AWS Glue e quando devo usar o AWS Database Migration Service?

O AWS Database Migration Service (DMS) ajuda a migrar bancos de dados para a AWS de modo fácil e seguro. Para casos de uso que exigem uma migração do banco de dados on-premises para a AWS ou uma replicação do banco de dados entre fontes on-premises e fontes na AWS, recomendamos usar o AWS DMS. Depois que os dados estiverem na AWS, você poderá usar o AWS Glue para migrar, combinar, replicar e transformar os dados da fonte de dados para outro banco de dados ou data warehouse, como o Amazon Redshift.

P: Quando devo usar o AWS Glue ou o AWS Batch?

O AWS Batch permite executar com facilidade e eficiência qualquer trabalho de computação em lotes na AWS, independentemente da natureza do trabalho. O AWS Batch cria e gerencia recursos computacionais em uma conta da AWS, oferecendo controle e visibilidade totais sobre os recursos usados. O AWS Glue é um serviço ETL gerenciado que disponibiliza um ambiente Apache Spark sem servidor para a execução de trabalhos ETL. Para casos de uso de ETL, recomendamos avaliar o uso do AWS Glue. Para outros casos de uso voltados a lotes, inclusive alguns casos de uso de ETL, o AWS Batch pode ser uma melhor opção.

Definição de preço e faturamento

P: Como sou cobrado pelo AWS Glue?

Você paga uma única taxa mensal, acima do nível gratuito do catálogo de dados do AWS Glue, pelo armazenamento e acesso de metadados no catálogo de dados do AWS Glue. Você paga uma taxa horária, cobrada por segundo, pela execução do crawler, com um período mínimo de 10 minutos. Se optar pelo uso de um endpoint de desenvolvimento para desenvolver interativamente o código de ETL, você pagará uma taxa horária, cobrada por segundo, pelo tempo de provisionamento do endpoint de desenvolvimento, com um período mínimo de 10 minutos. Adicionalmente, pagará uma taxa horária, cobrada por segundo, para o trabalho de ELT com o mínimo de 1 minuto ou 10 minutos, com base na versão Glue selecionada. Para obter mais detalhes, consulte a nossa página de definição de preço.

P: Quando começa e quando termina a cobrança de trabalhos do AWS Glue?

A cobrança começa assim que o trabalho é programado para execução e continua até o término de todo o trabalho. Com o AWS Glue, você paga apenas pelo tempo de execução do trabalho e não paga pelo tempo de provisionamento ou encerramento do ambiente.

Segurança e disponibilidade

P: Como o AWS Glue mantém meus dados seguros?

Disponibilizamos criptografia no lado do servidor para dados ociosos, e SSL para dados em trânsito.

P: Quais são os limites de serviço associados ao AWS Glue?

Consulte a nossa documentação para saber mais sobre os limites do serviço.

P: Em quais regiões o AWS Glue está disponível?

Consulte a tabela de regiões da AWS para obter detalhes sobre a disponibilidade do serviço AWS Glue por região.

P: Como várias unidades de processamento de dados (DPUs) são alocadas ao endpoint de desenvolvimento?

Por padrão, um endpoint de desenvolvimento é provisionado com 5 DPUs. Você pode configurar um endpoint de desenvolvimento com um mínimo de 2 DPUs e um máximo de 5 DPUs.

P: Como escalo o tamanho e a performance dos trabalhos de ETL do AWS Glue?

Basta especificar o número de unidades de processamento de dados (DPUs) que você quer alocar a um trabalho de ETL. Um trabalho de ETL do Glue exige pelo menos 2 DPUs. Por padrão, o AWS Glue aloca 10 DPUs a cada trabalho de ETL.

P: Como monitoro a execução dos trabalhos do AWS Glue?

O AWS Glue fornece o status de cada trabalho e envia todas as notificações para o Amazon CloudWatch. Você pode configurar as notificações SNS por meio de ações do CloudWatch para ser informado sobre as falhas ou as conclusões do trabalho.

Acordo de Nível de Serviço

P: Quais as garantias do SLA do AWS Glue?

Nosso SLA do AWS Glue garante uma porcentagem de tempo de disponibilidade mensal de pelo menos 99,9% para o AWS Glue.

P: Como saberei se me qualifico para um crédito de serviço do SLA?

Você estará qualificado para um crédito de SLA para o AWS Glue nos termos do SLA do AWS Glue se mais de uma zona de disponibilidade na qual você executar uma tarefa, na mesma região, tiver uma porcentagem de tempo de disponibilidade inferior a 99,9% durante qualquer ciclo de faturamento mensal.

Para obter detalhes completos sobre todos os termos e condições do SLA, bem como detalhes sobre como enviar uma alegação, consulte a página de detalhes do SLA do AWS Glue.

Product-Page_Standard-Icons_01_Product-Features_SqInk
Acesse a página de definição de preço

Explore as opções de definição de preço do AWS Glue.

Saiba mais 
Sign up for a free account
Cadastre-se para obter uma conta gratuita

Obtenha acesso instantâneo ao nível gratuito da AWS. 

Cadastrar-se 
Standard Product Icons (Start Building) Squid Ink
Comece a criar no console

Comece a criar com o AWS Glue no Console de Gerenciamento da AWS.

Fazer login