Perguntas frequentes sobre o AWS Glue

Geral

P: O que é AWS Glue?

O AWS Glue é um serviço de integração de dados sem servidor que facilita descobrir, preparar e combinar dados para análise, machine learning e desenvolvimento da aplicação. O AWS Glue oferece todos os recursos necessários para a integração dos dados para que você possa começar a analisar seus dados e usá-los em minutos, em vez de meses. O AWS Glue oferece interfaces visuais e baseadas em código para facilitar a integração dos dados. Os usuários podem encontrar e acessar facilmente os dados usando o catálogos de dados do AWS Glue. Engenheiros de dados e desenvolvedores de ETL (extrair, transformar e carregar) podem criar, executar e monitorar visualmente fluxos de trabalho ETL com apenas alguns cliques no AWS Glue Studio. Analistas e cientistas de dados podem usar o AWS Glue DataBrew para enriquecer, limpar e normalizar visualmente os dados sem escrever código.

P: Como faço para começar a usar o AWS Glue?

Para começar a usar o AWS Glue, basta fazer login no Console de Gerenciamento da AWS e navegar até a opção “Glue” sob a categoria “Analytics”. Você pode seguir um dos nossos tutoriais orientados para examinar um exemplo de caso de uso do AWS Glue. Também é possível encontrar um código de exemplo de ETL no repositório do GitHub, em AWS Labs.

P: Quais são os principais componentes do AWS Glue?

O AWS Glue consiste em um catálogo de dados, que é um repositório central de metadados; um mecanismo ETL que pode gerar automaticamente código Scala ou Python; um programador flexível que lida com a resolução de dependências, o monitoramento de trabalhos e novas tentativas; AWS Glue DataBrew para limpar e normalizar os dados com uma interface visual. Juntos, esses componentes automatizam a maior parte do trabalho pesado genérico necessário para descobrir, categorizar, limpar, enriquecer e migrar os dados, permitindo que você invista mais tempo na análise dos dados.

P: Quando devo usar o AWS Glue?

Você deve usar o AWS Glue para descobrir propriedades de dados, transformá-los e prepará-los para análises. O Glue é capaz de descobrir automaticamente dados estruturados e semiestruturados armazenados em um data lake no Amazon S3, em um data warehouse no Amazon Redshift e em diversos bancos de dados executados na AWS. O serviço oferece uma visualização unificada dos dados por meio do catálogo de dados do Glue, disponível para ETL, consultas e relatórios usando serviços como Amazon Athena, Amazon EMR e Amazon Redshift Spectrum. O Glue gera automaticamente código Scala ou Python para os trabalhos de ETL que podem ser personalizados ainda mais usando as ferramentas que você já conhece. É possível usar o AWS Glue DataBrew para limpar e normalizar visualmente os dados sem escrever código.

P: Para quais fontes de dados o AWS Glue oferece suporte?

O AWS Glue oferece suporte nativo a dados armazenados nos serviços Amazon Aurora, Amazon RDS for MySQL, Amazon RDS for Oracle, Amazon RDS for PostgreSQL, Amazon RDS for SQL Server, Amazon Redshift, DynamoDB e Amazon S3, bem como nos bancos de dados MySQL, Oracle, Microsoft SQL Server e PostgreSQL em uma Virtual Private Cloud (Amazon VPC) executada no Amazon EC2. O AWS Glue também oferece suporte a streams de dados do Amazon MSK, Amazon Kinesis Data Streams e Apache Kafka.

Também é possível criar código Scala ou Python personalizado e importar bibliotecas e arquivos Jar personalizados em trabalhos de ETL do AWS Glue para acessar fontes de dados que não contam com o suporte nativo do AWS Glue. Para obter mais detalhes sobre a importação de bibliotecas personalizadas, consulte a nossa documentação.

P: Como o AWS Glue se relaciona com o AWS Lake Formation?

R: O Lake Formation utiliza uma infraestrutura compartilhada com o AWS Glue, incluindo controles de console, criação de códigos e monitoramento de trabalhos de ETL, um catálogo comum de dados e uma arquitetura sem servidor. Embora o AWS Glue ainda seja direcionado a esses tipos de funções, o Lake Formation abrange todos os recursos do AWS Glue E fornece recursos adicionais destinados a ajudar na criação, na proteção e no gerenciamento de um data lake. Consulte as páginas do AWS Lake Formation para obter mais detalhes.

Catálogo de dados do AWS Glue

P: O que é o catálogo de dados do AWS Glue?

O catálogo de dados do AWS Glue é um repositório central para armazenamento de metadados estruturais e operacionais de todos os ativos de dados. Para um determinado conjunto de dados, é possível armazenar a definição da tabela, a localização física e atributos relevantes para os negócios, bem como rastrear as alterações dos dados ao longo do tempo.

O catálogo de dados do AWS Glue é compatível com o Apache Hive Metastore e pode substituí-lo imediatamente para aplicativos de big data executados no Amazon EMR. Para obter mais informações sobre como configurar um cluster do EMR para usar o AWS Glue Data Catalog como substituto do Apache Hive Metastore, clique aqui.

O catálogo de dados do AWS Glue também oferece integração pronta para uso com o Amazon Athena, o Amazon EMR e o Amazon Redshift Spectrum. Após a adição das definições de tabelas ao catálogo de dados do Glue, elas estarão disponíveis para ETL e para consultas no Amazon Athena, no Amazon EMR e no Amazon Redshift Spectrum, oferecendo uma visualização comum dos dados em todos esses serviços.

P: Como faço para colocar metadados no catálogo de dados do AWS Glue?

O AWS Glue oferece diversas formas de inclusão de metadados no catálogo de dados do AWS Glue. Os crawlers do Glue varrem diversos datastores para inferir automaticamente esquemas e estrutura de partições, preenchendo o catálogo de dados do Glue com as definições e estatísticas de tabela correspondentes. Também é possível programar a execução periódica dos crawlers para manter os metadados sempre atualizados e sincronizados com os dados subjacentes. Como alternativa, você pode adicionar e atualizar manualmente detalhes de tabela, usando o console do AWS Glue ou chamando sua API. Além disso, é possível executar instruções de DDL do Hive por meio do console do Amazon Athena ou de um cliente do Hive em um cluster do Amazon EMR. Por fim, se você já tiver um Apache Hive Metastore persistente, poderá executar uma importação em massa desses metadados para o catálogo de dados do AWS Glue usando o nosso script de importação.

P: O que são os crawlers do AWS Glue?

Um crawler do AWS Glue conecta-se a um datastore, analisa uma lista priorizada de classificadores para extrair o esquema dos dados e de outras estatísticas e, por fim, preenche o Glue Data Catalog com os metadados obtidos. Os crawlers podem ser executados periodicamente para detectar a disponibilidade de novos dados, bem como alterações feitas nos dados atuais, inclusive alterações de definição de tabela. Os crawlers adicionam automaticamente novas tabelas, novas partições para tabelas atuais e novas versões de definições de tabela. É possível personalizar os crawlers do Glue para classificar seus próprios tipos de arquivos.

P: Como posso importar dados de um Apache Hive Metastore existente para o catálogo de dados do AWS Glue?

Basta executar uma tarefa de ETL que lê o Apache Hive Metastore, exporta os dados para um formato intermediário no Amazon S3 e importa esses dados para o catálogo de dados do AWS Glue.

P: Precisarei manter o meu Apache Hive Metastore se armazenar os metadados no catálogo de dados do AWS Glue?

Não. O catálogo de dados do AWS Glue é compatível com o Apache Hive Metastore. Você pode indicar o endpoint do Glue Data Catalog e usá-lo como substituto do Apache Hive Metastore. Para obter mais informações sobre como configurar um cluster para usar o catálogo de dados do AWS Glue Data Catalog como substituto do Apache Hive Metastore, leia a nossa documentação aqui.

P: Se eu já estiver usando o Amazon Athena ou o Amazon Redshift Spectrum e tiver tabelas no catálogo de dados interno do Amazon Athena, como poderei começar a usar o catálogo de dados do AWS Glue como repositório de metadados comum?

Antes de começar a usar o catálogo de dados do AWS Glue como repositório de metadados comum entre o Amazon Athena, o Amazon Redshift Spectrum e o AWS Glue, é necessário atualizar o catálogo de dados do Amazon Athena para o catálogo de dados do AWS Glue. As etapas necessárias para a atualização estão detalhadas aqui.

P: Quais serviços analíticos usam o catálogo de dados do AWS Glue?

Os metadados armazenados no catálogo de dados do AWS Glue podem ser acessados imediatamente no ETL do Glue, no Amazon Athena, no Amazon EMR, no Amazon Redshift Spectrum e nos serviços de terceiros.

AWS Glue Schema Registry

P: O que é o AWS Glue Schema Registry?

O AWS Glue Schema Registry, um recurso sem servidor do AWS Glue, permite validar e controlar a evolução dos dados de streaming usando esquemas registrados nos formatos de dados Apache Avro e JSON Schema, sem custo adicional. Por meio de serializadores e desserializadores licenciados pelo Apache, o Schema Registry se integra a aplicações Java desenvolvidas para Apache Kafka, Amazon Managed Streaming for Apache Kafka (MSK), Amazon Kinesis Data Streams, Apache Flink, Amazon Kinesis Data Analytics for Apache Flink e AWS Lambda. Quando as aplicações de streaming de dados são integradas ao Schema Registry, você pode melhorar a qualidade dos dados e se proteger de mudanças inesperadas usando verificações de compatibilidade que controlam a evolução do esquema. E mais, você pode criar ou atualizar as tabelas e as partições do AWS Glue usando os esquemas do Apache Avro armazenados no Registry.

P: Por que devo usar o AWS Glue Schema Registry?

Com o AWS Glue Schema Registry, é possível:

Validar esquemas. Quando as aplicações de streaming de dados são integradas no AWS Glue Schema Registry, os esquemas usados para a produção de dados são validados em relação aos esquemas em um registro central, permitindo controlar centralmente a qualidade dos dados.
Proteger a evolução do esquema. Você pode definir regras sobre como os esquemas podem ou não evoluir usando um dos oito modos de compatibilidade.
Melhorar a qualidade dos dados. Serializadores melhoram os esquemas usados pelos produtores de dados em relação aos armazenados no registro, melhorando a qualidade dos dados quando são originados e reduzindo os problemas posteriores quanto a uma variação inesperada do esquema.
Economizar custos. Serializadores convertem os dados em um formato binário e podem compactá-los antes do envio, reduzindo os custos com a transferência dos dados e o armazenamento.
melhorar a eficiência do processamento. Em muitos casos, um fluxo de dados contém registros de diferentes esquemas. O Schema Registry permite que as aplicações leiam os fluxos de dados para processarem seletivamente cada registro com base no esquema, sem precisarem analisar o conteúdo, o que aumenta a eficiência do processamento.

P: Qual formato de dados, idioma do cliente e integrações são compatíveis com o AWS Glue Schema Registry?

O Schema Registry é compatível com os formatos de dados Apache Avro and JSON Schema e aplicações cliente Java. Planejamos continuar a expandir o suporte a outros formatos de dados e clientes não Java. O Schema Registry se integra às aplicações desenvolvidas para Apache Kafka, Amazon Managed Streaming for Apache Kafka (MSK), Amazon Kinesis Data Streams, Apache Flink, Amazon Kinesis Data Analytics for Apache Flink e AWS Lambda.

P: Quais regras de evolução o AWS Glue Schema Registry suporta?

Os seguintes modos de compatibilidade estão disponíveis para gerenciar a evolução do esquema: Backward, Backward All, Forward, Forward All, Full, Full All, None e Disabled. Visite a documentação do usuário do Schema Registry para saber mais sobre as regras de compatibilidade.

P: Como o AWS Glue Schema Registry mantém uma alta disponibilidade para minhas aplicações?

O plano de armazenamento e controle do Schema Registry é projetado para uma alta disponibilidade e apoiado pelo SLA do AWS Glue. Serializadores e desserializadores utilizam técnicas de cache recomendadas para maximizar a disponibilidade do esquema nos clientes.

P: O AWS Glue Schema Registry é de fonte aberta?

O armazenamento AWS Glue Schema Registry é um serviço AWS, já os serializadores e os desserializadores são componentes de fonte aberta licenciados pelo Apache.

P: O AWS Glue Schema Registry fornece criptografia em repouso e em trânsito?

Sim, seus clientes se comunicam com o Schema Registry via chamadas da API que criptografam os dados em trânsito usando a criptografia TLS no HTTPS. Os esquemas armazenados no Schema Registry são sempre criptografados em repouso usando uma chave KMS gerenciada pelo serviço.

P: Como posso conectar de forma privada o AWS Glue Schema Registry?

Você pode usar o AWS PrivateLink para conectar a VPC do seu produtor de dados ao AWS Glue definindo um VPC endpoint de interface para o AWS Glue. Quando você usa um VPC endpoint de interface, a comunicação entre a VPC e o AWS Glue é realizada inteiramente na rede da AWS. Para obter mais informações, consulte a documentação do usuário.

P: Como posso monitorar meu uso do AWS Glue Schema Registry?

As métricas do AWS CloudWatch estão disponíveis como parte do nível gratuito do CloudWatch. É possível acessar essas métricas no console do CloudWatch. Visite a documentação do usuário do AWS Glue Schema Registry para ter mais informações.

P: O AWS Glue Schema Registry fornece ferramentas para gerenciar a autorização do usuário?

Sim, o Schema Registry suporta permissões no nível do recurso e políticas IAM baseadas em identidade.

P: Como migro de um registro do esquema existente para o AWS Glue Schema Registry?

As etapas para migrar de um registro do esquema de terceiros para o AWS Glue Schema Registry estão disponíveis na documentação do usuário.

Extrair, transformar e carregar (ETL)

P: O AWS Glue possui alguma interface sem código para o visual ETL?

Sim. O AWS Glue Studio oferece uma oferece uma interface gráfica para a criação de trabalhos do Glue para processar dados. Depois de definir o fluxo das suas fontes de dados, transformações e destinos na interface visual, o AWS Glue Studio gerará o código Apache Spark para você.

P: Qual linguagem de programação posso usar para escrever código ETL para o AWS Glue?

Você pode usar Scala ou Python.

P: Como posso personalizar o código de ETL gerado pelo AWS Glue?

O sistema de recomendação de scripts ETL do AWS Glue gera código Scala ou Python. Esse sistema aproveita a biblioteca personalizada de ETL do Glue para simplificar o acesso a fontes de dados e gerenciar a execução de tarefas. Você pode encontrar mais detalhes sobre a biblioteca em nossa documentação. Você pode escrever código de ETL usando a biblioteca personalizada do AWS Glue ou criar código arbitrário em Scala ou Python usando a edição em linha do editor de scripts do console do AWS Glue, fazendo o download do código gerado automaticamente e editando esse código em seu próprio IDE. Também é possível começar com um dos vários exemplos hospedados em nosso repositório do Github, personalizando o código dos exemplos.

P: Posso importar bibliotecas personalizadas como parte de um script de ETL?

Sim. Você pode importar bibliotecas Python e arquivos Jar personalizados para uma tarefa de ETL do AWS Glue. Para obter mais detalhes, consulte a nossa documentação aqui.

P: Posso usar o meu próprio código?

Sim. Você pode escrever o seu próprio código usando a biblioteca de ETL do AWS Glue ou escrever o seu próprio código Scala ou Python e fazer upload dele para uma tarefa de ETL do Glue. Para obter mais detalhes, consulte a nossa documentação aqui.

P: Como posso desenvolver código de ETL em meu próprio IDE?

Você pode criar e conectar endpoints de desenvolvimento que permitem a conexão de notebooks e IDEs.

P: Como posso criar um fluxo de trabalho completo de ETL usando várias tarefas no AWS Glue?

Além da biblioteca ETL e da geração de código, o AWS Glue oferece um conjunto sólido de recursos de orquestração que permite gerenciar dependências entre várias tarefas para criar fluxos de trabalho completos de ETL. Os trabalhos de ETL do AWS Glue podem ser acionados de forma programada ou por eventos de conclusão de trabalho. Várias tarefas podem ser acionadas em paralelo ou sequencialmente no evento de conclusão de uma tarefa. Também é possível acionar uma ou mais tarefas do Glue de uma fonte externa, como uma função do AWS Lambda.

P: Como o AWS Glue monitora dependências?

O AWS Glue gerencia dependências entre duas ou mais tarefas ou dependências de eventos externos usando triggers. Os triggers podem observar e invocar uma ou mais tarefas. É possível ter um trigger programado que chama periodicamente os trabalhos, um trigger sob demanda ou um trigger de conclusão do trabalho.

P: Como o AWS Glue lida com os erros ETL?

O AWS Glue monitora as métricas e os erros dos eventos do trabalho, e envia todas as notificações para o Amazon CloudWatch. Com o Amazon CloudWatch, você pode configurar diversas ações que podem ser acionadas de acordo com notificações específicas do AWS Glue. Por exemplo, se você receber uma notificação de erro ou conclusão bem-sucedida do Glue, poderá acionar uma função do AWS Lambda. Além disso, o Glue oferece um comportamento padrão de novas tentativas que tenta executar novamente três vezes todos os processos que apresentaram falha antes de enviar uma notificação de erro.

P: Posso executar trabalhos de ETL existentes com o AWS Glue?

Sim. É possível executar código Scala ou Python existente no AWS Glue. Basta fazer upload do código para o Amazon S3 e criar um ou mais trabalhos que usam esse código. Você pode reutilizar o mesmo código em diversos trabalhos, direcionando-os ao mesmo local de código no Amazon S3.

P: Como posso usar o AWS Glue para executar ETL com dados de streaming?

O AWS Glue oferece suporte a ETL em streams do Amazon Kinesis Data Streams, do Apache Kafka e do Amazon MSK. Adicione o stream ao catálogo de dados do Glue e escolha-o como a fonte de dados ao configurar sua tarefa do AWS Glue.

P: Tenho de usar o catálogo de dados do AWS Glue e o ETL do Glue para usar o serviço?

Não. Acreditamos que o uso do catálogo de dados e do ETL do AWS Glue proporcione uma experiência completa de ETL. No entanto, é possível usar um deles independentemente do outro.

P: Quando devo usar o streaming do AWS Glue e quando devo usar o Amazon Kinesis Data Analytics?

Tanto o AWS Glue quanto o Amazon Kinesis Data Analytics podem ser usados para processar dados de streaming. O AWS Glue é recomendado quando seus casos de uso são principalmente ETL e quando você deseja executar tarefas em uma plataforma sem servidor baseada no Apache Spark. O Amazon Kinesis Data Analytics é recomendado quando seus casos de uso são principalmente análises e quando você deseja executar tarefas em uma plataforma sem servidor baseada no Apache Flink.

O Streaming ETL no AWS Glue permite realizar operações avançadas de ETL em dados de streaming usando a mesma plataforma sem servidor com o sistema de pagamento por consumo que você usa no momento para suas tarefas em lote. O AWS Glue gera código ETL personalizável para preparar seus dados enquanto estão em trânsito e tem uma funcionalidade incorporada para processar dados de streaming semiestruturados ou que tenham um esquema em evolução. Use o Glue para aplicar suas transformações incorporadas e nativas do Spark a streams de dados e carregá-las em seu data lake ou data warehouse.

O Amazon Kinesis Data Analytics permite criar aplicativos de streaming sofisticados para analisar dados de streaming em tempo real. Ele oferece um runtime sem servidor do Apache Flink que é dimensionado automaticamente sem servidores e salva o estado do aplicativo de forma durável. Use o Amazon Kinesis Data Analytics para análises em tempo real e processamento mais genérico de dados de stream.

P: Quando devo usar o AWS Glue e quando devo usar o Amazon Kinesis Data Firehose?

Tanto o AWS Glue quanto o Amazon Kinesis Data Firehose podem ser usados para ETL de streaming. O AWS Glue é recomendado para operações complexas de ETL, inclusive junção de streams e particionamento da saída no Amazon S3 com base no conteúdo dos dados. O Amazon Kinesis Data Firehose é recomendado quando seus casos de uso estão focados na entrega de dados e na preparação de dados para serem processados após sua entrega.

O Streaming ETL no AWS Glue permite realizar operações avançadas de ETL em dados de streaming usando a mesma plataforma sem servidor com o sistema de pagamento por consumo que você usa no momento para suas tarefas em lote. O AWS Glue gera código ETL personalizável para preparar seus dados enquanto estão em trânsito e tem uma funcionalidade incorporada para processar dados de streaming semiestruturados ou que tenham um esquema em evolução. Use o Glue para aplicar transformações complexas a streams de dados, enriquecer registros com informações de outros streams e armazenamentos de dados persistentes e depois carregar registros em seu data lake ou data warehouse.

O Streaming ETL no Amazon Kinesis Data Firehose permite capturar, transformar e entregar dados de streaming facilmente. O Amazon Kinesis Data Firehose oferece recursos de ETL, que incluem transformação de dados sem servidor por meio do AWS Lambda e conversão de formato JSON para Parquet. Ele inclui recursos de ETL projetados para facilitar o processamento de dados após a entrega, mas não inclui os recursos avançados de ETL compatíveis com o AWS Glue.

Eliminar duplicidade de dados

P: Que tipo de problemas a transformação de ML do FindMatches resolve?

O FindMatches geralmente resolve problemas de vinculação de registros e de deduplicação de dados. A deduplicação é o que você precisa fazer quando está tentando identificar registros em um banco de dados que são conceitualmente “os mesmos”, mas para os quais você possui registros separados. Esse problema será trivial se os registros duplicados puderem ser identificados por uma chave exclusiva (por exemplo, se os produtos puderem ser identificados exclusivamente por um código UPC), mas se tornarão muito desafiadores quando você tiver que fazer uma "correspondência difusa".

A vinculação de registros tem basicamente o mesmo problema da deduplicação de dados, mas esse termo normalmente significa que você está realizando uma "junção difusa" de dois bancos de dados que não compartilham uma chave exclusiva, em vez de deduplicar um único banco de dados. Como exemplo, considere o problema de combinar um grande banco de dados de clientes com um pequeno banco de dados de fraudadores conhecidos. Os FindMatches podem ser usados em problemas de vinculação de registros e deduplicação.

Por exemplo, a transformação de ML do FindMatches da AWS Glue pode ajudá-lo com os seguintes problemas:

Vinculação de registros de pacientes entre hospitais para que os médicos tenham mais informações básicas e sejam mais capazes de tratar os pacientes usando FindMatches em bancos de dados separados que contêm campos comuns, como nome, data de nascimento, endereço residencial, número de telefone etc.

Deduplicação de um banco de dados de filmes contendo colunas como "título", "sinopse de enredo", "ano de lançamento", "tempo de execução" e "elenco". Por exemplo, o mesmo filme pode ser identificado como "Star Wars", "Star Wars: Uma Nova Esperança" e "Star Wars: Episódio IV — Uma Nova Esperança (Edição Especial)".

Agrupe automaticamente todos os produtos relacionados em sua vitrine identificando itens equivalentes em um catálogo de produtos de vestuário onde você deseja definir "equivalente" para significar que eles são os mesmos, ignorando as diferenças de tamanho e cor. Por isso, "Levi 501 Blue Jeans, tamanho 34x34" é definido como o mesmo que "Levi 501 Jeans--preto, Tamanho 32x31".

P: Como o AWS Glue deduplica meus dados?

A transformação de ML do FindMatches do AWS Glue facilita a localização e a vinculação de registros que se referem à mesma entidade, mas não compartilham um identificador confiável. Antes do FindMatches, os desenvolvedores resolviam problemas de correspondência de dados deterministicamente, escrevendo um grande número de regras ajustadas à mão. O FindMatches usa algoritmos de machine learning nos bastidores para aprender a corresponder registros de acordo com os critérios comerciais de cada desenvolvedor. O FindMatches primeiro identifica registros para o cliente rotular quanto ao fato deles serem correspondentes ou não e, em seguida, usa machine learning para criar uma transformação de ML. Os clientes podem executar essa transformação no banco de dados para encontrar registros correspondentes ou podem solicitar que os FindMatches forneçam a eles registros adicionais para rotular e enviar sua transformação de ML a níveis mais altos de precisão.

P: O que são transformações de ML?

As transformações de ML fornecem um destino para criar e gerenciar transformações aprendidas por máquinas. Depois de criadas e treinadas, essas transformações de ML podem ser executadas em scripts padrão do AWS Glue. Os clientes selecionam um algoritmo específico (por exemplo, a transformação de ML do FindMatches), os conjuntos de dados de entrada e os exemplos de treinamento, além dos parâmetros de ajuste necessários para esse algoritmo. O AWS Glue usa essas entradas para criar uma transformação de ML que pode ser incorporada em um fluxo de trabalho de trabalho ETL normal.

P: Como funcionam as transformações de ML?

O AWS Glue inclui algoritmos especializados de transformação de conjuntos de dados baseados em ML que os clientes podem usar para criar suas próprias transformações de ML. Isso inclui a deduplicação de registros e a correspondência de resultados.

Os clientes começam navegando até a guia Transformações de ML no console (ou usando os endpoints de serviço de transformações de ML ou acessando o treinamento de transformações de ML via ILC) para criar seu primeiro modelo de transformação de ML. A guia Transformações de ML fornece uma visão amigável para o gerenciamento de transformações do usuário. As transformações de ML requerem requisitos de fluxo de trabalho distintos de outras transformações, incluindo a necessidade de treinamento separado, ajuste de parâmetros e fluxos de trabalho de execução; a necessidade de estimar as métricas de qualidade das transformações geradas; e a necessidade de gerenciar e coletar rótulos truth adicionais para treinamento e aprendizado ativo.

Para criar uma transformação de ML por meio do console, os clientes primeiro selecionam o tipo de transformação (como deduplicação de registros ou correspondência de registros) e fornecem as fontes de dados apropriadas previamente descobertas no catálogo de dados. Dependendo da transformação, os clientes podem ser solicitados a fornecer dados do rótulo truth para treinamento ou parâmetros adicionais. Os clientes podem monitorar o status de seus trabalhos de treinamento e visualizar métricas de qualidade para cada transformação. (As métricas de qualidade são relatadas usando um conjunto de dados de rótulo fornecidos pelo cliente.)

Quando estão satisfeitos com o desempenho, os clientes podem promover modelos de transformações de ML para uso na produção. As transformações de ML podem ser usadas durante os fluxos de trabalho ETL, tanto no código gerado automaticamente pelo serviço quanto nos scripts definidos pelo usuário enviados com outros trabalhos, semelhantes às transformações pré-criadas das oferecidas em outras bibliotecas do AWS Glue.

P: Posso ver uma apresentação sobre o uso do AWS Glue (e do AWS Lake Formation) para encontrar correspondências e deduplicar registros?

R: Sim, a gravação completa do AWS Online Tech Talk, "Fuzzy Matching and Deduplicating Data with ML Transforms for AWS Lake Formation" está disponível aqui.

AWS Glue DataBrew

P: O que é o AWS Glue DataBrew?

O AWS Glue DataBrew é uma ferramenta de preparação de dados que facilita o trabalho de analistas e cientistas de dados na preparação de dados, com uma interface visual interativa do tipo apontar e clicar, sem escrever código. Com o Glue DataBrew, é fácil visualizar, limpar e normalizar terabytes e até petabytes de dados diretamente dos seus data lake, data warehouses e bancos de dados, incluindo o Amazon S3, o Amazon Redshift, o Amazon Aurora e o Amazon RDS. O AWS Glue DataBrew está atualmente disponível nas seguintes regiões: Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Oeste dos EUA (Oregon), UE (Irlanda), UE (Frankfurt), Ásia-Pacífico (Sydney) e Ásia-Pacífico (Tóquio).

P: Quem pode usar o AWS Glue DataBrew?

O AWS Glue DataBrew foi criado para usuários que precisam limpar e normalizar dados para análise e machine learning. Os analistas e cientistas de dados são os principais usuários. Para analistas de dados, exemplos de cargos são analistas de business intelligence, analistas de operações, analistas de inteligência de mercado, analistas jurídicos, analistas financeiros, economistas, analistas quantitativos ou contadores. Para cientistas de dados, exemplos de cargos são cientistas de material, cientistas bioanalíticos e pesquisadores científicos.

P: Quais tipos de transformações são aceitas no AWS Glue DataBrew?

Você pode escolher entre mais de 250 transformações integradas para combinar, girar e migrar os dados sem escrever código. O AWS Glue DataBrew também recomenda automaticamente transformações como filtragem de anomalias, correção de dados inválidos, incorretamente classificados ou duplicados, normalização de dados com os valores padrão de data e hora ou geração de agregados para análises. Para transformações complexas, como conversão de palavras em uma base comum ou palavra raiz, o Glue DataBrew oferece transformações que usam técnicas avançadas de machine learning como Natural Language Processing (NLP - processamento de linguagem natural). É possível agrupar várias transformações, salvá-las como receitas e aplicar as receitas diretamente aos novos dados recebidos.

P: Quais os formatos de arquivo compatíveis com o AWS Glue DataBrew?

Para dados de entrada, o AWS Glue DataBrew aceita os formatos de arquivo comumente usados, como valores separados por vírgulas (.csv), JSON e JSON aninhado, Apache Parquet e Apache Parquet aninhado, bem como planilhas do Excel. Para dados de saída, o AWS Glue DataBrew aceita valores separados por vírgulas (.csv), JSON, Apache Parquet, Apache Avro, Apache ORC e XML.

P: Posso experimentar o AWS Glue DataBrew gratuitamente?

Sim. Cadastre-se em uma conta de nível gratuito da AWS, acesse o console de gerenciamento do AWS Glue DataBrew e comece a usar de graça imediatamente. Se você está usando o Glue DataBrew pela primeira vez, as primeiras 40 sessões interativas são gratuitas. Acesse a página de definição de preço do AWS Glue para saber mais.

P: É preciso usar o AWS Glue Data Catalog ou o AWS Lake Formation para usar o AWS Glue DataBrew?

Não, você pode usar o AWS Glue DataBrew sem usar o AWS Glue Data Catalog ou o AWS Lake Formation. Porém, se você usar o AWS Glue Data Catalog ou o AWS Lake Formation, os usuários do DataBrew poderão selecionar os conjuntos de dados disponíveis de seu catálogo de dados centralizado.

P: Posso reter um registro de todas as alterações feitas em meus dados?

Sim. Você pode rastrear visualmente todas as alterações feitas nos seus dados no console de gerenciamento do AWS Glue DataBrew. A exibição visual facilita o rastreamento de alterações e relacionamentos em conjuntos de dados, projetos e receitas, além de todos os outros trabalhos associados. Além disso, o Glue DataBrew registra todas as atividades da conta em logs no AWS CloudTrail.

Trabalhos do AWS Glue Flex

P: O que é o Glue Flex?

O AWS Glue Flex é uma classe de trabalho de execução flexível que permite reduzir o custo de suas workloads de integração de dados não urgentes (por exemplo, trabalhos de pré-produção, testes, carregamentos de dados etc.) em até 35%. O Glue tem duas classes de execução de trabalho: padrão e flexível. A classe de execução padrão é ideal para workloads sensíveis ao tempo que exigem inicialização rápida do trabalho e recursos dedicados. A classe de execução flexível é apropriada para trabalhos não urgentes cujos tempos de início e conclusão podem variar. O AWS Glue Flex pode reduzir o custo de suas workloads não sensíveis ao tempo (por exemplo, trabalhos noturnos de ETL em lote, trabalhos de fim de semana, trabalhos únicos de ingestão de dados em massa etc.).

P: Quais as diferenças entre as classes de execução padrão e flexível do AWS Glue?

As classes de execução padrão e flexível do AWS Glue têm propriedades de execução diferentes. Com a classe de execução padrão, os trabalhos são iniciados imediatamente e têm recursos dedicados durante a execução. Os trabalhos de classe de execução flexível são executados em recursos de computação não dedicados na AWS que podem ser recuperados enquanto um trabalho está em execução e seus tempos de início e conclusão variam. Como resultado, as duas classes de execução são apropriadas para diferentes workloads. A classe de execução padrão é ideal para workloads sensíveis ao tempo que exigem inicialização rápida do trabalho e recursos dedicados. A classe de execução flexível é menos dispendiosa e adequada para trabalhos não urgentes em que a variação nos tempos de início e conclusão é aceitável.

P: Como começo com os trabalhos de classe de execução flexível do AWS Glue Flex?

A classe de execução flexível está disponível para trabalhos do Glue Spark. Para usar a classe de execução flexível, basta alterar a configuração padrão do parâmetro da classe de execução de “STANDARD” para “FLEX”. Você pode fazer isso no Glue Studio ou na CLI. Visite a _documentação do usuário_ do AWS Glue para obter mais informações.

P: Quais tipos de integração de dados e workloads ETL não são apropriados para a classe de execução flexível do AWS Glue Flex?

A classe de execução flexível do AWS Glue Flex não é apropriada para workloads sensíveis ao tempo que exigem tempos de início e execução de trabalho consistentes ou para trabalhos que devem concluir a execução em um horário específico. O AWS Glue Flex também não é recomendado para workloads de integração de dados de longa duração porque é mais provável que sejam interrompidas, resultando em cancelamentos frequentes.

P: Com que frequência devo esperar que os trabalhos executados com a classe de execução flexível do AWS Glue Flex sejam interrompidos?

A disponibilidade e a frequência de interrupção do AWS Glue Flex dependem de vários fatores, incluindo a região e a zona de disponibilidade (AZ), hora do dia, dia da semana. A disponibilidade de recursos determina se os trabalhos do Glue Flex serão iniciados. Embora a taxa de interrupção possa estar entre 5 a 10% durante o horário de pico, esperamos que a taxa de interrupção dos trabalhos Glue Flex seja de cerca de 5% ou a taxa de falha dos trabalhos Glue Flex devido à interrupção seja inferior a 5%.

P: A classe de execução flexível está sempre disponível?

Sim, você sempre pode escolher a classe de execução flexível para executar seus trabalhos do Glue. No entanto, a capacidade do AWS Glue de executar esses trabalhos é baseada na disponibilidade da capacidade não dedicada da AWS e no número de trabalhadores selecionados para seu trabalho. É possível que, durante os horários de pico, o Glue não tenha capacidade adequada para o seu trabalho. Nesse caso, seu trabalho não será iniciado. Você pode especificar um valor de tempo limite após o qual o Glue cancelará o trabalho. Quanto maior o valor do tempo limite, maior a chance de seu trabalho ser executado.

P: O que acontece se um trabalho do AWS Glue Flex for interrompido durante a execução?

Se um trabalho do Glue Flex for interrompido porque não há mais trabalhadores suficientes para concluir o trabalho com base no número de trabalhadores especificado, o trabalho falhará. O Glue tentará novamente os trabalhos com falha até o número máximo especificado de tentativas na definição do trabalho antes de cancelar o trabalho. Você não deve usar a classe de execução flexível para qualquer tarefa que tenha uma dependência de recebimento de dados em outros sistemas ou processos.

P: Quais tipos de tarefas do AWS Glue são compatíveis com a classe de execução flexível?

A classe de execução flexível dá suporte apenas a trabalhos do Glue Spark. Pythonshell e streaming não são compatíveis.O AWS Glue Flex é compatível com o Glue versão 3.0 e posterior. A classe de execução flexível atualmente não oferece suporte a workloads de streaming.

Integrações de produtos da AWS

P: Quando devo usar o AWS Glue e quando devo usar o AWS Data Pipeline?

O AWS Glue disponibiliza um serviço ETL gerenciado, executado em um ambiente Apache Spark sem servidor. Assim, você pode se concentrar nos trabalhos de ETL e deixar de se preocupar com a configuração e o gerenciamento dos recursos computacionais subjacentes. O AWS Glue adota uma abordagem voltada a dados e permite que você se concentre nas propriedades e na manipulação dos dados para transformá-los em um formato que permite obter insights empresariais. O serviço oferece um catálogo de dados integrado que disponibiliza metadados para ETL e para consultas por meio do Amazon Athena e do Amazon Redshift Spectrum.

O AWS Data Pipeline oferece um serviço gerenciado de orquestração que proporciona maior flexibilidade em termos do ambiente de execução, do acesso e do controle sobre os recursos computacionais que executam código, bem como sobre o próprio código responsável pelo processamento dos dados. O AWS Data Pipeline executa recursos computacionais na sua conta, permitindo acessar diretamente instâncias do Amazon EC2 ou clusters do Amazon EMR.

Além disso, trabalhos de ETL do AWS Glue são baseados em Scala ou Python. Se o seu caso de uso exigir outro mecanismo que não seja o Apache Spark, ou se você quiser executar um conjunto heterogêneo de trabalhos em diversos mecanismos (como Hive, Pig etc.), o AWS Data Pipeline será a melhor opção.

P: Quando devo usar o AWS Glue e quando devo usar o Amazon EMR?

O AWS Glue trabalha em um ambiente Apache Spark para disponibilizar um ambiente de execução com escalabilidade horizontal para trabalhos de transformação de dados. O AWS Glue infere, desenvolve e monitora trabalhos de ETL para simplificar consideravelmente o processo de criação e manutenção de trabalhos. O Amazon EMR oferece acesso direto a um ambiente Hadoop, permitindo acesso em nível mais baixo e maior flexibilidade no uso de ferramentas diferentes do Spark.

P: Quando devo usar o AWS Glue e quando devo usar o AWS Database Migration Service?

O AWS Database Migration Service (DMS) ajuda a migrar bancos de dados para a AWS de modo fácil e seguro. Para casos de uso que exigem uma migração do banco de dados on-premises para a AWS ou uma replicação do banco de dados entre fontes on-premises e fontes na AWS, recomendamos usar o AWS DMS. Depois que os dados estiverem na AWS, você poderá usar o AWS Glue para migrar, combinar, replicar e transformar os dados da fonte de dados para outro banco de dados ou data warehouse, como o Amazon Redshift.

P: Quando devo usar o AWS Glue ou o AWS Batch?

O AWS Batch permite executar com facilidade e eficiência qualquer trabalho de computação em lotes na AWS, qualquer que seja a natureza do trabalho. O AWS Batch cria e gerencia recursos computacionais em uma conta da AWS, oferecendo controle e visibilidade totais sobre os recursos usados. O AWS Glue é um serviço ETL gerenciado que disponibiliza um ambiente Apache Spark sem servidor para a execução de trabalhos ETL. Para casos de uso de ETL, recomendamos avaliar o uso do AWS Glue. Para outros casos de uso voltados a lotes, inclusive alguns casos de uso de ETL, o AWS Batch pode ser mais adequado.

Preço e faturamento

P: Como sou cobrado pelo AWS Glue?

Você paga uma única taxa mensal, acima do nível gratuito do catálogo de dados do AWS Glue, pelo armazenamento e acesso de metadados no catálogo de dados do AWS Glue. Você paga uma taxa horária, cobrada por segundo, pela execução do crawler, com um período mínimo de 10 minutos. Se optar pelo uso de um endpoint de desenvolvimento para desenvolver interativamente o código de ETL, você pagará uma taxa horária, cobrada por segundo, pelo tempo de provisionamento do endpoint de desenvolvimento, com um período mínimo de 10 minutos. Adicionalmente, pagará uma taxa horária, cobrada por segundo, para o trabalho de ELT com o mínimo de 1 minuto ou 10 minutos, com base na versão Glue selecionada. Para obter mais detalhes, consulte a nossa página de definição de preço.

P: Quando começa e quando termina a cobrança de trabalhos do AWS Glue?

A cobrança começa assim que o trabalho é programado para execução e continua até o término de todo o trabalho. Com o AWS Glue, você paga apenas pelo tempo de execução do trabalho e não paga pelo tempo de provisionamento ou encerramento do ambiente.

Segurança e disponibilidade

P: Como o AWS Glue mantém meus dados seguros?

Disponibilizamos criptografia no lado do servidor para dados em repouso e SSL para dados em trânsito.

P: Quais são os limites do serviço associados ao AWS Glue?

Consulte a nossa documentação para saber mais sobre os limites do serviço.

P: Em quais regiões o AWS Glue está disponível?

Consulte a tabela de regiões da AWS para obter detalhes sobre a disponibilidade do serviço AWS Glue por região.

P: Como várias unidades de processamento de dados (DPUs) são alocadas ao endpoint de desenvolvimento?

Por padrão, um endpoint de desenvolvimento é provisionado com 5 DPUs. Você pode configurar um endpoint de desenvolvimento com um mínimo de 2 DPUs e um máximo de 5 DPUs.

P: Como escalo o tamanho e a performance dos trabalhos de ETL do AWS Glue?

Basta especificar o número de unidades de processamento de dados (DPUs) que você quer alocar a um trabalho de ETL. Um trabalho de ETL do Glue exige pelo menos 2 DPUs. Por padrão, o AWS Glue aloca 10 DPUs a cada trabalho de ETL.

P: Como monitoro a execução dos trabalhos do AWS Glue?

O AWS Glue fornece o status de cada trabalho e envia todas as notificações para o Amazon CloudWatch. Você pode configurar as notificações SNS por meio de ações do CloudWatch para ser informado sobre as falhas ou as conclusões do trabalho.

Acordo de Nível de Serviço

P: Quais as garantias do SLA do AWS Glue?

Nosso SLA do AWS Glue garante uma porcentagem de tempo de disponibilidade mensal de pelo menos 99,9% para o AWS Glue.

P: Como saberei se me qualifico para um crédito de serviço do SLA?

Você estará qualificado para um crédito de SLA para o AWS Glue nos termos do SLA do AWS Glue se mais de uma zona de disponibilidade na qual você executar uma tarefa, na mesma região, tiver uma porcentagem de tempo de disponibilidade inferior a 99,9% durante qualquer ciclo de faturamento mensal.

Para obter detalhes completos sobre todos os termos e condições do SLA, bem como detalhes sobre como enviar uma alegação, consulte a página de detalhes do SLA do AWS Glue.

Acesse a página de definição de preço

Explore as opções de definição de preço do AWS Glue.

Saiba mais

Cadastre-se para obter uma conta gratuita

Obtenha acesso instantâneo ao nível gratuito da AWS.

Cadastrar-se

Comece a criar no console

Comece a criar com o AWS Glue no Console de Gerenciamento da AWS.

Fazer login