Publicado: Mar 30, 2021
O AWS Glue é um serviço de integração de dados sem servidor que facilita a descoberta, a preparação e a combinação de dados para análise, machine learning e desenvolvimento de aplicações. Usando fluxos de trabalho do AWS Glue, você pode orquestrar e executar um fluxo de trabalho complexo de integração de dados com vários crawlers e vários trabalhos. Os esquemas personalizados do AWS Glue tornam mais fácil para os engenheiros de dados criar fluxos de trabalho repetíveis do AWS Glue.
Antes de começar com o esquema do AWS Glue, identifique um fluxo de trabalho de integração de dados repetível. Por exemplo, um fluxo de trabalho de ETL que converte dados CSV em seu bucket bruto do S3 para o formato Parquet em seu bucket de produção do S3, e você deseja executar esse fluxo de trabalho de ETL várias vezes em diferentes contas da AWS. Em vez de criar um fluxo de trabalho para cada processo de ETL, você pode criar e registrar um esquema do AWS Glue que aceite o bucket do S3 como parâmetro de entrada. Um analista de dados só precisa fornecer parâmetros de entrada (por exemplo, fontes e destinos de dados) para criar novos fluxos de trabalho de integração de dados.
A demonstração pública do esquema do AWS Glue está disponível em cada região em que o AWS Glue está disponível. Para saber mais, acesse o Guia do usuário do AWS Glue. Acesse o console do AWS Glue para começar a usá-lo.