Publicado: Nov 21, 2022
Hoje, o Amazon EMR anunciou suporte a consultas SQL tolerantes a falhas de longa execução no mecanismo do Trino (Project Tardigrade) com ponto de verificação no Amazon S3 ou HDFS para tolerância a falhas. O Project Tardigrade visa melhorar a experiência do usuário em consultas de longa duração e uso intensivo de recursos no Trino, quando usado para workloads do estilo ETL. O Project Tardigrade usa o Amazon S3 para verificar dados intermediários em buffer. Com o lançamento do Amazon EMR 6.9, também estamos adicionando pontos de verificação no HDFS para workloads SQL de execução longa e sensíveis à performance.
Pode ser desafiador executar workloads de ETL de longa duração de forma confiável e econômica no Trino. Isso ocorre porque reiniciar as consultas com falha do zero desperdiçaria recursos do cluster e a falta de capacidade de consulta iterativa poderia custar mais em clusters grandes. O Project Tardigrade introduziu um novo mecanismo de execução tolerante a falhas que permite que os clusters do Trino reduzam as falhas de consulta, repetindo-as usando os dados de troca intermediários coletados no S3. A equipe do Amazon EMR estendeu esse recurso para o ponto de verificação no HDFS para melhorar ainda mais a performance dessas consultas do Trino. Com suporte para consultas de longa execução tolerantes a falhas, os usuários do Amazon EMR agora podem executar fluxos de trabalho de ETL de maneira confiável, além de se beneficiarem da performance e da economia de custos devido às execuções iterativas de tarefas. Você pode habilitar a tolerância a falhas em clusters do Amazon EMR Trino usando a classificação de configuração do Trino no console do Amazon EMR, na CLI ou usando a API.
Você pode usar esse recurso em todas as regiões nas quais o Amazon EMR Trino é oferecido. Para saber mais sobre esse recurso, consulte nossa documentação.