David Yanacek, engenheiro-chefe sênior
David Yanacek é engenheiro chefe sênior e trabalha em serviços como o CloudWatch na organização Amazon Monitoring & Observability, na AWS. David é desenvolvedor de software na Amazon desde 2006. Anteriormente, ele trabalhou com o Amazon DynamoDB, AWS Lambda e AWS IoT. Ele também trabalhou com estruturas internas de serviços da Web e sistemas de automação de operações de frota. Uma das atividades preferidas de David é a análise de logs e o exame de métricas operacionais para descobrir maneiras de tornar a execução de sistemas mais eficientes com o passar do tempo.
Autoria de David
A abordagem da Amazon para monitoramento de serviços de produção
Esta sessão abrange todo o espectro de monitoramento na Amazon, desde como as equipes avaliam a integridade do sistema em alto nível até como elas ampliam o zoom para entender os detalhes de uma única solicitação. Além disso, saiba como a Amazon pensa em percentis, dimensionalidade de métricas, painéis, análise de logs e rastreamento distribuído.
Excelência operacional na Amazon
Nesta sessão, conheça as práticas operacionais da Amazon. Como os hábitos que as equipes adotaram, como lidar com retrospectivas, compartilhar conhecimento e revisar regularmente as métricas operacionais, levaram as equipes a inovar para criar ferramentas melhores e fazer mudanças na arquitetura.
Arquitetando e operando sistemas resilientes sem servidor em grande escala
Neste vídeo, abordamos o que a AWS faz para criar serviços confiáveis e resilientes, incluindo evitar modos e sobrecarga, realizar trabalhos limitados, controle de utilização em várias camadas, proteger a simultaneidade, enviar solicitações idempotentes, aplicar contrapressão e equidade nas filas e realizar fragmentação aleatória.
Implementar verificações de saúde
Como detectar e mitigar automaticamente as falhas de servidor sem consequências não intencionais resultantes de falsos positivos em toda a frota.
Instrumentação de sistemas distribuídos para visibilidade operacional
Como obter visibilidade operacional dos sistemas de produção e solucionar problemas com a instrumentação de software.
Usando a redução de carga para evitar sobrecarga
Estratégias para manter uma performance previsível e consistente diante da sobrecarga.
Usando isolamento de dependência para conter a sobrecarga de simultaneidade
Conter o impacto causado por uma falha na dependência para afetar somente a funcionalidade relevante em um aplicativo.
Equidade em sistemas multilocatários
Construindo justiça em sistemas multilocatários para fornecer desempenho e disponibilidade previsíveis.
Evitando atrasos insuperáveis nas filas
Como priorizar a drenagem rápida de workloads importantes de backlogs na fila e evitar backlogs desde o início.