David Yanacek, ingeniero jefe sénior
David Yanacek es un ingeniero jefe sénior que trabaja en servicios como CloudWatch en la organización de monitoreo y observabilidad de Amazon, en AWS. David ha trabajado como desarrollador de software en Amazon desde 2006 y anteriormente trabajó en Amazon DynamoDB, AWS Lambda y AWS IoT. También ha trabajado en marcos de servicio web internos y en sistemas de automatización de operaciones de flota. Una de las actividades preferidas de David en el trabajo es llevar a cabo análisis de registros y examinar las métricas operativas para encontrar formas de mejorar el funcionamiento de los sistemas con el paso del tiempo.
Elaborado por David
El enfoque de Amazon para la supervisión de los servicios de producción
Esta sesión cubre todo el espectro de la supervisión en Amazon, desde la forma en que los equipos evalúan el estado del sistema a un alto nivel hasta la forma en que se amplían para comprender los detalles de una sola solicitud. Además, descubra cómo piensa Amazon sobre los percentiles, la dimensionalidad de las métricas, los paneles, el análisis de registros y el rastreo distribuido.
Excelencia operativa en Amazon
En esta sesión, infórmate sobre las prácticas operativas de Amazon. Cómo los hábitos que han adoptado los equipos, como la gestión de retrospectivas, el intercambio de conocimientos y la revisión periódica de las métricas operativas, llevaron a los equipos a innovar para crear mejores herramientas y realizar cambios en la arquitectura.
Diseñar y operar sistemas resilientes sin servidor a escala
En este vídeo, explicamos lo que hace AWS para crear servicios fiables y resilientes, tales como evitar los modos y la sobrecarga, realizar trabajos limitados, realizar limitaciones en varias capas, proteger la concurrencia, enviar solicitudes idempotentes, aplicar contrapresión y equidad en las colas y realizar la partición aleatoria.
Implementación de controles de estado
Detección y mitigación automática de errores del servidor sin consecuencias no deseadas de falsos positivos de toda la flota.
Instrumentación de sistemas distribuidos para la visibilidad operativa
Obtención de visibilidad operativa de los sistemas de producción y resolución los errores con instrumentación de software.
Utilizar la reducción de carga para evitar la sobrecarga
Estrategias para mantener un rendimiento predecible y constante frente a la sobrecarga.
Uso del aislamiento de dependencias para contener la sobrecarga de concurrencia
Contiene el impacto causado por un error de dependencia para afectar solo a la funcionalidad relevante de una aplicación.
Equidad en los sistemas de múltiples inquilinos
Incorporar la equidad en los sistemas multiusuario para proporcionar un rendimiento y una disponibilidad predecibles.
Evitar acumulaciones insuperables en las colas
Cómo priorizar el vaciado rápido de importantes cargas de trabajo de colas demoradas y evitar demoras en primera instancia.