20 de dezembro de 2013

Gostaríamos de compartilhar detalhes sobre o evento que impactou uma única Zona de Disponibilidade na região South America (SA-EAST-1). Em 17 de Dezembro às 22:05, horário do Pacífico (Estados Unidos) - 4:05 horário oficial do Brasil do dia 18, a Zona de Disponibilidade impactada teve interrupção do fornecimento de energia elétrica devido a uma falha que ocorreu na subestação da concessionária local. Zonas de Disponibilidade são construídas com múltiplas camadas de redundância e projetadas para continuar a operar mesmo quando múltiplos componentes falham num mesmo momento. Neste caso em particular onde enfrentamos interrupção de energia, a carga foi transferida para os nossos geradores de contingência conforme projetado. Durante essa transição um disjuntor de um dos geradores disparou, tornando aquele gerador indisponível. Instantes depois, um segundo gerador apresentou falha mecânica, acontecimento esse independente do outro ocorrido. A interrupção de energia combinada com a indisponibilidade de dois geradores levou a uma situação onde havia mais carga nas instalações do que a capacidade que os geradores remanescente em estado operacional poderiam suportar. Com mais carga do que poderiam suportar, esses geradores remanescentes também desligaram. Nossos times presentes nas instalações imediatamente iniciaram os trabalhos para religar os geradores que falharam. Esta instalação utiliza um sistema automatizado de controle que o permite agregar energia de múltiplos geradores. O time enfrentou vários desafios adicionais quando tentando restabelecer a infraestrutura de alimentação de energia, e eventualmente identificou que esse sistema não estava funcionando apropriadamente. Uma vez identificada a questão, eles transpassaram esse sistema e iniciaram um lento processo manual de religar os geradores. Logo que houve capacidade suficiente dos geradores para suportar de forma completa a instalação, todas as instâncias impactadas foram recuperadas. Ainda não completamos a análise forênsica do disparo do disjuntor e da falha mecânica do gerador, entendemos essa dupla falha como algo extremamente não usual, e estamos reavaliando profundamente os registros operacionais dos componentes que falharam.

Instâncias na segunda Zona de Disponibilidade na Região não enfrentaram qualquer questão relacionada a energia, entretanto instâncias em ambas as Zonas de Disponibilidade enfrentaram um total de 20 minutos de conectividade de rede degradada devido a um erro que ocorreu ao trazer nossa rede novamente ao ar logo que a energia foi restaurada. Como parte do processo de recuperação, um técnico de redes religou um dispositivo de rede manualmente na Zona de Disponibilidade impactada por alimentação de energia e introduziu uma configuração errônea. Tal configuração levou ao anúnci de uma rota de rede inválida por esse dispositivo quando o mesmo foi religado, o que resultou em conectividade de Internet degradada para ambas as Zonas de Disponibilidade de SA-EAST-1. Uma vez entendida a situação, tiramos o dispositivo de serviço e a conectividade a Região foi completamente restaurada. Após a completa restauração de energia e rede da instalação, todos os nossos serviços foram postos novamente no ar e o acesso de clientes foi completamente restaurado.

Pedimos desculpas por quaisquer dificuldades que este evento possa tê-lo causado. Apreciamos o quão crítico nossos serviços são para nossos clientes, e tomaremos medidas para garantir que esta Zona de Disponibilidade no Brasil apresenta melhor capacidade de tolerar uma falha de energia similar no futuro.

Atenciosamente,
A equipe da AWS