20 de dezembro de 2013

Gostaríamos de dar a você algumas informações adicionais sobre o evento que afetou uma única zona de disponibilidade na Região da América do Sul (SA-EAST-1). No dia 17 de dezembro às 22h05 PST, a zona de disponibilidade afetada perdeu energia da rede elétrica devido a uma falha que aconteceu na subestação da operadora local. A zona de disponibilidade afetada mudou automaticamente para funcionar com energia do gerador com a perda da energia da rede elétrica. Zonas de disponibilidade são construídas com várias camadas de redundância e projetadas para continuar a operar mesmo quando vários componentes falham ao mesmo tempo. Neste caso específico, quando ocorreu uma perda de energia da concessionária, a carga foi transferida para nossos geradores de backup conforme projetado. Durante esse failover, um disjuntor na frente de um dos geradores foi aberto, tornando aquele gerador indisponível. Pouco tempo depois, um segundo gerador falhou de forma independente devido a um problema mecânico. A perda de energia da rede elétrica, combinada com a indisponibilidade de dois geradores adicionais, significava que havia mais carga na instalação do que os geradores íntegros restantes poderiam suportar. Com mais carga sobre eles do que podiam suportar, os geradores íntegros restantes também desligaram. Nossos times presentes nas instalações imediatamente iniciaram os trabalhos para religar os geradores que falharam. Esta instalação utiliza um sistema automatizado de controle que o permite agregar energia de múltiplos geradores. O time enfrentou vários desafios adicionais quando tentando restabelecer a infraestrutura de alimentação de energia, e eventualmente identificou que esse sistema não estava funcionando apropriadamente. Uma vez identificada a questão, eles transpassaram esse sistema e iniciaram um lento processo manual de religar os geradores. Logo que houve capacidade suficiente dos geradores para suportar de forma completa a instalação, todas as instâncias impactadas foram recuperadas. Ainda não completamos a análise forênsica do disparo do disjuntor e da falha mecânica do gerador, entendemos essa dupla falha como algo extremamente não usual, e estamos reavaliando profundamente os registros operacionais dos componentes que falharam.

Instâncias na segunda Zona de Disponibilidade na Região não enfrentaram qualquer questão relacionada a energia, entretanto instâncias em ambas as Zonas de Disponibilidade enfrentaram um total de 20 minutos de conectividade de rede degradada devido a um erro que ocorreu ao trazer nossa rede novamente ao ar logo que a energia foi restaurada. Como parte do processo de recuperação, um técnico de redes religou um dispositivo de rede manualmente na Zona de Disponibilidade impactada por alimentação de energia e introduziu uma configuração errônea. Tal configuração levou ao anúncio de uma rota de rede inválida por esse dispositivo quando o mesmo foi religado, o que resultou em conectividade de Internet degradada para ambas as Zonas de Disponibilidade de SA-EAST-1. Uma vez entendida a situação, tiramos o dispositivo de serviço e a conectividade a Região foi completamente restaurada. Após a completa restauração de energia e rede da instalação, todos os nossos serviços foram postos novamente no ar e o acesso de clientes foi completamente restaurado.

Pedimos desculpas por quaisquer dificuldades que este evento possa tê-lo causado. Apreciamos o quão crítico nossos serviços são para nossos clientes, e tomaremos medidas para garantir que esta Zona de Disponibilidade no Brasil apresenta melhor capacidade de tolerar uma falha de energia similar no futuro.

Atenciosamente,
A equipe da AWS


Gostaríamos de compartilhar detalhes sobre o evento que impactou uma única Zona de Disponibilidade na região South America (SA-EAST-1). Em 17 de Dezembro às 22:05, horário do Pacífico (Estados Unidos) - 4:05 horário oficial do Brasil do dia 18, a Zona de Disponibilidade impactada teve interrupção do fornecimento de energia elétrica devido a uma falha que ocorreu na subestação da concessionária local. Zonas de Disponibilidade são construídas com múltiplas camadas de redundância e projetadas para continuar a operar mesmo quando múltiplos componentes falham num mesmo momento. Neste caso em particular onde enfrentamos interrupção de energia, a carga foi transferida para os nossos geradores de contingência conforme projetado. Durante essa transição um disjuntor de um dos geradores disparou, tornando aquele gerador indisponível. Instantes depois, um segundo gerador apresentou falha mecânica, acontecimento esse independente do outro ocorrido. A interrupção de energia combinada com a indisponibilidade de dois geradores levou a uma situação onde havia mais carga nas instalações do que a capacidade que os geradores remanescente em estado operacional poderiam suportar. Com mais carga do que poderiam suportar, esses geradores remanescentes também desligaram. Nossos times presentes nas instalações imediatamente iniciaram os trabalhos para religar os geradores que falharam. Esta instalação utiliza um sistema automatizado de controle que o permite agregar energia de múltiplos geradores. O time enfrentou vários desafios adicionais quando tentando restabelecer a infraestrutura de alimentação de energia, e eventualmente identificou que esse sistema não estava funcionando apropriadamente. Uma vez identificada a questão, eles transpassaram esse sistema e iniciaram um lento processo manual de religar os geradores. Logo que houve capacidade suficiente dos geradores para suportar de forma completa a instalação, todas as instâncias impactadas foram recuperadas. Ainda não completamos a análise forênsica do disparo do disjuntor e da falha mecânica do gerador, entendemos essa dupla falha como algo extremamente não usual, e estamos reavaliando profundamente os registros operacionais dos componentes que falharam.

Instâncias na segunda Zona de Disponibilidade na Região não enfrentaram qualquer questão relacionada a energia, entretanto instâncias em ambas as Zonas de Disponibilidade enfrentaram um total de 20 minutos de conectividade de rede degradada devido a um erro que ocorreu ao trazer nossa rede novamente ao ar logo que a energia foi restaurada. Como parte do processo de recuperação, um técnico de redes religou um dispositivo de rede manualmente na Zona de Disponibilidade impactada por alimentação de energia e introduziu uma configuração errônea. Tal configuração levou ao anúncio de uma rota de rede inválida por esse dispositivo quando o mesmo foi religado, o que resultou em conectividade de Internet degradada para ambas as Zonas de Disponibilidade de SA-EAST-1. Uma vez entendida a situação, tiramos o dispositivo de serviço e a conectividade a Região foi completamente restaurada. Após a completa restauração de energia e rede da instalação, todos os nossos serviços foram postos novamente no ar e o acesso de clientes foi completamente restaurado.

Pedimos desculpas por quaisquer dificuldades que este evento possa tê-lo causado. Apreciamos o quão crítico nossos serviços são para nossos clientes, e tomaremos medidas para garantir que esta Zona de Disponibilidade no Brasil apresenta melhor capacidade de tolerar uma falha de energia similar no futuro.