December 20, 2013

We want to give you some additional insight into the event that impacted a single Availability Zone in the South America Region (SA-EAST-1). On December 17th at 10:05PM PST, the impacted Availability Zone lost utility power due to a fault that happened at the substation of the local utility provider. The impacted Availability Zone automatically switched over to run on generator power when utility power was lost. Availability Zones are built with multiple layers of redundancy, and are designed to continue to operate even when multiple components fail at the same time. In this particular case when we experienced a loss in utility power, the load switched over to our backup generators as designed. During that failover a breaker in front of one of the generators opened, rendering that generator unavailable. Shortly thereafter, a second generator independently failed due to a mechanical issue. The loss of utility power combined with the unavailability of two additional generators meant that there was more load in the facility than the remaining healthy generators could handle. With more load on them than they could support, the remaining healthy generators also shut down. Our facilities team immediately began working to bring the failed generators back online. This facility uses an automated control system which allows it to aggregate power from multiple generators together. The team experienced several additional setbacks when trying to bring the power infrastructure back online, and eventually identified that the automated control system wasn’t functioning properly. Once the team identified the issue, they bypassed the automated control system and began the slow process of manually bringing the generators online. Once there was sufficient generator capacity to fully support the facility, all of the impacted instances were recovered. While we have not completed forensics on the breaker opening and the generator mechanical failure, we find the double failure to be extremely unusual, and are deeply reviewing the operational records of the failed components.

Instances in the second Availability Zone in the Region did not experience any power related issues, however instances in both Availability Zones did experience a total of 20 minutes of degraded network connectivity due to an error that was made in bringing our network back online once power was restored. As part of the recovery process, a network technician brought a network device up manually in the power-impacted Availability Zone and introduced a bad configuration. That misconfiguration led to the device advertising an invalid network route when it came back online, which resulted in degraded Internet connectivity for both SA-EAST-1 Availability Zones. Once we understood the issue, we took the device out of service and full connectivity to the Region was restored. After power and networking were fully restored to the facility, all of our services were brought back online and full customer access was restored.

We apologize for any difficulty this event may have caused you. We appreciate how critical our services are to our customers, and will take steps to ensure this Availability Zone in Brazil is better able to withstand a similar power failure in the future.

Sincerely,
The AWS Team


Gostaríamos de compartilhar detalhes sobre o evento que impactou uma única Zona de Disponibilidade na região South America (SA-EAST-1). Em 17 de Dezembro às 22:05, horário do Pacífico (Estados Unidos) - 4:05 horário oficial do Brasil do dia 18, a Zona de Disponibilidade impactada teve interrupção do fornecimento de energia elétrica devido a uma falha que ocorreu na subestação da concessionária local. Zonas de Disponibilidade são construídas com múltiplas camadas de redundância e projetadas para continuar a operar mesmo quando múltiplos componentes falham num mesmo momento. Neste caso em particular onde enfrentamos interrupção de energia, a carga foi transferida para os nossos geradores de contingência conforme projetado. Durante essa transição um disjuntor de um dos geradores disparou, tornando aquele gerador indisponível. Instantes depois, um segundo gerador apresentou falha mecânica, acontecimento esse independente do outro ocorrido. A interrupção de energia combinada com a indisponibilidade de dois geradores levou a uma situação onde havia mais carga nas instalações do que a capacidade que os geradores remanescente em estado operacional poderiam suportar. Com mais carga do que poderiam suportar, esses geradores remanescentes também desligaram. Nossos times presentes nas instalações imediatamente iniciaram os trabalhos para religar os geradores que falharam. Esta instalação utiliza um sistema automatizado de controle que o permite agregar energia de múltiplos geradores. O time enfrentou vários desafios adicionais quando tentando restabelecer a infraestrutura de alimentação de energia, e eventualmente identificou que esse sistema não estava funcionando apropriadamente. Uma vez identificada a questão, eles transpassaram esse sistema e iniciaram um lento processo manual de religar os geradores. Logo que houve capacidade suficiente dos geradores para suportar de forma completa a instalação, todas as instâncias impactadas foram recuperadas. Ainda não completamos a análise forênsica do disparo do disjuntor e da falha mecânica do gerador, entendemos essa dupla falha como algo extremamente não usual, e estamos reavaliando profundamente os registros operacionais dos componentes que falharam.

Instâncias na segunda Zona de Disponibilidade na Região não enfrentaram qualquer questão relacionada a energia, entretanto instâncias em ambas as Zonas de Disponibilidade enfrentaram um total de 20 minutos de conectividade de rede degradada devido a um erro que ocorreu ao trazer nossa rede novamente ao ar logo que a energia foi restaurada. Como parte do processo de recuperação, um técnico de redes religou um dispositivo de rede manualmente na Zona de Disponibilidade impactada por alimentação de energia e introduziu uma configuração errônea. Tal configuração levou ao anúnci de uma rota de rede inválida por esse dispositivo quando o mesmo foi religado, o que resultou em conectividade de Internet degradada para ambas as Zonas de Disponibilidade de SA-EAST-1. Uma vez entendida a situação, tiramos o dispositivo de serviço e a conectividade a Região foi completamente restaurada. Após a completa restauração de energia e rede da instalação, todos os nossos serviços foram postos novamente no ar e o acesso de clientes foi completamente restaurado.

Pedimos desculpas por quaisquer dificuldades que este evento possa tê-lo causado. Apreciamos o quão crítico nossos serviços são para nossos clientes, e tomaremos medidas para garantir que esta Zona de Disponibilidade no Brasil apresenta melhor capacidade de tolerar uma falha de energia similar no futuro.