11월 22일 AWS 서울 리전 이슈의 후속 조치 안내

AWS 코리아에서 고객 여러분께 간략하게 중요한 업데이트 사항을 공유 드립니다. 지난 11월 22일(목) 오전 AWS 서울 리전의 일부 DNS 서버 설정이 잘못되어 84분 동안 Amazon EC2 인스턴스의 DNS 확인을 방해하는 일이 발생했습니다. 당시 설정 오류는 바로 해결되었으며, 그 이후 서비스는 정상적으로 운영되고 있습니다. 다시 한번, AWS는 이로 인해 한국 고객 여러분들께 불편을 끼친 부분에 대해 사과드립니다. 이에 대해 누구나 AWS 웹사이트를 통해 연락하실 수 있으며, 여러분의 의견을 환영합니다.

지난 2006년 AWS가 서비스를 시작한 이후 운영 성능은 매우 우수했으며, 이 점은 AWS 가 빠르게 성장할 수 있던 주된 이유 중 하나입니다. 하지만, AWS의 목표는 서비스 운영 성능을 완벽에 가깝도록 유지하는 것이며, 저희가 생각하는 기준에 미치지 못한다고 느낄 때 이를 해결하기 위해 모든 것을 쏟아 부어왔습니다.

AWS 고객 여러분께서 다양한 의견을 제시해 주셨기 때문에 관련하여 몇 가지 중요한 사항을 알려 드리고자 합니다.

첫째로, 이번 이슈에 영향을 받은 고객에 대한 어떠한 보안 또는 데이터 손실 위험이 야기되지 않았습니다. 둘째, AWS 서울 리전이 호주나 미국에서 운영되는 것은 아닌가에 대한 추측이 있었습니다. 2012년부터 AWS는 한국에 사무실을 두고 서울 리전 운영을 담당하고 있으며, 앞으로도 계속해서 운영할 것입니다. AWS는 한국 데이터센터를 관리하는 높은 역량을 가진 팀을 포함해, 솔루션즈 아키텍트, 프로페셔널 서비스 컨설턴트, 기술 어카운트 매니저, 기술 지원 담당자 등과 같이 중요한 현장 팀을 지속적으로 구축해 왔으며, 이를 통해 국내 고객들과 협력해 왔습니다.

일부 고객께서는 AWS 서울 리전에서 과거에도 이런 유형의 EC2 이벤트가 발생했는지 여부를 질문하셨습니다. AWS 서울 리전을 운영한 3년 동안, 이런 종류의 이벤트가 발생한 것은 이번이 처음입니다. 서울 리전에서 EC2 서비스 수준을 측정한 이후, EC2 가용성은 매년 100%였습니다. 이러한 점이 저희가 국내에서 급속도로 성장할 수 있었던 이유 중 하나입니다. 이와 함께 AWS는 다른 어느 기업보다 다양한 기능을 보유하고 있으며, 가장 폭 넓은 파트너 생태계와 강력한 보안 역량, 우수한 운영 능력을 가지고 있습니다.

다음으로, 이번 일을 어떻게 고객들께 공지하였는지 알려 드립니다. AWS가 가지고 있는 과제 중 하나는 이러한 이슈가 발생했을 때, 어떻게 하면 수천 명의 고객들에게 빠르고 정확하게 업데이트 정보를 전달할 수 있는가 하는 것입니다. 이슈가 발생되는 동안 고객에게 거의 실시간으로 정보를 제공하는 방법은 Service Health Dashboard(웹 사이트)를 운영하는 것으며, 이는 AWS를 비롯한 기타 클라우드 벤더가 실시하고 있는 글로벌 업계 표준 방법입니다. 저희는 이번 이슈가 진행 되는 동안 주기적으로 Service Health Dashboard에 정보를 업데이트 했습니다.  또한, AWS 서비스의 성능과 가용성에 대한 개인별 맞춤형 정보를 제공하는 Personal Health Dashboard를 통해 고객 여러분께 알림과 함께 자세한 정보를 제공했습니다. AWS 코리아 지원 담당자들은 개별적인 이메일, 전화 뿐만 아니라 AWS 웹사이트 문의 하기AWS 관리 콘솔 기술 지원 페이지를 통해 고객 문의에 응답했습니다. 엔터프라이즈 지원 서비스에 가입한 고객은 기술 어카운트 매니저를 통해 정보와 업데이트를 제공받을 수 있었습니다.

(일반적으로 수 일이 소요되는 ) 예비 조사와 근본 원인에 대한 확인 직후인 11월 25일(일) 이번 발생 사안에 대한 사후 조사 요약 보고서를 게재했습니다. AWS는 이를 AWS Korea 공식 Twitter와 AWS Korea 블로그의 매주 게재되는 AWS Weekly News를 통해 공유했습니다. AWS에 있어 정확성은 매우 중요하며, AWS는 정보를 제공할 때 항상 정확성을 확인하기 위해 노력하고 있습니다.

마지막으로, 84분간의 중단에 대해 고객에게 환불할 것인지에 대한 질문이 있었습니다. AWS는 서비스 수준 계약(Service Level Agreement, SLA)을 공개하고 있고, 여기에는 이와 같은 드문 이벤트에 적용 가능한 정책이 설명되어 있습니다. 이번 경우, EC2에 영향을 받은 모든 분들은 아시아-태평양 (서울) 리전의 11월 EC2 청구 항목에 대해 10%를 환불 받게 됩니다. 이번 환불은 영향 받은 모든 고객의 2018년 12월 청구서에 크레딧으로 자동 반영되며, 고객들은 별도의 추가 조치 없이도 AWS에 의해 적극적으로 환불이 적용될 것입니다.

AWS는 그동안 뛰어난 운영 성능을 고객에게 제공하기 위해 최선의 노력을 다해 왔습니다. AWS 출범 이후 지난 12년 6개월 동안 한국과 전세계에서의 운영 성능은 매우 우수했습니다. AWS는 한국 고객들에게도 뛰어난 운영 성능을 제공하기 위해 노력하고 있으며, 지난 11월 22일에 발생한 84분 간의 이슈를 통해서 배워 나갈 것입니다. 실제로, AWS는 재발을 막기 위해 몇 가지 조치를 이미 취한 바 있습니다. AWS는 고객 여러분과의 소통을 넓히고, 고객의 의견을 소중하게 경청하고 있습니다. 또한 고객 여러분이 AWS에 보여주신 변함없는 애정에 감사 드리며, 고객 여러분의 신뢰를 얻기 위해 항상 노력할 것입니다. ‎


장정욱 AWS코리아 대표 드림

Follow-up to the November 22 event in AWS Seoul Region

Jungwook Jang, Managing Director, AWS Korea

I’m sharing a brief, but important, update from AWS Korea. On November 22, a misconfiguration in AWS Seoul Region for some of our DNS servers prevented DNS resolution from the Amazon EC2 instances for 84 minutes. The configuration error was fixed, and the services have been operating normally since then. Again, we apologize for any inconvenience this caused Korean customers, and as always, we welcome anybody to contact us via the AWS website. Our operational performance has been quite strong since 2006, and is one of the key reasons we’ve grown as quickly as we have, but our goal remains to make our operational performance indistinguishable from perfect, so we drop everything to address it when we feel like it isn’t where it needs to be.

Our customers have shared feedback with us, and we wish to respond to several of these important points. First, the event did not create a security or data loss risk for any impacted customer. Second, there was some speculation as to whether AWS Korea was operated from Australia, or the United States. In fact, since 2012, we have had an AWS team in Korea that has operated the AWS Seoul Region, and will continue to do so. We have been continuously building a significant field team of solutions architects, professional services consultants, technical account managers, and support personnel to work with our Korean customers, along with a skilled team managing our Korean datacenters.

Customers have asked us, has this type of event in EC2 happened before in AWS Seoul Region? In three years of operating the AWS Seoul Region, this is the first event of this sort. The availability of EC2 in Seoul, as measured by the EC2 SLA, has been 100% each year. This is  one of the reasons AWS’s business has grown so fast in Korea, along with‎ the fact that AWS has much more functionality than anybody else, the largest partner ecosystem, more security, and better operational maturity at very large scale than others.‎

We’d also like to explain how we communicated this event to customers. One of the challenges AWS has, is how to communicate news of an event like this quickly and accurately, to many thousands of customers. The global industry standard for how AWS and other cloud vendors keep customers informed in near real time during an operational event, is a Service Health Dashboard. This was updated frequently throughout the event. We also provided notifications and detailed information to customers via the Personal Health Dashboard, which provides a personalized view into the performance and availability of AWS services. AWS Korea support personnel responded to customer enquiries via e-mail, phone, the AWS website Contact Us page, and the AWS console technical support page. Technical Account Managers were available to customers who have subscribed to Enterprise Support, providing information and updates. Promptly after the conclusion of our preliminary investigation, and the identification of the root cause of the event (which commonly can take a few days to uncover), on November 25, we published a post mortem summary of what happened. We shared this summary via AWS Korea Twitter, and on AWS Korea blog post, AWS Weekly News.  Accuracy is extremely important to us, and we always strive to ensure that when we provide information, it’s correct.

Finally, there were questions on whether we would refund any of our customers’ bills for the 84 minute event. We have well-established and published SLAs that explain what our policies are in the rare events where they’re applicable. In this case, for anybody impacted on the EC2 side, we will refund 10% of November’s bill for EC2 in the AWS Asia Pacific (Seoul) Region‎.‎ This refund will be reflected as an automatic credit in the December 2018 bill of all impacted customers, and the credit will be applied proactively by AWS without any further action by our customers.

We work really hard to provide excellent operational performance, and our track record in Korea and around the world has been outstanding in the first 12.5 years we’ve been operating AWS. We remain committed to providing outstanding operational performance to our Korean customers, and will learn from the 84 minute event on November 22. In fact, we’ve already taken several actions designed to prevent this from happening again. We are listening to our customers, value their feedback, are grateful for their continued commitment to AWS, and will work to earn their trust every day.‎

Thank you.