IT-Resilienz in der AWS Cloud: Denkweise und Unternehmenskultur

von Randy DeFauw, Amine Chigani und Nigel Harris, übersetzt von Tobias Nitzsche.

Viele unserer Kunden haben Schwierigkeiten, ihre Strategien für Geschäftskontinuität und Betriebsabläufe aus lokalen Umgebungen an die Cloud anzupassen, wenn sie in die Cloud migrieren. Dies kann die Resilienz kritischer Geschäftsanwendungen beeinträchtigen und den Umzug in die Cloud verzögern. In dieser zweiteiligen Blogserie erhalten Sie Leitlinien zur Umsetzung von IT-Resilienzstrategien in der Cloud.

Im ersten Teil beleuchten wir häufige Herausforderungen aus der Führungsperspektive. Außerdem definieren wir Resilienz in der Cloud-Umgebung und geben wichtige Denkanstöße zur Anpassung der Denkweise und Unternehmenskultur.

Im zweiten Teil gehen wir auf die technischen Aspekte ein und untersuchen architektonische Überlegungen und Muster.

Herausforderungen für Kunden

In einer Diskussion über eine Cloud-Migrationsstrategie äußerte der IT-Leiter eines globalen Finanzdienstleisters Bedenken: „Wir sind bereit, den Business Case für einen Wechsel zu AWS zu prüfen. Meine Hauptsorge ist jedoch, wie wir in einer Hybrid-Cloud-Umgebung Resilienz sicherstellen und gleichzeitig regulatorische Compliance-Anforderungen erfüllen können.“ Nach diesen Nachfragen wurde klar, dass die Sorge die Umsetzung einer Disaster Recovery (DR) Strategie mit zwei Cloud-Rechenzentren betraf.

In den letzten 12 Monaten haben wir zunehmend beobachtet, dass Führungskräfte – direkt oder indirekt – Resilienz als primäre Herausforderung identifizieren. Oft kommt dies in Diskussionen über Geschäftskontinuität aufgrund von COVID-19 auf. Manchmal vermischen sich Bedenken über öffentlich gewordene Sicherheitsvorfälle oder Ausfälle. Andere Male wird es bei Cloud-Technologieprüfungen angesprochen. Für diese Unternehmen hat es Jahre gedauert, ein ausgewogenes IT-Compliance-Modell mit Vorschriften aufzubauen. Die Transformation durch digitale Initiativen bei gleichzeitiger Migration von Legacy-Workloads in die Cloud ist operativ eine Herausforderung. Diese kann das Compliance-Modell stören und die Cloud-Einführung verzögern.

Überlegungen für den Einstieg

Die Cloud-Einführung steht häufig im Zentrum umfassender digitaler Transformationsinitiativen von Unternehmen. Transformationen sind jedoch störend und Störungen können für Unruhe sorgen. Eine Resilienzstrategie und eine resiliente Infrastruktur können Ihrem Unternehmen Sicherheit geben. Resiliente Systeme erfordern allerdings auch eine resiliente Organisation – beides geht Hand in Hand. Die folgenden Punkte helfen Führungskräften bei den ersten Schritten:

1. Verständnis von Resilienz in der Cloud

Wie sollten Führungskräfte Resilienz in der Cloud betrachten? Resilienz ist ein Maß dafür, wie gut eine Infrastruktur, ein Workload oder eine Plattform vor Störungen durch nachteilige Ereignisse und Bedingungen geschützt ist. Wie andere Architekturmerkmale wird Resilienz auf einer Skala gemessen (d.h. der Grad der Resilienz eines Systems). Es ist kein binäres Merkmal (d.h. resilient oder nicht resilient).

Zudem ist Resilienz ein übergreifendes Merkmal, das mit anderen wie Verfügbarkeit, Sicherheit und Leistung zusammenhängt. Aufgrund der Geschäftsrelevanz (d.h. Geschäftskontinuität) verwenden Nicht-Technikführungskräfte den Begriff oft weiter gefasst für eine Reihe verwandter Architekturmerkmale. Für Führungskräfte empfehlen wir jedoch, Resilienzstrategien auf Verfügbarkeit, Leistung und Notfallwiederherstellung (engl. Disaster Recovery) auszurichten.

2. Praktizieren und Automatisieren von Resilienzstrategien

Wie stellen Führungskräfte sicher, dass Investitionen in Resilienz Früchte tragen? Unsere Empfehlung: Setzen Sie Ihre Systeme kontinuierlich Bedingungen aus, die eine organisatorische „Muskelkraft“ aufbauen, die diese Systeme sowohl in normalen als auch außergewöhnlichen Situationen unterstützt.

In den folgenden Abschnitten teilen wir effektive Praktiken, die wir von erfahrenen Cloud-Nutzern beobachtet haben. Dies hilft Ihnen, über das konzeptionelle Verständnis von Resilienz hinauszugehen und zunehmend komplexere und automatisierte Ansätze einzusetzen.

Architektur-Reviews

Das AWS Well-Architected Framework leitet Führungskräfte durch den Aufbau und die Wartung resilienter Infrastrukturen, Anwendungen und Daten. Wir empfehlen mindestens, AWS Well-Architected Reviews regelmäßig in Ihren Lebenszyklusmanagement-Prozess einzubeziehen und das AWS Well-Architected Tool zu nutzen, um die Resilienz laufend aufrechtzuerhalten und zu verbessern. Wir empfehlen auch die Verwendung der verschiedenen AWS Well-Architected-Linsen, um kritische Workloads und Technologiebereiche wie Analysetools oder High Performance Computing (HPC)-Cluster zu berücksichtigen. Diese Praxis wird Resilienzaspekte in jede Diskussion einbringen, z.B. „Was passiert, wenn diese Komponente ausfällt?“, wobei es sich um jede kritische Komponente Ihrer Umgebung handeln kann.

Vorfallsimulation

Wie bei routinemäßigen Feuerübungen sollten Führungskräfte regelmäßig auch ihren operativen Reaktionsplan für Vorfälle testen.

Ihre operativen Wiederherstellungsszenarien für Workloads, Infrastrukturen oder Daten sollten entsprechend der Entwicklungsgeschwindigkeit Ihrer Organisation getestet werden. Wir empfehlen, mit vierteljährlichen Tests zu beginnen und sich dann auf Tests nur bei wichtigen Entwicklungsmeilensteinen zu konzentrieren.

Für vollständige Disaster-Recovery-Szenarien empfehlen wir zunächst eine jährliche Überprüfung, da dies möglicherweise durch Compliance-Vorschriften erforderlich ist. Anschließend raten wir zu einer vierteljährlichen Überprüfung, um Möglichkeiten zur Stärkung Ihrer Resilienz zu identifizieren.

Chaos-Engineering

Im Laufe der Zeit können Teams, die Cloud-Architekturen betreuen, viele der erwarteten Ereignisse und Vorfälle, die die Resilienz des Systems auf die Probe stellen würden, automatisieren. Die Prinzipien des Chaos-Engineerings [EN, Extern] können übernommen werden, um diese Fähigkeiten innerhalb Ihrer Umgebung aufzubauen. So kann beispielsweise der AWS-Fehlerinjektionsservice (engl. AWS Fault Injection Simulator) eingesetzt werden, um es Teams zu erleichtern, Schwachstellen in ihren Umgebungen im großen Maßstab zu erkennen. Diese Praxis hilft Ihrem Team, eine Denkweise der „Ausfallerwartung“ zu entwickeln, was die Priorisierung resilienter Entwurfsmuster fördert.

3. Denken Sie groß. Starten Sie klein.

Der Übergang von traditionellen IT-Infrastrukturmodellen zur Cloud und anschließend der Aufbau resilienter Prozesse ist eine Herausforderung, besonders wenn man alles auf einmal angehen möchte. Es kann jedoch gelingen. Wir haben die größten Erfolge gesehen, wenn Führungskräfte mit einem überschaubaren Umfang beginnen, iterativ vorgehen und dann skalieren:

Klassifizieren Sie zunächst Ihre Technologieressourcen nach ihrer Kritikalität für das Geschäft. Eine Ressource kann eine einzelne Anwendung oder ein lebenswichtiges System wie eine Customer Relationship Management (CRM)-Lösung sein, von der andere Anwendungen abhängen. Viele Kunden verwenden Begriffe wie „Tier 0“, „Rot“ oder „Mission Critical“, um ihre kritischen Ressourcen zu kennzeichnen.
Als Nächstes implementieren Sie einen Resilienzplan für eine einzelne kritische Ressource oder einen kleinen verwandten Ressourcensatz.
- Sie benötigen ein funktionsübergreifendes Team, das die Verfügbarkeits- und Leistungsanforderungen vereinbart und in eine Arbeitsliste übersetzt.
- Das Team sollte die Ressource mit Chaos-Engineering-Prinzipien auf Schwachstellen analysieren.
- Geschäftsbeteiligte erfassen Metriken wie Reduzierung offener Aufträge oder Verbesserung der Kundenzufriedenheit.

Das Team für die erste Ressource (oder den Ressourcensatz) bildet den Kern eines neuen Resilienz-Kompetenzzentrums. Dieses Team wird wohl sein Wissen und Bestpractices in der Organisation teilen wollen. Wir empfehlen, ihnen eine Plattform wie einen vierteljährlichen Resilienz-Review zu geben, um Erfolge zu feiern und andere Teams zu ermutigen, dem Beispiel zu folgen.

Fazit

Führungskräfte sind verantwortlich, die Unternehmensleitung von der Resilienz ihrer IT-Ressourcen zu überzeugen und ihre Teams zur Erreichung von Resilienz anzuleiten. In diesem Beitrag haben wir Leitlinien bereitgestellt, um Führungskräften zu helfen, Resilienzbedenken von Geschäftsbeteiligten zu verstehen und Entwickler anzuleiten, einen anderen Ansatz für das Cloud-Resilienzdesign zu verfolgen. In einem Folgebeitrag gehen wir näher auf weitere technische Resilienzaspekte ein.

Drei zentrale Punkte für den Aufbau von Resilienzstrategien und -praktiken:

Über die Autoren:

	Randy DeFauw ist ein erfahrener Elektroingenieur mit über 23 Jahren Erfahrung in der Technologiebranche. Er hat sowohl bei Start-ups als auch bei großen Rüstungsunternehmen gearbeitet. Seine Faszination für verteilte Konsenssysteme führte ihn in den Bereich Big Data, wo er eine Leidenschaft für Analytik und maschinelles Lernen entwickelte. In seiner Karriere nutzte er AWS bereits in den frühen Tagen von Hadoop und erkannte, wie einfach es in der Cloud war, komplexe Infrastrukturen aufzubauen. Dies löste einige der Herausforderungen, die er bei Hadoop sah. Um seine Fähigkeiten zu erweitern erwarb er einen MBA, um die Denkweise und Sprache von Führungskräften besser zu verstehen. Dabei fand er die Kurse zu „Soft Skills“ besonders interessant. Derzeit beschäftigt sich Randy DeFauw mit Reinforcement Learning als Möglichkeit zur Optimierung von Problemen. Außerdem liest er erneut Martin Klepmanns Buch über datenintensive Designs, um sein Wissen in diesem Bereich zu vertiefen.
	Amine Chigani ist Enterprise Technologist/Strategist bei Amazon Web Services (AWS). In dieser Funktion arbeitet er eng mit Unternehmenskunden zusammen, um ihnen Erfahrungen und Strategien für die Cloud-Einführung, die Entwicklung agiler Organisationen sowie Innovationen durch Künstliche Intelligenz und Machine Learning zu vermitteln. Amine nutzt die AWS-Cloud-Plattform und -Programme, um seinen Kunden dabei zu helfen, die Produktqualität zu steigern, Technologierisiken zu minimieren und die Werte einer digitalen Transformation umzusetzen. Vor seiner Tätigkeit bei AWS hatte Amine leitende Technologiepositionen bei Sentient Science und General Electric inne und promovierte in Informatik an der Virginia Tech.
	Nigel Harris Nigel Harris ist Enterprise Solutions Architect bei Amazon Web Services und unterstützt Unternehmenskunden dabei, ihre AWS-Architekturen optimal zu gestalten. Um maßgeschneiderte und effiziente Cloud-Lösungen auf AWS zu entwickeln, erstellet er auch Leitlinien und technische Beratung.

AWS Germany – Amazon Web Services in Deutschland

IT-Resilienz in der AWS Cloud: Denkweise und Unternehmenskultur

Herausforderungen für Kunden

Überlegungen für den Einstieg

1. Verständnis von Resilienz in der Cloud

2. Praktizieren und Automatisieren von Resilienzstrategien

3. Denken Sie groß. Starten Sie klein.

Fazit

Über die Autoren:

Lernen

Ressourcen

Entwickler

Hilfe