David Yanacek, Senior Principal Engineer
David Yanacek ist Senior Principal Engineer und arbeitet an Services wie CloudWatch in der Amazon-Monitoring- & Observability-Organisation bei AWS. David ist seit 2006 Softwareentwickler bei Amazon und arbeitete zuvor an Amazon DynamoDB, AWS Lambda und AWS IoT. Er hat auch an internen Webservice-Frameworks und Automatisierungssystemen für den Flottenbetrieb gearbeitet. Eine von Davids Lieblingsaktivitäten bei der Arbeit ist die Durchführung von Protokollanalysen und das Durchsuchen von Betriebsmetriken, um Wege zu finden, wie Systeme im Laufe der Zeit immer reibungsloser funktionieren.
Autor: David
Amazons Ansatz zur Überwachung von Produktionsdienstleistungen
In dieser Sitzung wird das gesamte Spektrum der Überwachung bei Amazon behandelt, angefangen von der Bewertung des Systemzustands durch Teams auf einer hohen Ebene bis hin zu der Art und Weise, wie sie heranzoomen, um die Details einer einzelnen Anfrage zu verstehen. Erfahren Sie auch, wie Amazon über Perzentile, die Dimensionalität von Metriken, Dashboards, Protokollanalysen und verteilte Rückverfolgung denkt.
Operative Exzellenz bei Amazon
In dieser Sitzung erfahren Sie mehr über die Betriebspraktiken von Amazon. Wie die von den Teams übernommenen Gewohnheiten wie der Umgang mit Rückblicken, der Wissensaustausch und die regelmäßige Überprüfung betrieblicher Kennzahlen die Teams zu Innovationen veranlassten, um bessere Tools zu entwickeln und architektonische Veränderungen vorzunehmen.
Architektur und Betrieb robuster serverloser Systeme in großem Maßstab
In diesem Video behandeln wir, was AWS tut, um zuverlässige und belastbare Services zu entwickeln. Dazu gehören die Vermeidung von Modi und Überlastung, die Ausführung begrenzter Aufgaben, die Drosselung auf mehreren Ebenen, der Schutz vor Parallelität, das Senden idempotenter Anfragen, die Anwendung von Gegendruck und Fairness in Warteschlangen und die Durchführung von Shuffle-Sharding.
Durchführung von Gesundheitschecks
Automatische Erkennung und Eingrenzung von Serverfehlern ohne unerwünschte Konsequenzen durch flottenweite falsche Positivmeldungen.
Instrumentierung verteilter Systeme für betriebliche Transparenz
Einblick in die Betriebsabläufe von Produktionssystemen und softwarebasierte Fehlerbehebung
Einsatz von Lastabwurf zur Vermeidung von Überlastung
Strategien zur Aufrechterhaltung vorhersagbarer, konstanter Performance bei Überlastzuständen
Verwendung der Abhängigkeitsisolierung zur Eindämmung der Parallelitätsüberlastung
Begrenzung der Auswirkungen, die durch eine fehlgeschlagene Abhängigkeit verursacht werden, sodass nur die relevanten Funktionen in einer Anwendung betroffen sind.
Fairness in Systemen mit mehreren Mandanten
Integration von Fairness in mehrinstanzenfähige Systeme, um eine vorhersehbare Leistung und Verfügbarkeit zu gewährleisten.
Vermeidung unüberwindbarer Warteschlangenstaus
Nehmen Sie wichtige Workloads schnell aus aufgestauten Warteschlangen und vermeiden Sie Rückstände.