David Yanacek, Senior Principal Engineer
David Yanacek adalah Senior Principal Engineer yang mengerjakan layanan seperti CloudWatch di organisasi Pemantauan & Pengamatan Amazon di AWS. David telah menjadi developer perangkat lunak di Amazon sejak 2006 dan pernah mengerjakan Amazon DynamoDB, AWS Lambda, dan AWS IoT. Dia juga mengerjakan kerangka kerja layanan web internal dan sistem otomatisasi operasi armada. Salah satu kegiatan favorit David di kantor adalah melakukan analisis log dan menelusuri metrik operasional guna menemukan cara untuk membuat sistem berjalan makin lancar dari waktu ke waktu.
Ditulis oleh David
Pendekatan Amazon untuk pemantauan layanan produksi
Sesi ini membahas keseluruhan spektrum pemantauan di Amazon, mulai dari cara tim menilai kondisi sistem secara menyeluruh hingga cara mereka menelusuri detail pada satu permintaan secara spesifik. Sesi ini juga mempelajari cara Amazon mempertimbangkan tentang persentil, dimensi metrik, dasbor, analisis log, dan pelacakan terdistribusi.
Keunggulan Operasional di Amazon
Dalam sesi ini, pelajari tentang praktik operasional Amazon. Bagaimana kebiasaan yang diadopsi tim, seperti menangani retrospektif, berbagi pengetahuan, dan meninjau metrik operasional secara teratur, mengarahkan tim untuk berinovasi untuk membangun alat yang lebih baik dan membuat perubahan arsitektur.
Merancang dan mengoperasikan sistem tanpa server yang tangguh dalam skala besar
Dalam video ini, kami membahas hal yang dilakukan AWS untuk membangun layanan yang andal dan tangguh, termasuk menghindari mode berbahaya dan kelebihan beban, melakukan pekerjaan terbatas, throttling di beberapa lapisan, menjaga konkurensi, mengirim permintaan idempotent, menerapkan tekanan balik dan keadilan dalam antrean, dan melakukan shuffle sharding.
Menerapkan pemeriksaan kesehatan
Otomatis mendeteksi dan memitigasi kegagalan server tanpa konsekuensi tak diinginkan dari positif palsu di seluruh armada.
Instrumentasi sistem terdistribusi untuk visibilitas operasional
Memperoleh visibilitas pengoperasian ke dalam sistem produksi, dan mengatasi kegagalan dengan instrumentasi perangkat lunak.
Menggunakan pelepasan beban untuk menghindari kelebihan beban
Strategi menjaga kinerja yang konsisten dan terprediksi saat terjadi kelebihan muatan.
Menggunakan isolasi ketergantungan untuk menahan kelebihan konkurensi
Mengandung dampak yang disebabkan oleh ketergantungan yang gagal untuk hanya memengaruhi fungsionalitas yang relevan dalam aplikasi.
Keadilan dalam sistem multi-tenant
Membangun keadilan ke dalam sistem multitenant untuk memberikan kinerja dan ketersediaan yang dapat diprediksi.
Menghindari backlog antrian yang tidak dapat diatasi
Memprioritaskan penyaluran beban kerja penting dari backlog antrean dengan cepat, dan menghindari backlog sejak awal.