- Amazon Builders' Library›
- ผู้เขียน
David Yanacek วิศวกรหลักอาวุโส
David Yanacek เป็นวิศวกรหลักอาวุโสทำงานกับบริการเช่น CloudWatch ในองค์กร Amazon Monitoring & Observability ใน AWS David เป็นนักพัฒนาซอฟต์แวร์ที่ Amazon มาตั้งแต่ปี 2006 โดยก่อนหน้านี้เขาทำงานเกี่ยวกับ Amazon DynamoDB, AWS Lambda และ AWS IoT เขายังเคยทำงานเกี่ยวกับเฟรมเวิร์กการบริการเว็บภายในและระบบการทำงานอัตโนมัติของกลุ่มอินสแตนซ์อีกด้วย กิจกรรมการทำงานอย่างหนึ่งที่ David โปรดปรานคือการวิเคราะห์ข้อมูลบันทึกและตรวจสอบตัวชี้วัดการปฏิบัติการอย่างใกล้ชิดเพื่อหาวิธีที่จะทำให้ระบบทำงานได้ราบรื่นยิ่งๆ ขึ้นไป
เขียนโดย David
แนวทางของ Amazon ในการตรวจสอบบริการการผลิต
เซสชันนี้ครอบคลุมสเปกตรัมการติดตามตรวจสอบทั้งหมดที่ Amazon ตั้งแต่วิธีที่ทีมประเมินสถานะการทำงานของระบบในระดับสูงไปจนถึงวิธีซูมเข้าเพื่อทำความเข้าใจรายละเอียดของคำขอเดียว นอกจากนี้ เรียนรู้วิธีที่ Amazon คิดเกี่ยวกับเปอร์เซ็นไทล มิติของตัววัด แดชบอร์ด การวิเคราะห์ข้อมูลบันทึก และการติดตามแบบกระจาย
ความเป็นเลิศในการดำเนินงานที่ Amazon
ในเซสชันนี้ เรียนรู้เกี่ยวกับแนวทางปฏิบัติการของ Amazon นิสัยที่ทีมได้นำมาใช้ เช่น การจัดการย้อนหลัง การแบ่งปันความรู้ และการทบทวนเมตริกการดำเนินงานเป็นประจำ ทำให้ทีมมีนวัตกรรมเพื่อสร้างเครื่องมือที่ดีขึ้นและเปลี่ยนแปลงทางสถาปัตยกรรม
สร้างสถาปัตยกรรมและการดำเนินงานระบบไร้เซิร์ฟเวอร์ที่มีความยืดหยุ่นในระดับสเกล
ในวิดีโอนี้ เราจะกล่าวถึงสิ่งที่AWS ทำเพื่อสร้างบริการที่เชื่อถือได้และยืดหยุ่น รวมถึงการหลีกเลี่ยงโหมดและการโอเวอร์โหลด ทำงานแบบมีขอบเขต การควบคุมปริมาณหลายชั้น การปกป้องความพร้อมกัน ส่งคำขอที่ไม่สามารถใช้แรงกดดันและความยุติธรรมในการเข้าคิว และการดำเนินการแบ่งกลุ่มย่อยส่วนข้อมูล
การดำเนินการตรวจสอบสุขภาพ
การตรวจจับและการลดความล้มเหลวของเซิร์ฟเวอร์โดยอัตโนมัติ โดยไม่เกิดผลกระทบที่ไม่คาดคิดจากผลการทดสอบที่ผิดพลาดอย่างรวดเร็ว
เครื่องมือจัดระบบกระจายเพื่อการมองเห็นการดำเนินงาน
เพิ่มการมองเห็นการทำงานของระบบการผลิต และแก้ไขปัญหาความล้มเหลวด้วยการใช้เครื่องมือซอฟต์แวร์
ใช้การหลุดโหลดเพื่อหลีกเลี่ยงการโอเวอร์โหลด
กลยุทธ์ในการรักษาประสิทธิภาพที่สม่ำเสมอและสามารถคาดการณ์ได้เมื่อเผชิญหน้ากับการโอเวอร์โหลด
การใช้การแยกการพึ่งพาเพื่อป้องกันการโอเวอร์โหลดพร้อมกัน
มีผลกระทบที่เกิดจากการพึ่งพาที่ล้มเหลวที่จะส่งผลกระทบเฉพาะฟังก์ชันที่เกี่ยวข้องในแอปพลิเคชัน
ความยุติธรรมในระบบผู้เช่าหลายคน
สร้างความยุติธรรมให้กับระบบหลายผู้เช่าเพื่อมอบประสิทธิภาพและความพร้อมใช้งานที่คาดเดาได้
หลีกเลี่ยงการล้มเหลวของคิวที่เหนือกว่า
รีบระบายเวิร์กโหลดสำคัญจากคิวงานค้างก่อน และหลีกเลี่ยงงานค้างแต่เนิ่นๆ