AWS Thai Blog

บทสรุปจากงาน re:Invent 2022 ในหัวข้อ Infrastructure

งาน AWS re:Invent งานสัมมนาที่ยิ่งใหญ่ที่สุดของ AWS ในแต่ละปีก็จะมีประกาศ service และ feature ใหม่มากมาย ซึ่งเป็นโอกาสอันที่คุณจะเข้าร่วมเพื่อเรียนรู้จาก technical session มากกว่า 2,000 session, พบปะ cloud computing community จากทั่วโลก, expo แสดง product และ service ต่างจาก AWS partners และอื่นๆอีกมากมาย เรียกได้ว่าเป็นงานใหญ่ที่หลายๆคนรอคอยกันเลยทีเดียว

งาน re:Invent 2023 กำลังจะเริ่มต้นขึ้นในอีกไม่กี่วันข้างหน้านี้แล้ว เพื่อเตรียมตัวสำหรับประกาศใหม่ๆในงานนั้น บทความนี้จะรวบรวม service และ feature เด่นๆ ที่เราได้ประกาศในงาน re:Invent 2022 และ ประกาศอื่นๆตลอดทั้งปี 2023 ในหมวด infrastructure กันค่ะ

AWS Global Infrastructure

เมื่อพูดถึงเรื่อง infrastructure เราจะไม่พูดถึง Global Infrastructure ก็คงไม่ได้ ในช่วงปีที่ผ่านมาได้มีการประกาศการลงทุนเพื่อขยาย infrastructure ของเราเพื่อให้รองรับตามความต้องการของลูกค้าที่เพิ่มสูงขึ้นทั่วโลก ซึ่งในปัจจุบันนั้น AWS ได้มี Region ที่พร้อมให้บริการทั้งหมด 32 Region ซึ่งประกอบไปด้วย 102 Availability Zone ทั่วทั้งโลก และได้ประกาศแผนในการขยายตัวเพิ่มเติมอีก 15 Availability Zone ใน 5 ประเทศ ได้แก่ แคนาดา, เยอรมนี, มาเลเซีย, นิวซีแลนด์ และรวมถึงประเทศไทยอีกด้วยค่ะ

AWS Global Infrastructure Map as of 12 Nov 2023

รูปที่ 1: AWS Global Infrastructure Map as of 12 Nov 2023

นอกเหนือจาก AWS Region แล้วนั้น สำหรับลูกค้าที่ต้องการตอบโจทย์ในเรื่อง low latency หรือ data residency คุณสามารถเลือกใช้งาน AWS Local Zone ซึ่งเป็น infrastructure ที่ต่อขยายจาก AWS Region เพื่อให้เลือกใช้งานสำหรับ application ที่ต้องการ latency ต่ำมากๆ หรือมีข้อจำกัดเรื่องพื้นที่ในการประมวลผลข้อมูลเป็นต้น ปัจจุบัน AWS Local Zone มีพร้อมให้บริการแล้ว 35 Local Zone ทั่วทั้งโลก ซึ่งหนึ่งในนั้นคือ Bangkok Local Zone ซึ่งตั้งอยู่ในประเทศไทยอีกด้วยค่ะ หากท่านใดสนใจเกี่ยวกับ AWS Bangkok Local Zone สามารถศึกษาเพิ่มเติมได้จากบทความ AWS Local Zone ในกรุงเทพมหานคร พร้อมให้บริการแล้ว

ถึงแม้ว่า AWS จะมีการขยายตัวเรื่อง infrastructure เป็นอย่างมาก แต่เราเองก็ยังคำนึงถึงเรื่องของความยั่งยืนและสภาวะการเปลี่ยนแปลงของโลกใบนี้ด้วย ซึ่งเราการดำเนินการอย่างต่อเนื่องเพื่อให้สามารถทำตาม commitment ที่เคยให้ไว้ นั่นคือ เราจะเป็นบริษัท net-zero carbon ภายในปี 2040 ซึ่งเร็วกว่าข้อตกลงใน Paris agreement ถึง 10 ปี และเราจะเปลี่ยนมาใช้ renewable energy 100% ภายในปี 2025 และภายในงาน re:Invent 2022 นั้น Adam Selipsky, ประธานกรรมการบริหาร หรือ CEO ของ AWS ได้ประกาศเป้าหมายใหม่ในการทำ water positive ภายในปี 2030 ซึ่งอย่างที่ทราบกันดีกว่า น้ำเป็นหนึ่งในปัจจัยหลักที่ใช้ในกระบวนการบริหารจัดการ Data Center การตั้งเป้า water positive ก็คือการที่เราจะบริหารจัดการให้น้ำที่ปล่อยกลับคืนสู่ธรรมชาติเป็นน้ำดี มากกว่าน้ำเสียนั่นเองค่ะ ซึ่งทุกท่านสามารถติดตามผลการดำเนินงานด้านความยั่งยืนของทั้งเครือ Amazon ได้จาก link นี้ค่ะ

Infrastructure Improvement

AWS Nitro System คือ platform เบื้องหลังของ Amazon Elastic Compute Cloud (Amazon EC2) instance ทั้งหมดที่ AWS พัฒนาขึ้นมาเพื่อให้เราสามารถสร้างสรรค์เทคโนโลยีใหม่ๆ ได้รวดเร็วยิ่งขึ้น ลดค่าใช้จ่ายสำหรับลูกค้า และเพิ่มประโยชน์ให้กับลูกค้าทั้งในมุม security, network และ storage ซึ่งปัจจัยสำคัญที่ทำให้ Nitro System นั้นตอบโจทย์ดังกล่าวได้ก็คือ purpose-built Nitro Cards, Nitro Security Chip, และ Nitro Hypervisor เพื่อ offload virtual function เพิ่มๆที่ใช้งานอยู่บน hypervisor level ให้มาทำงานในระดับ physical hardware ซึ่งก็จะช่วยเพิ่ม performance, security และยังลดค่าใช้จ่ายให้กับลูกค้าอีกด้วย

AWS Nitro Enclaves Enhancements

นึกภาพว่าถ้าเราต้องการประมวลผล sensitive data เช่น ชื่อ-นามสกุล, บัตรประชาชน, หรือข้อมูลส่วนบุคคลอื่นๆของลูกค้าของเรา บนเครื่องตรงๆ แล้วสมมติว่าเครื่องของเราเกิดโดยโจมตี sensitive data เหล่านั้นก็จะมีผลกระทบไปด้วย ในกรณีนี้ AWS Nitro Enclave จะมาช่วยเพิ่มความปลอดภัยในกับเราได้ กล่าวคือแทนที่เราจะประมวลผลข้อมูลดังกล่าวบนเครื่องตรงๆ ก็สามารถใช้ Nitro Enclave สร้าง isolate compute environment แยกออกมา เพื่อเพิ่มความปลอดภัยในกับข้อมูลของเรา

ซึ่งในปัจจุบัน Nitro Enclave support แล้วใน EC2 instance ทั้ง Graviton, Intel และ AMD รวมถึงคุณสามารถใช้งาน Nitro Enclave บน Kubernetes pod ที่รันอยู่บน
Amazon Elastic Kubernetes Service (EKS) managed cluster ได้อีกด้วย

Torn Write Prevention (TWP)

สำหรับในมุมมองของ storage เดิมทีเวลา database เขียนข้อมูลลงในดิสก์แล้วยังเขียนไม่เสร็จ หากเกิด incident ทำให้ส่วนประมวลผลไม่สามารถเขียนข้อมูลต่อได้ ซึ่งจะส่งผลให้ข้อมูลสูญหายได้ ซึ่งใน database opensource เช่น MariaDB และ MySQL นั้นจะมีวิธีการป้องกันข้อมูลสูญหายคือ double write buffer ซึ่งก็คือการเขียนข้อมูลลงใน log data ก่อนที่จะเขียนใน table data เมื่อเกิด incident ขึ้น database ก็สามารถไปดึงข้อมูลมาจากตัว Doublewrite Buffer ได้ แต่วิธีการดังกล่าวนี้จะต้องมีการเขียนข้อมูลถึงสองครั้ง ซึ่งจะส่งผลกับ performance ของ write operation ได้
Torn Write Prevention (TWP) เป็นฟีเจอร์ที่จะช่วยลูกค้าในระดับ infrastructure โดยจะลดความจำเป็นของ Doublewrite operation ทำให้จำนวน transection ที่ถูกประมวลผลต่อหนึ่งวินาทีนั้นเพิ่มขึ้นสูงสุดถึง 30% และลด write operation ได้สูงสุดถึง 50% เมื่อเทียบกับการใช้งาน Doublewrite Buffer ทั่วไป โดย instance type ที่รองรับได้แก่ตระกูล I4i สำหรับ instance store volume หรือ Amazon Elastic Block Store (Amazon EBS) ที่ถูก attach อยู่กับ nitro-based instance ซึ่งก็เป็นประโยชน์สำหรับ database ที่มีการใช้งาน write operation สูงๆ สำหรับใน Amazon Relational Database Service (RDS) MySQL และ MariaDB นั้นก็ยังมีฟีเจอร์ Amazon RDS Optimized Writes ที่ใช้งาน TWP เพื่อช่วยในการเพิ่ม throughput ของ write transaction ได้สูงสุดถึง 2 เท่า โดยที่ไม่มีค่าใช้จ่ายเพิ่มเติม โดยฟีเจอร์ดังกล่าวพร้อมให้บริการแล้วใน Region และ Instance type ที่กำหนดค่ะ

Scalable Reliable Datagram (SRD)

สำหรับในมุมมองของ network นั้น TCP ถือได้ว่าเป็น protocol ที่เราใช้งานกันอย่างแพร่หลาย แต่ปัญหาของ TCP ที่เรามักจะเจอก็คือ เวลาส่ง packet ในหนึ่ง TCP connection นั้น แต่ละ packet จะวิ่งผ่านเส้นทางเดิมเท่านั้น ซึ่งเมื่อเส้นทางในวิ่งเกิดคอขวด เราก็จะพบกับปัญหา TCP congestion หรือมี packet drop ซึ่งนอกจากเรื่อง TCP congestion แล้ว TCP ของก็ยังมีข้อจำกัดเรื่องของ bandwidth per flow อีกด้วย

ซึ่งด้วย Nitro System ของ AWS เราได้พัฒนา Scalable Reliable Datagram (SRD) routing ขึ้นมา ทำให้เวลาส่ง packet นั้น ไม่จำเป็นต้องวิ่งเส้นทางเดิมอีกต่อไป ทำให้เพิ่ม reliability ในการส่งข้อมูลของเรา ลดปัญหาเรื่องคอขวด และ ทำให้ maximum bandwidth per flow เพิ่มขึ้น อีกทั้ง SRD routing นั้นรองรับในระดับ infrastructure ซึ่งลูกค้าสามารถใช้ประโยชน์ของ SRD ได้โดยไม่จำเป็นต้องแก้ไข application แต่อย่างใด ซึ่ง SRD routing นี้จะถูกใช้ใน Elastic Fabric Adapter (EFA) และ Elastic Network Adapter (ENA) Express ซึ่งเป็นฟีเจอร์ใหม่ที่ช่วยเพิ่ม maximum flow bandwidth ต่อ 1 flow จาก 5 Gbps เป็นสูงสุด 25 Gbps และช่วยปรับปรุง P99.9 latency ใน workload ที่มี throughput สูงได้สูงสุดถึง 85% โดยฟีเจอร์ดังกล่าวพร้อมให้บริการแล้วใน Instance type ที่กำหนดค่ะ

New Amazon EC2 instance type

การปรับปรุง workload ของเราให้มี performance ที่ดีนั้น ทางเลือกหนึ่งที่ทุกท่านสามารถทำได้คือการเลือกใช้งาน compute หรือส่วนประมวลผลให้เหมาะกับ workload ของเรา ซึ่งสำหรับ Amazon EC2 เองนั้น AWS ก็มี instance type ให้ทุกท่านได้เลือกใช้งานมากกว่า 600 instance type ด้วยกัน ซึ่งในแต่ละปีก็จะมี instance type ใหม่ๆ ที่รันอยู่บนเทคโนโลยีใหม่ ช่วยเพิ่ม performance ให้กับ workload ของเราให้ดียิ่งขึ้น
สำหรับในรอบปีที่ผ่านมานั้น AWS ได้เปิดตัว instance type ใหม่ๆมากมาย ทั้ง Intel, AMD และ Graviton-based instance

Intel-based Instances

เริ่มต้นกันที่กลุ่มของ Intel ซึ่งเป็น processor ที่มีความร่วมมือกันมามากกว่า 16ปี และเราก็ยังคงพัฒนาร่วมกันอย่างต่อเนื่อง โดยในปีที่ผ่านมาได้มีการเปิดตัว M6in, M6idn, R6in, และ R6in ซึ่งเป็น Amazon EC2 network optimized instance รุ่นที่ 6 ขับเคลื่อนด้วย Intel Xeon Scalable processor รุ่นที่ 3 ซึ่งมาพร้อมกับ all-core turbo frequency สูงสุดถึง 3.5GHz โดย instance type ดังกล่าวถือได้ว่าเป็นกลุ่ม general purpose และ memory-optimized instance รุ่นแรกที่สามารถใช้งาน network bandwidth ได้สูงสุดถึง 200Gbps ซึ่งถือได้ว่าเพิ่ม network bandwidth และ packet-processing performance ได้สูงสุดถึง 2 เท่าเมื่อเทียบกับรุ่นก่อนหน้า และนอกจากนี้ยังรองรับ Amazon EBS bandwidth ได้สูงสุดถึง 80Gbps โดย instance type ดังกล่าวก็เหมาะกับ workload ที่ต้องการใช้งาน network สูงๆเช่น network virtual appliance, in-memory database, high-performance filesystem หรือ real time bigdata analytics เป็นต้น

AMD-based Instances

สำหรับตระกูล AMD ก็มี instance type ใหม่เพิ่มเติมเข้ามา เช่น C6a และ M6a ที่ขับเคลื่อนด้วย AMD EPYC processor รุ่นที่ 3 ซึ่งทำให้มี price performance ที่ดีขึ้นสูงสุด 35% ใน M6a เมื่อเทียบกับในรุ่นก่อนหน้า และใน C6a ก็มี price performance ที่ดีขึ้นสูงสุด 15% เมื่อเทียบกับ C5a อีกด้วย และเมื่อเดือนกันยายน ก็ยังมีการประกาศเพิ่มเติม เปิดตัวการให้บริการ Amazon EC2 R7a instance ที่ขับเคลื่อนด้วย AMD EPYC processor รุ่นที่ 4 ที่มี frequency สูงสุดถึง 3.7GHz ทำให้มี performance ที่สูงขึ้นสูงสุด 50% เมื่อเทียบกับ R6a ซึ่งนับได้ว่า AMD-based instance ก็ยังคงเป็นทางเลือกที่ดีสำหรับ x86 workload ในราคาที่ถูกลง

AWS Graviton-based Instances

และขาดไม่ได้สำหรับ Graviton ซึ่งเป็น ARM-based processor ที่ AWS พัฒนาขึ้น ซึ่งได้เปิดตัว instance type ใหม่ที่ขับเคลื่อนด้วย AWS Graviton 3E processor ได้แต่ C7gn ที่รองรับ network bandwidth สูงสุด 200 Gbps และ Hpc7g ที่เพิ่ม performance สำหรับการประมวลผล vector instruction สูงสุดถึง 35% เมื่อเทียบกับ Graviton3 ซึ่งเป็นตัวเลือกที่ดีสำหรับงานที่ต้องการการประมวลผลสูงมากๆ เช่น workload ประเภท tightly coupled compute-intensive HPC และ distributed computing เป็นต้น

AWS Trainium-based และ AWS Inferentia-based Instances

สำหรับงานในกลุ่ม Machine Learning (ML) ที่จะต้องใช้การประมวลผลสูงๆ เช่นการ train และ inference model นั้น AWS ก็ได้ออกแบบ custom processor chip เพื่อใช้สำหรับงานประเภทนี้โดยเฉพาะ ได้แก่ AWS Trainium และ AWS Inferentia โดย AWS Trainium chips คือ chip ที่ออกแบบมาสำหรับการ train ML ที่ต้องการ performance สูงๆ โดยเฉพาะ ซึ่งใน Trn1 instance นั้นจะส่งมอบการเทรน deep learning (DL) สำหรับ natural language processing (NLP) model ยอดนิยม ได้อย่างมีประสิทธิภาพสูงที่สุด ในขณะนี้มีค่าใช้จ่ายลดลง 50% เมื่อเทียบกับ GPU-based EC2 instance ในรุ่นที่เทียบกันได้ สำหรับงาน DL inference นั้น ก็มี Inf2 ซึ่งขับเคลื่อนโดย AWS Inferentia รุ่นที่ 2 ซึ่งช่วยเพิ่ม compute performance ได้สูงสุด 3 เท่า มี network throughput เพิ่มสูงสุด 4 เท่า และ latency ต่ำลงมากสุด 10 เท่าเมื่อเทียบกับ Inf1

และนี่ก็เป็นส่วนหนึ่งของการเพิ่ม service และ feature ใหม่ๆในหัวข้อ infrastructure ในงาน AWS re:Invent 2022 และ ตลอดทั้งปี 2023 ที่ผ่านมา ซึ่งดิฉันก็หวังว่าทุกท่านจะสามารถนำไปใช้เพื่อพัฒนาประสิทธิภาพของ workload ของท่านได้ดียิ่งขึ้น สำหรับในงาน AWS re:Invent 2023 นั้นจะมีการเปิดตัว service และ feature อะไรใหม่ๆ ทุกท่านลงทะเบียนเพื่อติดตามกันได้ผ่านทางช่องทางนี้ค่ะ แล้วพบกันใหม่ในบทความถัดไปนะคะ