AWS Thai Blog

บทสรุปจากงาน re:Invent 2022 ในหัวข้อ Data Driven Innovations

วันนี้เรามา Recap งาน re:Invent 2022 ในหัวข้อ Data Driven Innovations รวมทั้งอัปเดต status ล่าสุดของแต่ละ service เพื่อเตรียมความพร้อมสำหรับงาน re:Invent 2023 ที่จะจัดขึ้นวันที่ 27 พ.ย – 1 ธ.ค 2023 สามารถดูรายละเอียดเพิ่มเติมได้ที่นี่

งาน re:Invent 2022 ที่ผ่านมา ทาง Amazon Web Services ได้มีการประกาศ Service ใหม่ และ Feature ใหม่ ออกมาเป็นจำนวนมาก ซึ่งมีความน่าสนใจไม่น้อย และ สำหรับบทความนี้ จะเป็นการสรุปถึง Service ใหม่ๆ และความสามารถใหม่ของ Service เดิมที่มีอยู่แล้วในหมวดหมู่ Data Driven Innovations จากงาน re:Invent 2022 ครับ

โดยแบ่งเป็นหัวข้อ Databases และ Analytics ตามนี้

Databases

Analytics

มาดูกันว่าในแต่ละ services หรือ feature ใหม่ๆ สามารถช่วยผู้ใช้งานของ AWS ได้อย่างไรบ้างครับ

1. Amazon DocumentDB Elastic Clusters

Amazon DocumentDB คือ fully-managed Database service ที่รองรับ JSON Document โดยมีฟังก์ชันการทำงาน compatible กับ MongoDB (version 3.6, 4.0, 5.0) ได้มี cluster ประเภทใหม่ที่เรียกว่า Amazon DocumentDB Elastic Clusters สามารถรองรับ Workload ที่ต้องการเป็นหลักล้าน read/write per second และขนาดของ storage เป็นหลัก petabyte ดังนั้นด้วย Elastic Cluster จะช่วยให้ developer สามารถงานที่ต้องเลือก, manage, upgrade instance สามารถเรียนรู้เพิ่มเติมได้ที่นี่, บล็อก

รูปที่ 1: การ Create Amazon DocumentDB Elastic Cluster

Status: General Availability (GA) พร้อมให้บริการใน Region Singapore

2. Amazon RDS Optimized Writes (For MySQL)

Amazon RDS คือ fully-managed Relational Database service หรือ RDBMS ที่มีการ improve เรื่อง performance ในการเขียน transaction ซึ่งคุณสามารถเพิ่ม transaction write throughput ได้มากถึง 2 เท่า ในการทำงานเบื้องหลัง MySQL database จะต้องมีการทำงานที่ต้องเขียนข้อมูลลง doublewrite buffer ซึ่งเป็นพื้นที่จัดเก็บข้อมูล เพื่อป้องกันการเขียน page (หน่วยจัดเก็บข้อมูล) ที่ผิดพลาด เช่น เกิด hardware failure ขณะที่ update page ซึ่ง MySQL Database จะ detect และ recover โดย copy page มาจาก doublewrite buffer โดยวิธีการนี้ แม้ว่าจะสามารถป้องกันข้อมูลจากความผิดพลาด แต่ก็จะมี write operation ที่เพิ่มสูงขึ้น สามารถเรียนรู้เพิ่มเติมเกี่ยวกับ Doublewrite Buffer ได้ที่นี่

Amazon RDS Optimized Writes จะช่วยให้ MySQL database เขียนข้อมูลครั้งเดียวเมื่อ flush data ไปที่ durable storage โดยที่ไม่ต้องเขียนลง doublewrite buffer โดยใช้เทคโนโลยี Torn Write Prevention ใน Nitro system (เทคโนโลยีการจัดการ server และ hypervisor ของ AWS) ทำให้ data 16KiB ที่เกิดจาก write operation จะไม่ถูกเเยกส่วนออกจากกัน ในกรณีที่เกิด failure เช่น operating system crash หรือ power loss ขณะเขียน transaction ซึ่ง database ยังสามารถมี ACID (atomicity, consistency, isolation, และ durability) เพื่อความ reliable ของ transaction รวมทั้ง improve เรื่อง performance สามารถเรียนรู้เพิ่มเติมได้ที่นี่, บล็อก

Status: General Availability (GA) พร้อมให้บริการใน Region Singapore

3. Amazon RDS Optimized Reads (For MySQL)

อีกหนึ่ง Feature ของ Amazon RDS ที่ช่วย improve performance ของงานด้านการอ่านได้เร็วขึ้นถึง 2 เท่า ซึ่งเป็นการใช้ instance store ที่ provide temporary block-level storage อยู่ใน Non-Volatile Memory Express (NVMs) Solid state เพื่อให้ database instance ใช้ storage ที่มี low latency, high random I/O performance และ ช่วยเพิ่ม read throughput สามารถอ่านรายละเอียดเพิ่มเติมได้ที่นี่, บล็อก

Status: General Availability (GA) พร้อมให้บริการใน Region Singapore

4. Trusted Language Extensions for PostgreSQL

PostgreSQL database เป็นที่นิยมในหลายๆองค์กรตั้งแต่ startup ไปจนถึง enterprise เพราะว่ามีความสามารถรองรับ extension หรือส่วนเสริมการทำงาน ให้ database มีความสามารถที่หลากหลายมากยิ่งขึ้น ซึ่งด้วย feature Trusted Language Extension for PostgreSQL สามารถให้นักพัฒนาสร้าง database funcationality ด้วยการสร้าง extension โดย programming language เช่น PL/pgSQL, JavaScript หรือ Perl รวมทั้งยังคำนึงถึง Security ที่ช่วยให้การใช้งาน extension ใหม่ยังคงมีความปลอดภัย สามารถอ่านรายละเอียดเพิ่มเติมได้ที่นี่, บล็อก

Status: General Availability (GA) พร้อมให้บริการใน Region Singapore

5. Amazon GuardDuty for RDS Protection

Amazon GuardDuty เป็น security service ที่ช่วยตรวจจับภัยคุกคาม (Threat Detection) ซึ่งจะนำเอาข้อมูลจาก AWS CloudTrail event logs, AWS CloudTrail management events, VPC Flow Logs, DNS logs มาวิเคราะห์โดยใช้​ Machine Learning เพื่อตรวจสอบความผิดปกติของ Account เช่น เจอการโจมตีแบบ Brute force (เทคนิคการเดา password เพื่อเข้าควบคุม server), Amazon GuardDuty รองรับการป้องกัน Amazon S3, Amazon EKS, Malware Protection, Lambda Protection และตอนนี้ได้เพิ่มความสามารถในการตรวจจับและวิเคราะห์ Amazon Aurora databases (Amazon Aurora MySQL-Compatible Edition and Aurora PostgreSQL-Compatible Edition) login activity เพื่อดูว่ามีความผิดปกติหรือไม่ โดยไม่ต้องมีการเเก้ไข infrastructure และไม่กระทบกับ performance ของ database สามารถอ่านเพิ่มเติมได้ที่นี่, บล็อก

Status: General Availability (GA) พร้อมให้บริการใน Region Singapore

6. Amazon RDS Blue/Green Deployments

ในการทำงานของแอปพลิเคชั่นต่างๆ จำเป็นต้องมี database เพื่อเก็บข้อมูล ดังนั้นเมื่อแอปพลิเคชั่นมีการอัปเดต เปลี่ยนแปลง ก็อาจจะต้องมีการแก้ไข database, parameter, schema change หรือ database engine เองก็มีการอัปเดท version เพื่อเพิ่มความสามารถ เพิ่ม feature ใหม่ๆ ซึ่งทั้งหมดนี้ทำให้การแก้ไข database เป็นสิ่งที่หลีกเลี่ยงไม่ได้

ดังนั้นจะมีวิธีการไหนที่จะช่วยลดความเสี่ยงต่างๆ ในการอัปเดตแก้ไข database เพื่อให้มั่นใจว่าการแก้ไขนั้นจะไม่กระทบกับแอปพลิเคชั่นและผู้ใช้งาน

AWS จึงได้ออก feature Amazon RDS Blue/Green Deployments ที่นำเอา concept ของ DevOps ที่ช่วยให้การ deploy แอปพลิเคชั่นโดยไม่กระทบกับผู้ใช้งาน ซึ่งเรียก concept นี้ว่า Blue/Green Deployment คือ deploy environment ใหม่ที่เรียกว่า Green environment ส่วน Blue environment ที่เป็น environment เดิม หลังจากที่ทดสอบแล้วว่าไม่มีปัญหา ก็จะส่ง traffic การใช้งานของ user มาที่ Green environment และสุดท้ายถ้าไม่จำเป็นต้อง rollback ใดๆแล้ว ก็ลบ Blue environment เดิมได้ การ deployment แบบนี้ก็จะช่วยลดความเสี่ยงลงอย่างมาก และสามารถใช้งานได้กับ resource ต่างๆเช่น การอัปเกรด Amazon EKS cluster แบบ blue-green deployment

ถ้าถามว่า Blue/Green deployment สามารถสร้างขึ้นมาเองได้หรือไม่ คำตอบคือทำได้ แต่ต้องมี manual effort และการจัดการต่างๆ แต่ด้วย feature Amazon RDS Blue/Green Deployment จะช่วยในเรื่องของ Automation ให้ในส่วนนี้ และไม่ต้องมีการแก้ไข database endpoint โดย traffic ก็จะถูก replicate จาก environment เดิม ไป environment ใหม่ได้ด้วย สามารถอ่านเพิ่มเติมได้ที่นี่, บล็อก

Amazon RDS Blue/Green Deployments

รูปที่ 2: Amazon RDS Blue/Green Deployments

7. AWS Database Migration Service Schema Conversion

หลายๆองค์กรต้องการย้าย Commercial Database มาเป็น Open Source Database เพื่อลดค่าใช้จ่ายด้าน License ซึ่งเครื่องมือที่จะเข้ามาช่วยคือ AWS Database Migration Service (AWS DMS) และถ้าต้องการย้าย Database engine ที่แตกต่างกัน จำเป็นต้องมีการ convert schema หรือ โครงสร้างของ objects โดยใช้ AWS Schema Conversion Tool (AWS SCT) ซึ่งเป็นเครื่องมือฟรีที่ติดตั้งในเครื่อง client ที่สามารถ connect ไปยัง Database ต้นทาง และ Database ปลายทาง

AWS ได้มีการพัฒนา AWS SCT ให้รวมเข้าไปในหน้า Console ของ AWS DMS กลายเป็น AWS Database Migration Service Schema Conversion ซึ่งทำให้การ migrate database ทำได้สะดวกมากขึ้น โดยที่ไม่ต้องมีการติดตั้งเครื่องมือไว้ที่เครื่อง client ตอนนี้รองรับ

Source Database: Microsoft SQL Server version 2008 R2 and higher, Oracle version 10.2 and later, 11g and up to 12.2, 18c, and 19c

Target Database: Amazon RDS for MySQL version 8.x, Amazon RDS for PostgreSQL version 14.x

สามารถอ่านเพิ่มเติมได้ที่นี่, บล็อก

Status: General Availability (GA) พร้อมให้บริการใน Region Singapore

8. AWS Glue Data Quality

Data Quality หรือการทำให้ข้อมูลมีคุณภาพ ถูกต้อง พร้อมนำไปใช้งาน เป็นสิ่งที่สำคัญมากในการทำ Data Pipeline ซึ่ง AWS Glue เป็น Serverless ELT service ที่ช่วยในการทำ Data integration เช่น Extract, Transform, Load รวมทั้งยังทำหน้าที่ Technical Data Catalog และฟีเจอร์ใหม่คือ AWS Glue Data Quality ที่จะช่วยให้สามารถสร้าง Data Quality rule ได้อย่างสะดวก รวดเร็ว สามารถใช้ภาษา Data Quality Definition Language (DQDL) ที่ AWS Glue นำเอา open-source DeeQu framework มาใช้ โดยที่ AWS จะมี Automate recommendation rule ให้เลือกตามลักษณะของ Data เพื่อให้สามารถนำไปประยุกต์ใช้ได้อย่างหลากหลาย

AWS Glue Data Quality รองรับ การทำ data quality เป็นแบบ at rest คือที่ตัว Table และ in-transit สามารถทำใน Data Pipeline สามารถอ่านเพิ่มเติมได้ที่นี่, บล็อก

Status: General Availability (GA) พร้อมให้บริการใน Region Singapore

9. AWS Glue 4.0

AWS Glue มีการพัฒนาอยู่อย่างต่อเนื่อง มีการพัฒนา Engine ให้รองรับ Apache Spark, Scala, Python version ใหม่ๆ โดย Glue 4.0 จะรองรับ Spark 3.3, Scala 2, Python 3 รวมทั้งมีการทำ optimization ของ AWS Glue Spark runtime ให้มี Performance ที่ดีขึ้น มีการ upgrade JDBC driver, รองรับ Transactional Data Lake format เพื่อให้สามารถทำ Transaction (Insert, Update, Delete) กับ Data Lake ได้ เช่น Apache Hudi, Apache Iceberg, Delta Lake และ Ray framework ที่ช่วยให้การ scale workload ของ Python ทำได้ดีขึ้น อ่านเพิ่มเติมได้ที่นี่, บล็อก

Status: General Availability (GA) พร้อมให้บริการใน Region Singapore

10. Amazon Redshift Streaming Ingestion

ปัจจุบัน streaming data เป็นจิ๊กซอว์สำคัญในการทำให้ data analytics ของแต่ละองค์กรมีความสมบูรณ์มากขึ้น ซึ่งการจะได้ streaming data มาประกอบการวิเคราะห์ หลายๆครั้งมีการใช้เวลาในการทำ ETL AWS จึงได้มีแนวคิดการทำ Zero-ETL นั่นก็คือลดงานทางด้าน ETL ลง

Amazon Redshift ซึ่งเป็น Cloud Data Warehouse service มีบทบาทสำคัญใน Modern Data Architecture ที่ทำงานร่วมกับ Data Lake (Amazon S3) ดังนั้น AWS จึงได้ออกฟีเจอร์ Amazon Redshift Streaming Ingestion เพื่อให้สามารถ ingest streaming data เข้ามาที่ Amazon Redshift ได้โดยตรง จาก streaming data service จาก Amazon Kinesis Data Streams และ Amazon Managed Streaming for Apache Kafka (MSK) และรองรับ semi-structured data ด้วย data type: SUPER อ่านเพิ่มเติมได้ที่นี่,​ บล็อก

Status: General Availability (GA) พร้อมให้บริการใน Region Singapore

11. Amazon Aurora Zero-ETL to Amazon Redshift

ต่อยอดแนวคิดกา รทำ Zero-ETL ในกรณีที่องค์กรมีการใช้ Amazon Aurora ซึ่งเป็น Relational database เน้นเรื่องการทำ Online Transaction Processing (OLTP) ดังนั้นถ้าแต่ละแอปพลิเคชันมีการใช้งาน Amazon Aurora อยู่แล้วต้อง การที่จะ replicate data มารวมศูนย์ที่ Amazon Redshift เพื่อทำ analytics ต่อไป

Status: Limited Preview for Amazon Aurora MySQL 3 with MySQL 8.0 compatibility ใน Region N. Virginia

12. Amazon AppFlow new connectors

Amazon AppFlow คือ service ที่สามารถเชื่อมต่อกับ SaaS หรือ third-party แอปพลิเคชันต่างๆ เพื่อ integrate data เหล่านั้นมาที่ AWS เพื่อทำการวิเคราะห์ข้อมูลต่อไป Amazon AppFlow มี Connector มากมาย ทั้งในกลุ่ม Marketing เช่น Facebook Ads, Google Ads เป็นต้น, กลุ่ม Customer Service และ Engagement เช่น Zendexk Sell/Chat, Mailchimp นอกจากนี้ยังสามารถ connect ไปที่ SAP system, Amazon RDS, GitHub และอื่นๆ

Status: Amazon AppFlow สามารถใช้งานได้ที่ Region Singapore แล้ว และมีการเพิ่ม connector ใหม่ๆ เช่น Facebook Ads, Google Ads สามารถดู list ของ connector ได้ที่นี่

13. Amazon Redshift new features

Amazon Redshift เป็น Cloud Native Data Warehouse service ของ AWS ซึ่งมีการพัฒนาในด้านต่างๆ ทั้งเรื่อง Performance, การ Operate ซึ่งในงาน re:Invent ที่ผ่านมา AWS ได้มี feature ใหม่ๆที่น่าสนใจดังนี้

13.1 Support Multi-AZ

Amazon Redshift รองรับการทำงานแบบ Multi-AZ ซึ่งช่วยให้การทำ HA ง่ายขึ้น และยังเพิ่ม reliability ให้สามารถรับมือกับ failure ต่างๆได้ การเลือก deployment เป็นแบบ Multi-AZ จะต้องมี 2 node ต่อ AZ, สามารถเรียนรู้เพิ่มเติมได้ที่นี่

Status: General Availability (GA) พร้อมให้บริการใน Region Singapore

13.2 Auto-Copy

Amazon Redshift รองรับการใช้ command COPY JOB เพื่อ load data เข้าไปใo Amazon Redshift table จาก files ที่เก็บอยู่ใน Amazon S3 โดย Amazon Redshift จะ detect file ใหม่ใน Amazon S3 และจะ copy data เข้า table อย่างอัตโนมัติ โดยไม่จำเป็นต้องสร้าง external data ingestion pipeline, Amazon Redshift ยังมีการเก็บ tracking เวลามีไฟล์ load, สามารถเรียนรู้เพิ่มเติมได้ที่นี่

Status: Preview mode ใน 6 Region US East (Ohio) Region (us-east-2), US East (N. Virginia) Region (us-east-1), US West (Oregon) Region (us-west-2), Asia Pacific (Tokyo) Region (ap-northeast-1), Europe (Stockholm) Region (eu-north-1), Europe (Ireland) Region (eu-west-1)

13.3 Dynamic Data Masking

Amazon Redshift รองรับการทำ Data Masking โดยไม่เปลี่ยนเนื้อ data จริงๆ ซึ่ง data masking นี้จะเปลี่ยนไปตามสิทธิ์ของ User ที่เข้าใช้งาน table, สามารถเรียนรู้เพิ่มเติมได้ที่นี่

Status: General Availability (GA) พร้อมให้บริการใน Region Singapore

13.4 Integration for Apache Spark

Amazon Redshift รองรับการ Integrate กับ Apache Spark ซึ่งเป็น open-source ที่ได้รับความนิยมในการทำ data analytics, data processing โดย Apache Spark ให้ทั้งความเร็วในการทำงานกับ large-scale data, สามารถเรียนรู้เพิ่มเติมได้ที่นี่

Status: General Availability (GA) พร้อมให้บริการใน Region Singapore

14. AWS Lake Formation new feature Enhanced Integration

AWS Lake Formation เป็น service สำหรับทำ Data Governance สามารถให้สิทธิ์การเข้าถึง ให้กับคนที่อนุญาต, AWS มีการพัฒนาให้ Lake Formation ให้มี feature ต่างๆเพิ่มขึ้นเพื่อเป็นประโยชน์กับผู้ใช้งาน

14.1 Enhanced Integration

AWS Lake Formation ได้มีการ Integrate กับ Analytics บน AWS ดังนี้

15. Amazon DataZone

ในการทำงานเกี่ยวกับ Data หลายๆองค์กร ผู้ใช้งานจะเกิดคำถามว่าจะหา data จากที่ไหน หรือ ต้องการ request access แต่ก็ใช้เวลานาน ดังนั้นด้วย common pain point เหล่านี้ AWS จึงออก Amazon DataZone เพื่อให้บริการ Unified Data Maketplace เพื่อให้ Producer (ผู้ให้บริการข้อมูล) สามารถ publish data เข้ามาที่ Amazon DataZone และ Consumer (ผู้ใช้ข้อมูล) สามารถ request ขอ access data ได้เพื่อให้ก่อให้เกิด event driven organization สามารถเข้าถึงข้อมูลได้อย่างถูกต้อง

Amazon DataZone มีความสามารถเป็น portal เพื่อให้ Data Publisher และ Data Consumer สามารถเข้ามาค้นหา data ด้วย Business Data Catalog เช่น business term ต่างๆ และนำ data ไปใช้ทำ project สามารถอ่านรายละเอียดเพิ่มเติมได้ที่นี่

Status: General Availability (GA) พร้อมให้บริการใน Region Singapore

16. AWS Clean Rooms

ในการทำ data analytics หลายๆองค์กรต้องการที่แชร์ data เพื่อทำงานร่วมกันกับ partner, บริษัทในเครือ หรือองค์กรอื่นๆ การที่เเชร์ data อย่างปลอดภัย โดยที่ไม่ต้องมีการ move data ระหว่างกัน ดังนั้น AWS Clean Rooms จะเข้ามาช่วยตรงส่วนนี้เพื่อเป็นพื้นที่สำหรับแชร์ data ได้อย่างปลอดภัย เช่น บริษัท e-commerce ก็มี data การขาย รายละเอียดของผู้ซื้อ ต้องการที่จะค้นหา insights เพิ่มเติมกับบริษัทอื่นๆ เช่น ธนาคารหรือประกันภัย เพื่อทำการ enrichment data ว่ามีรายละเอียดทางด้านอื่นๆเป็นอย่างไร สามารถอ่านรายละเอียดเพิ่มเติมได้ที่นี่

Status: General Availability (GA) พร้อมให้บริการใน Region Singapore

17. Amazon Athena for Apache Spark

Apache Spark คือ open-source analytics engine สำหรับการทำงาน data processing ที่มีขนาดใหญ่ เเละยังเพิ่ม performance ในการทำงานโดยใช้ in-memory processing ซึ่งได้รับความนิยมอย่างมากในปัจจุบัน ดังนั้น AWS จึงเพิ่ม feature ของ Amazon Athena for Apache Spark เพื่อให้สามารถใช้งาน Apache Spark ใน Amazon Athena ได้ สามารถเรียนรู้เพิ่มเติมได้ที่บล็อกนี้

Status: General Availability (GA) พร้อมให้บริการใน Region Singapore

18. Amazon OpenSearch Serverless

AWS ได้ให้ความสำคัญของการทำให้ Analytics Service ต่างๆ มีการ deployment ในรูปแบบของ Serverless เพื่ออำนวยความสะดวกให้กับผู้ใช้งาน โดยลด effort ในการ operation, การ maintenance โดยไม่ต้องมีการ manage server ซึ่งตอนนี้ Amazon OpenSearch Serverless เป็น analytics service ล่าสุดที่มีการ deployment ในรูปแบบ serverless, ถ้ามี search use case ที่เกี่ยวกับ Time series, Search, Vector search สามารถอ่านรายละเอียดเพิ่มเติมได้ที่นี่

Status: General Availability (GA) พร้อมให้บริการใน Region Singapore