การประมวลผลข้อมูล Amazon SageMaker
วิเคราะห์ จัดเตรียม และผสานรวมข้อมูลสำหรับการวิเคราะห์และ AI ในทุกขนาด
ทำไมต้องใช้การประมวลผลข้อมูล SageMaker
จัดเตรียม ผสานรวม และจัดระเบียบข้อมูลของคุณด้วยความสามารถในการประมวลผลข้อมูลจาก Amazon Athena, Amazon EMR, AWS Glue และ Amazon Managed Workflows สำหรับ Apache Airflow (Amazon MWAA) ประมวลผลและผสานรวมข้อมูลจากทุกที่ด้วยการเชื่อมต่อที่รวดเร็วและง่ายดายกับแหล่งที่มาของข้อมูลหลายร้อยแห่ง
ใช้เฟรมเวิร์กการประมวลผลข้อมูลแบบโอเพนซอร์ส เช่น Apache Spark, Trino และ Apache Flink วิเคราะห์ข้อมูลในทุกระดับด้วย Trino โดยไม่ต้องจัดการโครงสร้างพื้นฐานและสร้างการวิเคราะห์แบบเรียลไทม์ได้อย่างราบรื่นด้วย Apache Flink และ Apache Spark
เชื่อมั่นว่าข้อมูลของคุณถูกต้องแม่นยำและปลอดภัยโดยดำเนินการสร้างคุณภาพของข้อมูลอัตโนมัติ การระบุข้อมูลที่มีความละเอียดอ่อน การติดตามเส้นทางขั้นตอน และการบังคับใช้การควบคุมสิทธิ์การเข้าถึงแบบละเอียดผ่านการผสานการทำงานแบบเนทีฟกับ Amazon SageMaker Lakehouse
ประโยชน์
บริการของ AWS
การผสานรวมข้อมูลที่เรียบง่าย
AWS Glue มีการผสานรวมข้อมูลแบบไม่ต้องใช้เซิร์ฟเวอร์ ซึ่งช่วยลดความซับซ้อนของการสำรวจข้อมูล การจัดเตรียมข้อมูล และการผสานรวมข้อมูลจากหลายแหล่งที่มา เชื่อมต่อแหล่งที่มาของข้อมูลที่หลากหลาย จัดการข้อมูลในแค็ตตาล็อกข้อมูลแบบรวมศูนย์ รวมถึงสร้าง เรียกใช้ และตรวจสอบไปป์ไลน์ ETL ด้วยภาพเพื่อโหลดข้อมูลใน Lakehouse ของคุณ AWS Glue จะปรับขนาดตามความต้องการโดยอัตโนมัติ คุณจึงสามารถโฟกัสที่การรับข้อมูลเชิงลึกจากข้อมูลของคุณได้โดยไม่ต้องจัดการโครงสร้างพื้นฐาน
เรียกใช้และปรับขนาด Apache Spark, Apache Hive, Trino และเวิร์กโหลดอื่น ๆ
Amazon EMR ช่วยให้การเรียกใช้เวิร์กโหลดการประมวลผลข้อมูล เช่น Apache Spark, Apache Airflow, Apache Flink, Trino และอื่น ๆ อีกมากมายเป็นไปอย่างสะดวกง่ายดายและคุ้มค่ามากยิ่งขึ้น สร้างและเรียกใช้ไปป์ไลน์การประมวลผลข้อมูล รวมถึงปรับขนาดโดยอัตโนมัติได้รวดเร็วกว่าโซลูชันในองค์กร
ติดตามค่าใช้จ่าย
Amazon Athena มอบวิธีที่ง่ายและยืดหยุ่นในการวิเคราะห์ข้อมูลในทุกระดับ Athena เป็นบริการสืบค้นเชิงโต้ตอบที่ลดความซับซ้อนในการวิเคราะห์ข้อมูลใน Amazon S3 โดยใช้ SQL มาตรฐาน Athena นั้นไม่ต้องใช้เซิร์ฟเวอร์ จึงไม่มีโครงสร้างพื้นฐานที่ต้องตั้งค่าหรือจัดการ และคุณสามารถเลือกชำระเงินตามการสืบค้นข้อมูลที่คุณเรียกใช้หรือประมวลผลทรัพยากรที่ต้องการสำหรับการสืบค้นข้อมูลได้ ใช้ Athena ในการประมวลผลบันทึก ดำเนินการวิเคราะห์ข้อมูล และรันแบบสอบถามแบบโต้ตอบ Athena จะปรับขนาดโดยอัตโนมัติพร้อมดำเนินการสืบค้นแบบคู่ขนาน ดังนั้นจึงได้ผลลัพธ์ที่รวดเร็ว แม้จะเป็นชุดข้อมูลขนาดใหญ่และการสืบค้นที่ซับซ้อนก็ตาม
การควบคุมระบบเวิร์กโฟลว์ที่มีการจัดการที่เน้นความปลอดภัยและพร้อมใช้งานสูงสำหรับ Apache Airflow
Amazon MWAA เป็นบริการที่มีการจัดการสำหรับ Apache Airflow ที่ให้คุณใช้แพลตฟอร์ม Apache Airflow ปัจจุบันของคุณที่คุ้นเคยเพื่อจัดระเบียบเวิร์กโฟลว์ของคุณ คุณจะได้รับความสามารถในการปรับขนาด ความพร้อมใช้งาน และความปลอดภัยที่ดีขึ้นโดยไม่ต้องมีภาระการดำเนินงานในการจัดการโครงสร้างพื้นฐานพื้นฐาน Amazon MWAA จะจัดการเวิร์กโฟลว์ของคุณโดยใช้ Directed Acyclic Graphs (DAG) ที่เขียนด้วย Python คุณจะต้องเตรียมบัคเก็ต S3 ที่มีข้อกำหนดด้าน DAG, ปลั๊กอิน และ Python ให้กับ Amazon MWAA การติดตั้งใช้งาน Apache Airflow ตามขนาดโดยไม่ต้องมีภาระการดำเนินงานในการจัดการโครงสร้างพื้นฐานที่สำคัญ