ข้ามไปที่เนื้อหาหลัก

การประมวลผลข้อมูล Amazon SageMaker

การประมวลผลข้อมูล Amazon SageMaker

วิเคราะห์ จัดเตรียม และผสานรวมข้อมูลสำหรับการวิเคราะห์และ AI ในทุกขนาด

ทำไมต้องใช้การประมวลผลข้อมูล SageMaker

จัดเตรียม ผสานรวม และจัดระเบียบข้อมูลของคุณด้วยความสามารถในการประมวลผลข้อมูลจาก Amazon Athena, Amazon EMR, AWS Glue และ Amazon Man aged Workflow สำหรับ Apache Airflow (Amazon M WAA) ประมวลผลและผสานรวมข้อมูลจากทุกที่ด้วยการเชื่อมต่อที่รวดเร็วและง่ายดายกับแหล่งที่มาของข้อมูลหลายร้อยแห่ง

ใช้เฟรมเวิร์กการประมวลผลข้อมูลแบบโอเพนซอร์ส เช่น Apache Spark, Trino และ Apache Flink วิเคราะห์ข้อมูลในทุกระดับด้วย Trino โดยไม่ต้องจัดการโครงสร้างพื้นฐานและสร้างการวิเคราะห์แบบเรียลไทม์ได้อย่างราบรื่นด้วย Apache Flink และ Apache Spark

เชื่อมั่นว่าข้อมูลของคุณมีความแม่นยำและปลอดภัยโดยการสร้างคุณภาพของข้อมูลโดยอัตโนมัติ การระบุข้อมูลที่ละเอียดอ่อน การติดตามสายพันธุ์ และการบังคับใช้การควบคุมการเข้าถึงแบบละเอียด

ประโยชน์

Amazon SageMaker Data Processing มีการเข้าถึงที่ครอบคลุมไปยังเฟรมเวิร์กการประมวลผลข้อมูลและสตรีม, เครื่องมือสืบค้น SQL แบบกระจายและโอเพนซอร์ส และเครื่องมือยอดนิยม เช่น โน้ตบุ๊ก เครื่องมือแก้ไขการสืบค้น และกระบวนการ Extract, Transform and Load (ETL) ภาพ

คุณสามารถเข้าถึงเฟรมเวิร์กที่ได้รับความนิยมมากที่สุด เช่น Apache Spark เพื่อเตรียมและผสานรวมข้อมูลของคุณในทุกขนาด ตอบสนองความต้องการทางธุรกิจแบบเรียลไทม์ด้วยการประมวลผลสตรีมกับ Apache Flink และ Apache Spark Streaming รวมถึงวิเคราะห์ข้อมูลด้วยเฟรมเวิร์ก SQL แบบโอเพนซอร์สชั้นนำ เช่น Trino ลดความซับซ้อนในการควบคุมระบบเวิร์กโฟลว์โดยไม่ต้องจัดการโครงสร้างพื้นฐานด้วยการผสานการทำงานแบบเนทีฟกับ Amazon MWAA

การประมวลผลข้อมูล SageMaker เข้าถึงข้อมูลจากบ้านทะเลสาบใน Amazon SageMaker ช่วยให้คุณสามารถประมวลผลและบูรณาการโดยใช้สำเนาข้อมูลของคุณเพียงสำเนาเดียวสำหรับทุกกรณีการใช้งานของคุณ รวมถึงการวิเคราะห์ การสอบถามแบบเฉพาะเจาะจง การเรียนรู้ของเครื่อง (ML) และ AI แบบสร้างสรรค์

สถาปัตยกรรมโอเพ่นเลคเฮาส์ Amazon SageMaker รวมข้อมูลทั่วทะเลสาบข้อมูล Amazon Simple Storage Service (Amazon S3) และคลังข้อมูลของ Amazon Redshift ซึ่งให้การเข้าถึงข้อมูลของคุณแบบครบวงจร คุณสามารถสำรวจและวิเคราะห์ข้อมูลที่รวมอยู่ใน Lakehouse ด้วยตัวเชื่อมต่อหลายร้อยรายการ การบูรณาการ ETL แบบไร้รอยต่อ และแหล่งที่มาของข้อมูลแบบรวมกัน เพื่อให้ภาพรวมธุรกิจของคุณที่สมบูรณ์ SageMaker ทำงานร่วมกับสถาปัตยกรรมข้อมูลที่มีอยู่ของคุณโดยไม่ต้องถูกจำกัดโดยรูปแบบการจัดเก็บข้อมูลเฉพาะหรือตัวเลือกเครื่องมือแบบสอบถาม

ปรับปรุงประสิทธิภาพด้วยประสิทธิภาพการสืบค้นที่รวดเร็วเหนือตาราง Apache Iceberg รับข้อมูลเชิงลึกเร็วกว่าระบบโอเพนซอร์สแบบดั้งเดิมถึง 2 เท่า ด้วยเวอร์ชันของ Apache Spark, Apache Airflow, Apache Flink, Trino และอื่น ๆ ที่มีความสามารถสูงและเข้ากันได้กับ API แบบโอเพนซอร์ส

SageMaker Data Processing ช่วยให้คุณมุ่งเน้นไปที่การแปลงและวิเคราะห์ข้อมูลของคุณได้โดยไม่ต้องจัดการความสามารถในการประมวลผลหรือแอปพลิเคชันโอเพนซอร์ส ช่วยให้คุณประหยัดเวลาและลดต้นทุน คุณสามารถจัดเตรียมความจุบน Amazon EMR บน Amazon Elastic Compute Cloud (Amazon EC2) หรือ Amazon EMR บน Amazon Elastic Kubernetes Service (Amazon EKS) ได้โดยอัตโนมัติ กฎการปรับขนาดจะจัดการการเปลี่ยนแปลงความต้องการในการประมวลผลของคุณเพื่อเพิ่มประสิทธิภาพการทำงานและรันไทม์

เพิ่มความน่าเชื่อถือและความโปร่งใสด้วยการรายงานคุณภาพข้อมูลอัตโนมัติ การตรวจจับข้อมูลที่ละเอียดอ่อน และการติดตามสายงานของข้อมูลและโมเดล AI ผ่านการผสานรวมกับ Amazon SageMaker Catalog เพิ่มความมั่นใจในคุณภาพข้อมูลของคุณด้วยการวัด การตรวจสอบ และคำแนะนำเกี่ยวกับกฎคุณภาพข้อมูลแบบอัตโนมัติ

ประมวลผลและวิเคราะห์ข้อมูลของคุณอย่างปลอดภัยโดยการปฏิบัติตามและบังคับใช้การควบคุมการเข้าถึงแบบละเอียดที่กำหนดไว้ในชุดข้อมูลในเลคเฮาส์ ช่วยให้คุณสามารถกำหนดสิทธิ์ได้ครั้งเดียวและทำให้ผู้ใช้ที่ได้รับอนุญาตในองค์กรของคุณเข้าถึงข้อมูลของคุณได้ Lakehouse ผสานเข้ากับ AWS Glue Data Quality นำการรวมข้อมูลแบบไร้เซิร์ฟเวอร์ การจัดการคุณภาพข้อมูล และความสามารถ ML ขั้นสูงเข้าด้วยกันในสภาพแวดล้อมที่ครบวงจร

บริการของ AWS

การผสานรวมข้อมูลที่เรียบง่าย

AWS SageMaker ให้การรวมข้อมูลแบบไร้เซิร์ฟเวอร์ ทำให้การสำรวจ การเตรียมการ และการรวมข้อมูลจากหลายแหล่งที่มาง่ายขึ้น เชื่อมต่อกับแหล่งข้อมูลที่หลากหลาย จัดการข้อมูลของคุณในแคตตาล็อกข้อมูลส่วนกลาง และสร้าง เรียกใช้ จัดระเบียบ และตรวจสอบท่อและงานของ ETL เพื่อโหลดข้อมูลลงในบ้านทะเลสาบของคุณ  หากงาน Apache Spark ล้มเหลว คุณสามารถใช้การแก้ไขปัญหา AI แบบสร้างสรรค์เพื่อระบุสาเหตุหลักและแก้ไขปัญหาได้อย่างรวดเร็ว Amazon SageMaker ปรับขนาดโดยอัตโนมัติตามความต้องการดังนั้นคุณสามารถมุ่งเน้นไปที่การรับข้อมูลเชิงลึกจากข้อมูลของคุณโดยไม่ต้องจัดการโครงสร้างพื้นฐาน

เรียกใช้และปรับขนาด Apache Spark, Apache Hive, Trino และเวิร์กโหลดอื่น ๆ

Amazon EMR ช่วยให้การเรียกใช้เวิร์กโหลดการประมวลผลข้อมูล เช่น Apache Spark, Apache Airflow, Apache Flink, Trino และอื่น ๆ อีกมากมายเป็นไปอย่างสะดวกง่ายดายและคุ้มค่ามากยิ่งขึ้น สร้างและเรียกใช้ไปป์ไลน์การประมวลผลข้อมูล รวมถึงปรับขนาดโดยอัตโนมัติได้รวดเร็วกว่าโซลูชันในองค์กร

ติดตามค่าใช้จ่าย

Athena มอบวิธีที่ง่ายและยืดหยุ่นในการวิเคราะห์ข้อมูลในทุกระดับ Athena เป็นบริการสืบค้นเชิงโต้ตอบที่ลดความซับซ้อนในการวิเคราะห์ข้อมูลใน Amazon S3 โดยใช้ SQL มาตรฐาน Athena นั้นไม่ต้องใช้เซิร์ฟเวอร์ จึงไม่มีโครงสร้างพื้นฐานที่ต้องตั้งค่าหรือจัดการ และคุณสามารถเลือกชำระเงินตามการสืบค้นข้อมูลที่คุณเรียกใช้หรือประมวลผลทรัพยากรที่ต้องการสำหรับการสืบค้นข้อมูลได้ ใช้ Athena ในการประมวลผลบันทึก ดำเนินการวิเคราะห์ข้อมูล และรันแบบสอบถามแบบโต้ตอบ Athena จะปรับขนาดโดยอัตโนมัติพร้อมดำเนินการสืบค้นแบบคู่ขนาน ดังนั้นจึงได้ผลลัพธ์ที่รวดเร็ว แม้จะเป็นชุดข้อมูลขนาดใหญ่และการสืบค้นที่ซับซ้อนก็ตาม

การควบคุมระบบเวิร์กโฟลว์ที่มีการจัดการที่เน้นความปลอดภัยและพร้อมใช้งานสูงสำหรับ Apache Airflow

Amazon MWAA เป็นบริการที่มีการจัดการสำหรับ Apache Airflow ที่ให้คุณใช้แพลตฟอร์ม Apache Airflow ปัจจุบันและคุ้นเคยเพื่อจัดงานการประมวลผลข้อมูลของคุณ คุณจะได้รับความสามารถในการปรับขนาด ความพร้อมใช้งาน และความปลอดภัยที่ดีขึ้นโดยไม่ต้องมีภาระการดำเนินงานในการจัดการโครงสร้างพื้นฐานพื้นฐาน Amazon MWAA จัดระเบียบเวิร์กโฟลว์ของคุณโดยใช้กราฟอะไซคลิก (DAG) ที่เขียนใน Python หรือสตูดิโอเวิร์กโฟลว์ภาพ คุณจะต้องเตรียมบัคเก็ต S3 ที่มีข้อกำหนดด้าน DAG, ปลั๊กอิน และ Python ให้กับ Amazon MWAA การติดตั้งใช้งาน Apache Airflow ตามขนาดโดยไม่ต้องมีภาระการดำเนินงานในการจัดการโครงสร้างพื้นฐานที่สำคัญ

กรณีการใช้งาน

ระบุและเข้าถึงข้อมูลที่รวมอยู่ใน AWS ในองค์กร และระบบคลาวด์อื่น ๆ ได้อย่างรวดเร็ว จากนั้นจึงทำให้สามารถใช้ได้ทันทีสำหรับการสืบค้นและการแปลง ใช้สหพันธ์แบบสอบถามและ ZERO-ETL เพื่อลดความซับซ้อนในการเข้าถึงข้อมูลบนบริการฐานข้อมูล AWS และจากแอปพลิเคชันของบุคคลที่สาม

ประมวลผลข้อมูลโดยใช้เฟรมเวิร์กเช่น Apache Spark, Apache Flink และ Trino และเวิร์กโหลดต่าง ๆ รวมถึงแบทช์ ไมโครแบทช์ และการสตรีมมิ่ง

เรียกใช้การประมวลผลข้อมูลขนาดใหญ่และการวิเคราะห์แบบ What-if โดยใช้อัลกอริทึมเชิงสถิติและโมเดลเชิงคาดการณ์เพื่อค้นหารูปแบบ ความสัมพันธ์ แนวโน้มของตลาด และความชอบของลูกค้าที่ซ่อนอยู่