AWS Glue

ETL ที่ใช้ง่าย ยืดหยุ่น และคุ้มค่า

AWS Glue เป็นบริการดึงข้อมูล เปลี่ยนแปลง และโหลดข้อมูล (ETL) ที่มีการจัดการเต็มรูปแบบเพื่อช่วยให้ลูกค้าจัดเตรียมและโหลดข้อมูลของตนเพื่อการวิเคราะห์ได้ง่าย คุณสามารถสร้างและเรียกใช้งาน ETL ด้วยการคลิกไม่กี่ครั้งใน AWS Management Console คุณเพียงชี้เป้า AWS Glue ไปยังข้อมูลของคุณที่จัดเก็บใน AWS จากนั้น AWS Glue จะค้นหาข้อมูลของคุณและจัดเก็บข้อมูลเมตาที่เกี่ยวข้องกัน (เช่น ข้อกำหนดตารางและนิยามข้อมูล) ไว้ใน AWS Glue Data Catalog ข้อมูลของคุณเมื่อจัดรายการแล้ว จะสามารถค้นหาได้ สืบค้นได้ และพร้อมใช้งานสำหรับ ETL ในทันที

ขอแนะนำ AWS Glue (1:47)

ประโยชน์

ลดความยุ่งยาก

AWS Glue ผสานรวมอยู่ในบริการของ AWS อันหลากหลาย ซึ่งช่วยลดความยุ่งยากเมื่อคุณใช้งาน โดยปกติแล้ว AWS Glue จะรองรับข้อมูลที่จัดเก็บไว้ใน Amazon Aurora และกลไก Amazon RDS อื่นๆ ทั้งหมด, Amazon Redshift และ Amazon S3 เช่นเดียวกับโปรแกรมฐานข้อมูลทั่วไปและฐานข้อมูลใน Virtual Private Cloud (Amazon VPC) ของคุณที่ใช้งานบน Amazon EC2

ประหยัดคุ้มค่า

AWS Glue เป็นบริการไร้เซิร์ฟเวอร์ ไม่มีโครงสร้างพื้นฐานให้จัดเตรียมหรือจัดการ AWS Glue สามารถจัดเตรียม ตั้งค่า และปรับขนาดของทรัพยากรที่จำเป็นต้องใช้ในการเรียกใช้งาน ETL ในสภาพแวดล้อม Apache Spark ที่ขยายระบบแบบแนวกว้างที่ได้รับการจัดการแบบครบครัน คุณชำระเฉพาะทรัพยากรที่ใช้ขณะทำการเรียกใช้งานของคุณเท่านั้น

ทรงพลังยิ่งขึ้น

AWS Glue จะดำเนินการสร้าง บำรุงรักษา และเรียกใช้งาน ETL ส่วนมากโดยอัตโนมัติ AWS Glue จะรวบรวมที่มาแหล่งข้อมูล ระบุรูปแบบข้อมูล และแนะนำนิยามข้อมูลและการแปลงข้อมูล AWS Glue จะสร้างโค้ดที่ดำเนินการแปลงข้อมูลและกระบวนการโหลดข้อมูลของคุณโดยอัตโนมัติ

 

 

วิธีทำงาน

เลือกแหล่งข้อมูลและเป้าหมายข้อมูล AWS Glue จะสร้างโค้ด ETL เป็นภาษา Scala หรือ Python เพื่อดึงข้อมูลจากแหล่งข้อมูล แปลงข้อมูลให้ตรงกับนิยามข้อมูลเป้าหมาย และโหลดข้อมูลไปยังเป้าหมาย คุณสามารถแก้ไข แก้จุดบกพร่อง และทดสอบโค้ดนี้ผ่านทาง Console ใน IDE ที่คุณชื่นชอบ หรือโน้ตบุ๊คใดก็ได้

ขั้นที่ 1: สร้างแค็ตตาล็อกข้อมูลของคุณ
screenshot-glue-step1-data-catalog2b

อันดับแรก ใช้ AWS Management Console เพื่อลงทะเบียนแหล่งข้อมูล AWS Glue จะรวบรวมแหล่งข้อมูลของคุณและสร้างแค็ตตาล็อกข้อมูลของคุณโดยใช้ตัวจำแนกที่สร้างไว้ล่วงหน้าสำหรับรูปแบบแหล่งข้อมูลและประเภทข้อมูลยอดนิยมที่หลากหลาย ได้แก่ JSON, CSV, Parquet และอื่นๆ

ขั้นที่ 2: สร้างและแก้ไขการแปลงข้อมูล
screenshot-glue-step2-etl-generation4

ต่อมา ให้เลือกแหล่งข้อมูลและเป้าหมายข้อมูล AWS Glue จะสร้างโค้ด ETL เป็นภาษา Scala หรือ Python เพื่อดึงข้อมูลจากแหล่งข้อมูล แปลงข้อมูลให้ตรงกับนิยามข้อมูลเป้าหมาย และโหลดข้อมูลไปยังเป้าหมาย คุณสามารถแก้ไข แก้จุดบกพร่อง และทดสอบโค้ดนี้ผ่านทาง Console ใน IDE ที่คุณชื่นชอบ หรือโน้ตบุ๊คใดก็ได้

ขั้นที่ 3: กำหนดเวลาและเรียกใช้งานของคุณ
screenshot-glue-step3-orchestration2

AWS Glue ช่วยให้สามารถกำหนดเวลางาน ETL ให้เป็นกิจวัตร ผูกงานจำนวนมากเข้าด้วยกัน หรือเรียกใช้งานได้ตามความต้องการจากบริการอื่น เช่น AWS Lambda AWS Glue จะจัดการการขึ้นต่อกันระหว่างงานของคุณ ปรับขนาดทรัพยากรพื้นฐานโดยอัตโนมัติ และลองเรียกใช้งานซ้ำหากล้มเหลว

ไปที่หน้าคุณสมบัติของ AWS Glue หรือดูที่เอกสารประกอบผลิตภัณฑ์เพื่อเรียนรู้เพิ่มเติม

กรณีใช้งาน

การสืบค้นใน Amazon S3 Data Lake

Data Lake เป็นวิธีการที่เป็นที่นิยมขึ้นเรื่อยๆ ในการจัดเก็บและวิเคราะห์ทั้งข้อมูลเชิงโครงสร้างและข้อมูลที่ไม่มีโครงสร้าง หากคุณสร้าง Amazon S3 Data Lake ของคุณเอง AWS Glue สามารถทำให้ข้อมูลทั้งหมดของคุณพร้อมใช้งานเพื่อการวิเคราะห์ได้ทันทีโดยไม่จำเป็นต้องย้ายข้อมูล

หากต้องการสร้าง Data Lake ที่ปลอดภัยในไม่กี่วัน โปรดดูเพิ่มเติมเกี่ยวกับ AWS Lake Formation

product-page-diagram_Glue_Queries-Against-an-Amazo-S3-Data-Lake

วิเคราะห์ข้อมูลบันทึกในคลังข้อมูลของคุณ

เตรียมคลิกสตรีมของคุณและประมวลข้อมูลบันทึกเพื่อการวิเคราะห์โดยการล้าง ปรับให้ปกติ และเพิ่มชุดข้อมูลของคุณโดยใช้ AWS Glue AWS Glue จะสร้างนิยามข้อมูลสำหรับข้อมูลกึ่งโครงสร้างของคุณ สร้างโค้ด ETL เพื่อแปลง ลดรูปแบบโครงสร้าง และเพิ่มข้อมูลของคุณ และโหลดคลังข้อมูลของคุณเป็นประจำ

product-page-diagram_Glue_Analyze-Log-Data-in-Data-Warehouse

มุมมองโดยรวมของข้อมูลของคุณจากที่จัดเก็บข้อมูลหลายแห่ง

คุณสามารถใช้ AWS Glue Data Catalog เพื่อสำรวจและค้นหาทั่วทั้งชุดข้อมูล AWS หลายชุดโดยไม่จำเป็นต้องย้ายข้อมูล เมื่อข้อมูลได้รับการจัดรายการแล้ว จะสามารถค้นหาและสืบค้นได้ทันทีโดยใช้ Amazon Athena, Amazon EMR และ Amazon Redshift Spectrum

product-page-diagram_Glue_Unified-View-of-Data-Across-Multiple-Data-Stores

การทำงานของสายท่อของ ETL เชิงเหตุการณ์

AWS Glue สามารถเรียกใช้งาน ETL ได้ตามเหตุการณ์ เช่น เมื่อได้รับชุดข้อมูลใหม่ ตัวอย่างเช่น คุณสามารถใช้ฟังก์ชัน AWS Lambda เพื่อเรียกใช้งาน ETL ให้ทำงานทันทีที่ข้อมูลใหม่พร้อมใช้งานใน Amazon S3 คุณยังสามารถลงทะเบียนชุดข้อมูลใหม่นี้ได้ใน AWS Glue Data Catalog ให้เป็นส่วนหนึ่งของงาน ETL ของคุณ

product-page-diagram_Glue_Event-driven-ETL-Pipelines

เริ่มต้นใช้งาน AWS

icon1

ลงชื่อสมัครใช้งานบัญชี AWS

รับสิทธิ์การเข้าถึง AWS Free Tier ได้ทันที
icon2

เรียนรู้จากบทแนะนำสอนการใช้งาน 10 นาที

สำรวจและเรียนรู้จาก บทแนะนำสอนการใช้งานอย่างง่ายๆ
icon3

เริ่มต้นสร้างด้วย AWS

เริ่มต้นสร้างด้วยคำแนะนำแบบทีละขั้นตอนเพื่อช่วยในการเปิดใช้ โพรเจกต์ AWS ของคุณ

เรียนรู้เพิ่มเติมเกี่ยวกับ AWS Glue

ไปที่หน้าคุณสมบัติ
พร้อมสร้างหรือยัง
เริ่มต้นใช้ AWS Glue
มีคำถามเพิ่มเติมหรือไม่
ติดต่อเรา