AWS Glue

ETL ที่ใช้ง่าย ยืดหยุ่น และคุ้มค่า

AWS Glue เป็นบริการดึงข้อมูล เปลี่ยนแปลง และโหลดข้อมูล (ETL) ที่มีการจัดการเต็มรูปแบบเพื่อช่วยให้ลูกค้าจัดเตรียมและโหลดข้อมูลของตนเพื่อการวิเคราะห์ได้ง่าย คุณสามารถสร้างและเรียกใช้งาน ETL ด้วยการคลิกไม่กี่ครั้งใน AWS Management Console คุณเพียงชี้เป้า AWS Glue ไปยังข้อมูลของคุณที่จัดเก็บใน AWS จากนั้น AWS Glue จะค้นหาข้อมูลของคุณและจัดเก็บข้อมูลเมตาที่เกี่ยวข้องกัน (เช่น ข้อกำหนดตารางและนิยามข้อมูล) ไว้ใน AWS Glue Data Catalog ข้อมูลของคุณเมื่อจัดรายการแล้ว จะสามารถค้นหาได้ สืบค้นได้ และพร้อมใช้งานสำหรับ ETL ในทันที

ขอแนะนำ AWS Glue (1:47)

ประโยชน์

ลดความยุ่งยาก

AWS Glue ผสานรวมอยู่ในบริการของ AWS อันหลากหลาย ซึ่งช่วยลดความยุ่งยากเมื่อคุณใช้งาน โดยปกติแล้ว AWS Glue จะรองรับข้อมูลที่จัดเก็บไว้ใน Amazon Aurora และกลไก Amazon RDS อื่นๆ ทั้งหมด, Amazon Redshift และ Amazon S3 เช่นเดียวกับโปรแกรมฐานข้อมูลทั่วไปและฐานข้อมูลใน Virtual Private Cloud (Amazon VPC) ของคุณที่ใช้งานบน Amazon EC2

ประหยัดคุ้มค่า

AWS Glue เป็นบริการไร้เซิร์ฟเวอร์ ไม่มีโครงสร้างพื้นฐานให้จัดเตรียมหรือจัดการ AWS Glue สามารถจัดเตรียม ตั้งค่า และปรับขนาดของทรัพยากรที่จำเป็นต้องใช้ในการเรียกใช้งาน ETL ในสภาพแวดล้อม Apache Spark ที่ขยายระบบแบบแนวกว้างที่ได้รับการจัดการแบบครบครัน คุณชำระเฉพาะทรัพยากรที่ใช้ขณะทำการเรียกใช้งานของคุณเท่านั้น

ทรงพลังยิ่งขึ้น

AWS Glue จะดำเนินการสร้าง บำรุงรักษา และเรียกใช้งาน ETL ส่วนมากโดยอัตโนมัติ AWS Glue จะรวบรวมที่มาแหล่งข้อมูล ระบุรูปแบบข้อมูล และแนะนำนิยามข้อมูลและการแปลงข้อมูล AWS Glue จะสร้างโค้ดที่ดำเนินการแปลงข้อมูลและกระบวนการโหลดข้อมูลของคุณโดยอัตโนมัติ

 

 

วิธีทำงาน

เลือกแหล่งข้อมูลและเป้าหมายข้อมูล AWS Glue จะสร้างโค้ด ETL เป็นภาษา Scala หรือ Python เพื่อดึงข้อมูลจากแหล่งข้อมูล แปลงข้อมูลให้ตรงกับนิยามข้อมูลเป้าหมาย และโหลดข้อมูลไปยังเป้าหมาย คุณสามารถแก้ไข แก้จุดบกพร่อง และทดสอบโค้ดนี้ผ่านทาง Console ใน IDE ที่คุณชื่นชอบ หรือโน้ตบุ๊คใดก็ได้

ขั้นที่ 1: สร้างแค็ตตาล็อกข้อมูลของคุณ
ขั้นตอนการสร้างแค็ตตาล็อกข้อมูลของคุณ

อันดับแรก ใช้ AWS Management Console เพื่อลงทะเบียนแหล่งข้อมูล AWS Glue จะรวบรวมแหล่งข้อมูลของคุณและสร้างแค็ตตาล็อกข้อมูลของคุณโดยใช้ตัวจำแนกที่สร้างไว้ล่วงหน้าสำหรับรูปแบบแหล่งข้อมูลและประเภทข้อมูลยอดนิยมที่หลากหลาย ได้แก่ JSON, CSV, Parquet และอื่นๆ

ขั้นที่ 2: สร้างและแก้ไขการแปลงข้อมูล
ขั้นตอนการสร้างและแก้ไขการแปลงข้อมูล

ต่อมา ให้เลือกแหล่งข้อมูลและเป้าหมายข้อมูล AWS Glue จะสร้างโค้ด ETL เป็นภาษา Scala หรือ Python เพื่อดึงข้อมูลจากแหล่งข้อมูล แปลงข้อมูลให้ตรงกับนิยามข้อมูลเป้าหมาย และโหลดข้อมูลไปยังเป้าหมาย คุณสามารถแก้ไข แก้จุดบกพร่อง และทดสอบโค้ดนี้ผ่านทาง Console ใน IDE ที่คุณชื่นชอบ หรือโน้ตบุ๊คใดก็ได้

ขั้นที่ 3: กำหนดเวลาและเรียกใช้งานของคุณ
ขั้นตอนการกำหนดเวลาและเรียกใช้งานของคุณ

AWS Glue ช่วยให้สามารถกำหนดเวลางาน ETL ให้เป็นกิจวัตร ผูกงานจำนวนมากเข้าด้วยกัน หรือเรียกใช้งานได้ตามความต้องการจากบริการอื่น เช่น AWS Lambda AWS Glue จะจัดการการขึ้นต่อกันระหว่างงานของคุณ ปรับขนาดทรัพยากรพื้นฐานโดยอัตโนมัติ และลองเรียกใช้งานซ้ำหากล้มเหลว

ไปที่หน้าคุณสมบัติของ AWS Glue หรือดูที่เอกสารประกอบผลิตภัณฑ์เพื่อเรียนรู้เพิ่มเติม

กรณีใช้งาน

การสืบค้นใน Amazon S3 Data Lake

Data Lake เป็นวิธีการที่เป็นที่นิยมขึ้นเรื่อยๆ ในการจัดเก็บและวิเคราะห์ทั้งข้อมูลเชิงโครงสร้างและข้อมูลที่ไม่มีโครงสร้าง หากคุณสร้าง Amazon S3 Data Lake ของคุณเอง AWS Glue สามารถทำให้ข้อมูลทั้งหมดของคุณพร้อมใช้งานเพื่อการวิเคราะห์ได้ทันทีโดยไม่จำเป็นต้องย้ายข้อมูล

หากต้องการสร้าง Data Lake ที่ปลอดภัยในไม่กี่วัน โปรดดูเพิ่มเติมเกี่ยวกับ AWS Lake Formation

การสืบค้นในแผนภาพ Amazon S3 Data Lake

วิเคราะห์ข้อมูลบันทึกในคลังข้อมูลของคุณ

เตรียมคลิกสตรีมของคุณและประมวลข้อมูลบันทึกเพื่อการวิเคราะห์โดยการล้าง ปรับให้ปกติ และเพิ่มชุดข้อมูลของคุณโดยใช้ AWS Glue AWS Glue จะสร้างแบบแผนสำหรับข้อมูลกึ่งโครงสร้างของคุณ สร้างโค้ด ETL เพื่อแปลง ลดรูปแบบโครงสร้าง และเพิ่มข้อมูลของคุณ และโหลดคลังข้อมูลของคุณเป็นประจำ

วิเคราะห์ข้อมูลบันทึกในแผนภาพคลังข้อมูลของคุณ

มุมมองโดยรวมของข้อมูลของคุณจากที่จัดเก็บข้อมูลหลายแห่ง

คุณสามารถใช้ AWS Glue Data Catalog เพื่อสำรวจและค้นหาทั่วทั้งชุดข้อมูล AWS หลายชุดโดยไม่จำเป็นต้องย้ายข้อมูล เมื่อข้อมูลได้รับการจัดรายการแล้ว จะสามารถค้นหาและสืบค้นได้ทันทีโดยใช้ Amazon Athena, Amazon EMR และ Amazon Redshift Spectrum

มุมมองของข้อมูลจากแผนภาพที่จัดเก็บข้อมูล

การทำงานแบบสายท่อของ ETL เชิงเหตุการณ์

AWS Glue สามารถเรียกใช้งาน ETL ได้ตามเหตุการณ์ เช่น เมื่อได้รับชุดข้อมูลใหม่ ตัวอย่างเช่น คุณสามารถใช้ฟังก์ชัน AWS Lambda เพื่อเรียกใช้งาน ETL ให้ทำงานทันทีที่ข้อมูลใหม่พร้อมใช้งานใน Amazon S3 คุณยังสามารถลงทะเบียนชุดข้อมูลใหม่นี้ใน AWS Glue Data Catalog ให้เป็นส่วนหนึ่งของงาน ETL ของคุณได้

แผนภาพการทำงานแบบสายท่อของ ETL เชิงเหตุการณ์
ภาพเว็บเพจ
ดูคุณสมบัติต่างๆ ของผลิตภัณฑ์

เรียนรู้เพิ่มเติมเกี่ยวกับคุณสมบัติหลักของ AWS Glue

เรียนรู้เพิ่มเติม 
ภาพการลงชื่อสมัครใช้บัญชี
ลงชื่อสมัครใช้บัญชีฟรี

รับสิทธิ์การเข้าถึง AWS Free Tier ได้ทันที 

ลงชื่อสมัครใช้งาน 
ภาพกล่องเครื่องมือ
เริ่มต้นสร้างบน Console

เริ่มต้นสร้างด้วย AWS Glue บน AWS Management Console

ลงชื่อเข้าใช้