AWS Glue

ETL ที่ใช้ง่าย ยืดหยุ่น และคุ้มค่า

AWS Glue เป็นบริการดึงข้อมูล เปลี่ยนแปลง และโหลดข้อมูล (ETL) ที่มีการจัดการเต็มรูปแบบเพื่อช่วยให้ลูกค้าจัดเตรียมและโหลดข้อมูลของตนเพื่อการวิเคราะห์ได้ง่าย คุณสามารถสร้างและเรียกใช้งาน ETL ด้วยการคลิกไม่กี่ครั้งใน AWS Management Console คุณเพียงชี้เป้า AWS Glue ไปยังข้อมูลของคุณที่จัดเก็บใน AWS จากนั้น AWS Glue จะค้นหาข้อมูลของคุณและจัดเก็บข้อมูลเมตาที่เกี่ยวข้องกัน (เช่น ข้อกำหนดตารางและนิยามข้อมูล) ไว้ใน AWS Glue Data Catalog ข้อมูลของคุณเมื่อจัดรายการแล้ว จะสามารถค้นหาได้ สืบค้นได้ และพร้อมใช้งานสำหรับ ETL ในทันที AWS Glue จะสร้างโค้ดที่จะดำเนินการแปลงข้อมูลและกระบวนการโหลดข้อมูลของคุณ

AWS Glue จะสร้างโค้ดที่สามารถกำหนดเองได้ นำกลับมาใช้ใหม่ได้ และเคลื่อนย้ายได้ เมื่องาน ETL ของคุณพร้อมแล้ว คุณจะสามารถกำหนดเวลาที่จะใช้งานในสภาพแวดล้อม Apache Spark ที่ขยายระบบแบบแนวราบที่ได้รับการจัดการแบบครบครันของ AWS Glue ได้ AWS Glue มีตัวกำหนดเวลาที่ยืดหยุ่นที่มาพร้อมกับการแก้ปัญหาการขึ้นต่อกันของงาน การเฝ้าติดตามงาน และการแจ้งเตือน

AWS Glue เป็นบริการไร้เซิร์ฟเวอร์ ดังนั้นจะไม่มีโครงสร้างพื้นฐานให้ซื้อ ติดตั้ง หรือจัดการ บริการนี้จะจัดเตรียมสภาพแวดล้อมที่จำเป็นต่อการดำเนินงานให้เสร็จโดยอัตโนมัติ และลูกค้าจะต้องชำระเฉพาะทรัพยากรการประมวลผลที่ใช้ขณะเรียกใช้งาน ETL เท่านั้น AWS Glue คช่วยให้คุณสามารถใช้งานข้อมูลสำหรับการวิเคราะห์ได้ในไม่กี่นาที

ขอแนะนำ AWS Glue (1:47)

ประโยชน์

ง่าย

AWS Glue จะดำเนินการสร้าง บำรุงรักษา และเรียกใช้งาน ETL ส่วนมากโดยอัตโนมัติ AWS Glue จะรวบรวมที่มาแหล่งข้อมูล ระบุรูปแบบข้อมูล และแนะนำนิยามข้อมูลและการแปลงข้อมูล AWS Glue จะสร้างโค้ดที่ดำเนินการแปลงข้อมูลและกระบวนการโหลดข้อมูลของคุณโดยอัตโนมัติ

การผสานรวม

AWS Glue รวมอยู่ในบริการของ AWS อันหลากหลาย ซึ่งช่วยลดความยุ่งยากเมื่อคุณใช้งาน โดยปกติแล้ว AWS Glue จะรองรับข้อมูลที่จัดเก็บไว้ใน Amazon Aurora และกลไก Amazon RDS อื่นๆ ทั้งหมด, Amazon Redshift และ Amazon S3 เช่นเดียวกับ MySQL, Oracle, Microsoft SQL Server และฐานข้อมูล PostgreSQL ใน Virtual Private Cloud (Amazon VPC) ของคุณที่ใช้งานบน Amazon EC2 AWS Glue ให้การผสานรวมข้อมูลแบบทันทีกับ Amazon Athena, Amazon EMR, Amazon Redshift Spectrum, และแอปพลิเคชันใดๆ ของ Apache Hive Metastore ที่ใช้งานร่วมกันได้

ไร้เซิร์ฟเวอร์

AWS Glue เป็นบริการไร้เซิร์ฟเวอร์ ไม่มีโครงสร้างพื้นฐานให้จัดเตรียมหรือจัดการ AWS Glue สามารถจัดเตรียม ตั้งค่า และปรับขนาดของทรัพยากรที่จำเป็นต้องใช้ในการเรียกใช้งาน ETL ในสภาพแวดล้อม Apache Spark ที่ขยายระบบแบบแนวกว้างที่ได้รับการจัดการแบบครบครัน คุณชำระเฉพาะทรัพยากรที่ใช้ขณะทำการเรียกใช้งานของคุณเท่านั้น

เป็นมิตรกับนักพัฒนา

AWS Glue สร้างโค้ดที่สามารถกำหนดเองได้ นำกลับมาใช้ใหม่ได้ และเคลื่อนย้ายได้ โดยใช้เทคโนโลยีที่คุ้นเคย ได้แก่ Scala, Python และ Apache Spark นอกจากนั้น คุณยังสามารถนำเข้าตัวอ่าน ตัวบันทึก และการแปลงข้อมูลแบบกำหนดเองได้ไปยังโค้ด Glue ETL ของคุณ เนื่องจากการสร้างโค้ด AWS Glue จะทำงานบนโครงสร้างแบบเปิด จึงไม่มีข้อจำกัด คุณสามารถใช้งานที่ใดก็ได้

วิธีทำงาน

เลือกแหล่งข้อมูลและเป้าหมายข้อมูล AWS Glue จะสร้างโค้ด ETL เป็นภาษา Scala หรือ Python เพื่อดึงข้อมูลจากแหล่งข้อมูล แปลงข้อมูลให้ตรงกับนิยามข้อมูลเป้าหมาย และโหลดข้อมูลไปยังเป้าหมาย คุณสามารถแก้ไข แก้จุดบกพร่อง และทดสอบโค้ดนี้ผ่านทาง Console ใน IDE ที่คุณชื่นชอบ หรือโน้ตบุ๊คใดก็ได้

ขั้นที่ 1: สร้างแค็ตตาล็อกข้อมูลของคุณ
screenshot-glue-step1-data-catalog2b

อันดับแรก ใช้ AWS Management Console เพื่อลงทะเบียนแหล่งข้อมูล AWS Glue จะรวบรวมแหล่งข้อมูลของคุณและสร้างแค็ตตาล็อกข้อมูลของคุณโดยใช้ตัวจำแนกที่สร้างไว้ล่วงหน้าสำหรับรูปแบบแหล่งข้อมูลและประเภทข้อมูลยอดนิยมที่หลากหลาย ได้แก่ JSON, CSV, Parquet และอื่นๆ

ขั้นที่ 2: สร้างและแก้ไขการแปลงข้อมูล
screenshot-glue-step2-etl-generation4

ต่อมา ให้เลือกแหล่งข้อมูลและเป้าหมายข้อมูล AWS Glue จะสร้างโค้ด ETL เป็นภาษา Scala หรือ Python เพื่อดึงข้อมูลจากแหล่งข้อมูล แปลงข้อมูลให้ตรงกับนิยามข้อมูลเป้าหมาย และโหลดข้อมูลไปยังเป้าหมาย คุณสามารถแก้ไข แก้จุดบกพร่อง และทดสอบโค้ดนี้ผ่านทาง Console ใน IDE ที่คุณชื่นชอบ หรือโน้ตบุ๊คใดก็ได้

ขั้นที่ 3: กำหนดเวลาและเรียกใช้งานของคุณ
screenshot-glue-step3-orchestration2

AWS Glue ช่วยให้สามารถกำหนดเวลางาน ETL ให้เป็นกิจวัตร ผูกงานจำนวนมากเข้าด้วยกัน หรือเรียกใช้งานได้ตามความต้องการจากบริการอื่น เช่น AWS Lambda AWS Glue จะจัดการการขึ้นต่อกันระหว่างงานของคุณ ปรับขนาดทรัพยากรพื้นฐานโดยอัตโนมัติ และลองเรียกใช้งานซ้ำหากล้มเหลว

ไปที่หน้าคุณสมบัติของ AWS Glue หรือดูที่เอกสารประกอบผลิตภัณฑ์เพื่อเรียนรู้เพิ่มเติม

กรณีใช้งาน

การสืบค้นใน Amazon S3 Data Lake

Data Lake เป็นวิธีการที่เป็นที่นิยมขึ้นเรื่อยๆ ในการจัดเก็บและวิเคราะห์ทั้งข้อมูลเชิงโครงสร้างและข้อมูลที่ไม่มีโครงสร้าง หากคุณใช้ Amazon S3 Data Lake AWS Glue สามารถทำให้ข้อมูลทั้งหมดของคุณพร้อมใช้งานเพื่อการวิเคราะห์ได้ทันทีโดยไม่จำเป็นต้องย้ายข้อมูล

product-page-diagram_Glue_Queries-Against-an-Amazo-S3-Data-Lake

วิเคราะห์ข้อมูลบันทึกในคลังข้อมูลของคุณ

เตรียมคลิกสตรีมของคุณและประมวลข้อมูลบันทึกเพื่อการวิเคราะห์โดยการล้าง ปรับให้ปกติ และเพิ่มชุดข้อมูลของคุณโดยใช้ AWS Glue AWS Glue จะสร้างนิยามข้อมูลสำหรับข้อมูลกึ่งโครงสร้างของคุณ สร้างโค้ด ETL เพื่อแปลง ลดรูปแบบโครงสร้าง และเพิ่มข้อมูลของคุณ และโหลดคลังข้อมูลของคุณเป็นประจำ

product-page-diagram_Glue_Analyze-Log-Data-in-Data-Warehouse

มุมมองโดยรวมของข้อมูลของคุณจากที่จัดเก็บข้อมูลหลายแห่ง

คุณสามารถใช้ AWS Glue Data Catalog เพื่อสำรวจและค้นหาทั่วทั้งชุดข้อมูล AWS หลายชุดโดยไม่จำเป็นต้องย้ายข้อมูล เมื่อข้อมูลได้รับการจัดรายการแล้ว จะสามารถค้นหาและสืบค้นได้ทันทีโดยใช้ Amazon Athena, Amazon EMR และ Amazon Redshift Spectrum

product-page-diagram_Glue_Unified-View-of-Data-Across-Multiple-Data-Stores

การทำงานของสายท่อของ ETL เชิงเหตุการณ์

AWS Glue สามารถเรียกใช้งาน ETL ได้ตามเหตุการณ์ เช่น เมื่อได้รับชุดข้อมูลใหม่ ตัวอย่างเช่น คุณสามารถใช้ฟังก์ชัน AWS Lambda เพื่อเรียกใช้งาน ETL ให้ทำงานทันทีที่ข้อมูลใหม่พร้อมใช้งานใน Amazon S3 คุณยังสามารถลงทะเบียนชุดข้อมูลใหม่นี้ได้ใน AWS Glue Data Catalog ให้เป็นส่วนหนึ่งของงาน ETL ของคุณ

product-page-diagram_Glue_Event-driven-ETL-Pipelines

เริ่มต้นใช้งาน AWS

icon1

ลงชื่อสมัครใช้งานบัญชี AWS

รับสิทธิ์การเข้าถึง AWS Free Tier ได้ทันที
icon2

เรียนรู้จากบทแนะนำสอนการใช้งาน 10 นาที

สำรวจและเรียนรู้จาก บทแนะนำสอนการใช้งานอย่างง่ายๆ
icon3

เริ่มต้นสร้างด้วย AWS

เริ่มต้นสร้างด้วยคำแนะนำแบบทีละขั้นตอนเพื่อช่วยในการเปิดใช้ โพรเจกต์ AWS ของคุณ

เรียนรู้เพิ่มเติมเกี่ยวกับ AWS Glue

ไปที่หน้าคุณสมบัติ
พร้อมสร้างหรือยัง
เริ่มต้นใช้ AWS Glue
มีคำถามเพิ่มเติมหรือไม่
ติดต่อเรา