AWS Glue
AWS Cloud
เริ่มต้นใช้ AWS Glue

AWS Glue เป็นบริการดึงข้อมูล เปลี่ยนแปลง และโหลดข้อมูล (ETL) ที่มีการจัดการเต็มรูปแบบช่วยให้ลูกค้าจัดเตรียมและโหลดข้อมูลของตนเพื่อการวิเคราะห์ได้ง่าย คุณสามารถสร้างและรันงาน ETL ด้วยการคลิกไม่กี่ครั้งใน AWS Management Console คุณเพียงชี้เป้า AWS Glue ไปยังข้อมูลของคุณที่จัดเก็บใน AWS จากนั้น AWS Glue จะค้นหาข้อมูลของคุณและจัดเก็บข้อมูลเมตาที่เกี่ยวข้องกัน (เช่น ข้อกำหนดตารางและนิยามข้อมูล) ไว้ใน AWS Glue Data Catalog ข้อมูลของคุณเมื่อแค็ตตาล็อกแล้ว จะสามารถค้นหาได้ สืบค้นได้ และพร้อมใช้งานสำหรับ ETL ในทันที AWS Glue จะสร้างโค้ดที่จะดำเนินการแปลงข้อมูลและกระบวนการโหลดข้อมูลของคุณ

AWS Glue จะสร้างโค้ดที่สามารถกำหนดเองได้ นำกลับมาใช้ใหม่ได้ และเคลื่อนย้ายได้ เมื่องาน ETL ของคุณพร้อมแล้ว คุณจะสามารถกำหนดเวลาที่จะใช้งานในสภาพแวดล้อม Apache Spark ที่ขยายระบบแบบแนวราบที่ได้รับการจัดการแบบครบครันของ AWS Glue ได้ AWS Glue มีตัวกำหนดการที่ยืดหยุ่นที่มาพร้อมกับการแก้ปัญหาการขึ้นต่อกันของงาน การตรวจสอบงาน และการแจ้งเตือน

AWS Glue เป็นบริการไร้เซิร์ฟเวอร์ ดังนั้นจะไม่มีโครงสร้างพื้นฐานให้ซื้อ ติดตั้ง หรือจัดการ บริการนี้จะจัดเตรียมสภาพแวดล้อมที่จำเป็นต่อการดำเนินงานให้เสร็จโดยอัตโนมัติ และลูกค้าจะต้องซื้อเพียงทรัพยากรคอมพิวเตอร์ที่ใช้ขณะเรียกใช้งาน ETL เท่านั้น ด้วย AWS Glue คุณสามารถใช้งานข้อมูลสำหรับการวิเคราะห์ได้ในไม่กี่นาที

พร้อมที่จะเริ่ม ELT ของคุณหรือยัง

เริ่มต้นใช้ AWS Glue


ง่าย

ง่าย

AWS Glue จะดำเนินการสร้าง บำรุงรักษา และเรียกใช้งาน ETL ส่วนมากโดยอัตโนมัติ AWS Glue จะรวบรวมที่มาแหล่งข้อมูล ระบุรูปแบบข้อมูล และแนะนำนิยามข้อมูลและการแปลงข้อมูล AWS Glue จะสร้างโค้ดที่ดำเนินการแปลงข้อมูลและกระบวนการโหลดข้อมูลของคุณ

การผสานการทำงาน

การผสานการทำงาน

AWS Glue รวมบริการ AWS ที่หลากหลายไว้ด้วยกัน โดยปกติแล้ว AWS Glue จะรองรอบข้อมูลที่จัดเก็บไว้ใน Amazon Aurora, Amazon RDS สำหรับ MySQL, Amazon RDS สำหรับ Oracle, Amazon RDS สำหรับ PostgreSQL, Amazon RDS สำหรับ SQL Server, Amazon Redshift และ Amazon S3 รวมทั้ง MySQL, Oracle, Microsoft SQL Server และฐานข้อมูล PostgreSQL ใน Virtual Private Cloud (Amazon VPC) ของคุณที่ใช้งานบน Amazon EC2 AWS Glue ให้การผสานรวมข้อมูลแบบทันทีกับ Amazon Athena, Amazon EMR, Amazon Redshift Spectrum, และแอปพลิเคชันใด ๆ ของ Apache Hive Metastore-compatible

ไร้เซิร์ฟเวอร์

ไร้เซิร์ฟเวอร์

AWS Glue เป็นบริการไร้เซิร์ฟเวอร์ ไม่มีโครงสร้างพื้นฐานให้จัดเตรียมหรือจัดการ AWS Glue จัดการจัดเตรียม ตั้งค่า และปรับขนาดของทรัพยากรที่จำเป็นต้องใช้ในการเรียกใช้งาน ETL ในสภาพแวดล้อม Apache Spark ที่ขยายระบบแบบแนวกว้างที่ได้รับการจัดการแบบครบครัน คุณต้องชำระเฉพาะค่าทรัพยากรที่ใช้ขณะทำการเรียกใช้งานของคุณเท่านั้น

เป็นมิตรกับนักพัฒนา

เป็นมิตรกับนักพัฒนา

AWS Glue สร้างโค้ดที่สามารถกำหนดเองได้ นำกลับมาใช้ใหม่ได้ และเคลื่อนย้ายได้ โดยใช้เทคโนโลยีที่คุ้นเคย ได้แก่ Scala, Python และApache Spark คุณยังสามารถนำเข้าตัวอ่าน บันทึก และการแปลงข้อมูลแบบกำหนดเองได้ไปในโค้ด Glue ET ของคุณได้ เนื่องจากการสร้างโค้ด AWS Glue จะทำงานบนโครงสร้างแบบเปิด จึงไม่มีการเข้าระบบ คุณสามารถใช้งานที่ใดก็ได้


ขั้นที่ 1 สร้างแคตตาล็อกข้อมูลของคุณ
ขั้นที่ 1 สร้างแคตตาล็อกข้อมูลของคุณ

คลิกเพื่อขยาย

ขั้นแรก ให้ใช้ AWS Management Console เพื่อลงทะเบียนแหล่งข้อมูล AWS Glue จะรวบรวมแหล่งข้อมูลของคุณและสร้างแคตตาล็อกข้อมูลของคุณโดยใช้ตัวจำแนกที่สร้างไว้ล่วงหน้าสำหรับรูปแบบแหล่งข้อมูลที่เป็นที่นิยมและประเภทข้อมูลที่หลากหลาย ได้แก่ JSON, CSV, Parquet และอื่นๆ

ขั้นที่ 2 สร้างและแก้ไขการแปลงข้อมูล
ขั้นที่ 2 สร้างและแก้ไขการแปลงข้อมูล

คลิกเพื่อขยาย

ต่อมา ให้เลือกแหล่งข้อมูลและเป้าหมายข้อมูล AWS Glue จะสร้างโค้ด ETL เป็นภาษาไพธอนและสกาลาเพื่อดึงข้อมูลมาจากแหล่งข้อมูล แปลงข้อมูลให้ตรงกับนิยามข้อมูลเป้าหมาย และโหลดข้อมูลไปยังเป้าหมาย คุณสามารถแก้ไข แก้จุดบกพร่อง และทดสอบโค้ดนี้ผ่านทางคอนโซลใน IDE ที่คุณชื่นชอบ หรือโน๊ตบุ๊คใดก็ได้

ขั้นที่ 3 กำหนดเวลาและเรียกใช้งานของคุณ
ขั้นที่ 3 กำหนดเวลาและเรียกใช้งานของคุณ

คลิกเพื่อขยาย

AWS Glue ทำให้สามารถกำหนดเวลางาน ETL ให้เป็นกิจวัตร ผูกงานจำนวนมากเข้าด้วยกัน หรือเรียกใช้งานได้ตามความต้องการจากบริการอื่น เช่น AWS Lambda AWS Glue จะจัดการการขึ้นต่อกันระหว่างงานของคุณ ปรับขนาดทรัพยากรพื้นฐานโดยอัตโนมัติ และลองเรียกใช้งานซ้ำหากล้มเหลว

ไปที่รายละเอียดผลิตภัณฑ์ AWS Glueหรือดูที่เอกสารประกอบผลิตภัณฑ์เพื่อเรียนรู้เพิ่มเติม


เตรียมแนวคลิกของคุณและประมวลข้อมูลบันทึกเพื่อการวิเคราะห์โดยการล้าง นอร์มัลไลซ์ และเพิ่มชุดข้อมูลของคุณโดยใช้ AWS Glue AWS Glue จะสร้างนิยามข้อมูลสำหรับข้อมูลกึ่งโครงสร้างของคุณ สร้างโค้ด ETL เพื่อแปลง ลดรูปแบบโครงสร้าง และเพิ่มข้อมูลของคุณ และโหลดคลังข้อมูลของคุณเป็นประจำ

เตรียมและโหลดข้อมูลเพื่อการวิเคราะห์

คุณสามารถใช้ AWS Glue Data Catalog เพื่อสำรวจและค้นหาทั่วทั้งชุดข้อมูล AWS หลายชุดโดยไม่จำเป็นต้องย้ายข้อมูล เมื่อข้อมูลได้รับการบันทึกแล้ว จะสามารถค้นหาและสืบค้นได้ทันทีด้วย Amazon Athena, Amazon EMR และ Amazon Redshift Spectrum

สร้างมุมมองโดยรวมของข้อมูลของคุณ

Data lake เป็นวิธีการที่เป็นที่นิยมขึ้นเรื่อย ๆ ในการจัดเก็บและวิเคราะห์ทั้งข้อมูลเชิงโครงสร้างและข้อมูลที่ไม่มีโครงสร้าง หากคุณใช้ Amazon S3 data lake AWS Glue สามารถทำให้ข้อมูลทั้งหมดของคุณพร้อมใช้งานเพื่อการวิเคราะห์ได้ทันทีโดยไม่จำเป็นต้องย้ายข้อมูล Glue crawler สามารถสแกน data lake ของคุณ และทำให้ Glue Data Catalog ซิงค์กับข้อมูลพื้นฐานได้เสมอ จากนั้นคุณจะสามารถสืบค้น data lake ของคุณได้โดยตรงด้วย Amazon Athena และ Amazon Redshift Spectrum. คุณยังสามารถใช้ Glue Data Catalog เป็น Apache Hive Metastore สำหรับแอปพลิเคชันที่เน้นข้อมูลซึ่งใช้งานบน Amazon EMR

สร้างมุมมองโดยรวมของข้อมูลของคุณ

AWS Glue สามารถเรียกใช้งาน ETL ได้ตามเหตุการณ์ เช่น เมื่อได้รับชุดข้อมูลใหม่ ตัวอย่างเช่น คุณสามารถใช้ฟังก์ชัน AWS Lambda function เพื่อเปิดงาน ETL ให้ทำงานทันทีที่ข้อมูลใหม่มีให้ใช้งานใน Amazon S3 คุณยังสามารถลงทะเบียนชุดข้อมูลใหม่นี้ได้ใน AWS Glue Data Catalog ให้เป็นส่วนหนึ่งของงาน ETL ของคุณ

เรียกใช้งาน ETL อัตโนมัติเมื่อมีข้อมูลใหม่ปรากฏ

เริ่มต้นใช้ AWS Glueได้ง่าย ๆ เพียงลงชื่อเข้าใช้ AWS Management Console และหา "Glue" ที่อยู่ในหมวดหมู่ "Analytics"

พร้อมที่จะเริ่ม ELT ของคุณหรือยัง

เริ่มต้นใช้ AWS Glue