Amazon EMR

ใช้งานและปรับขนาด Apache Spark, Hive, Presto และเฟรมเวิร์ค Big Data อื่นๆ ได้อย่างง่ายดาย

Amazon EMR เป็นแพลตฟอร์ม Big Data บนระบบคลาวด์ในระดับแถวหน้าของอุตสาหกรรมสำหรับประมวลผลข้อมูลจำนวนมหาศาลโดยใช้เครื่องมือโอเพนซอร์ส เช่น Apache Spark, Apache Hive, Apache HBase, Apache Flink, Apache Hudi และ Presto เมื่อใช้งาน EMR คุณจะสามารถเรียกใช้การวิเคราะห์ข้อมูลระดับเพตะไบต์โดยมีค่าใช้จ่ายถูกลงมากกว่าครึ่งเมื่อเทียบกับโซลูชันแบบดั้งเดิมในองค์กร และเร็วขึ้นกว่า 3 เท่าเมื่อเทียบกับ Apache Spark มาตรฐาน สำหรับงานระยะสั้น คุณสามารถเพิ่มหรือลดคลัสเตอร์และจ่ายเงินเป็นวินาทีสำหรับอินสแตนซ์ที่ใช้ได้ สำหรับปริมาณงานระยะยาว คุณสามารถสร้างคลัสเตอร์ที่มีความพร้อมใช้งานสูงซึ่งจะปรับขนาดโดยอัตโนมัติเพื่อตอบสนองความต้องการได้ หากคุณมีการปรับใช้เครื่องมือโอเพนซอร์สในองค์กรอยู่แล้ว เช่น Apache Spark และ Apache Hive คุณยังสามารถเรียกใช้งานคลัสเตอร์ EMR บน AWS Outposts ได้อีกด้วย

เรียนรู้ว่าคุณสามารถลดค่าใช้จ่ายและลดความซับซ้อนของการทำงานด้วยการโยกย้ายปริมาณงานภายในองค์กรไปยัง EMR ได้อย่างไร

สำรวจว่า Apache Hudi ลดความซับซ้อนของไปป์ไลน์การเปลี่ยนแปลงการบันทึกข้อมูล (CDC) และข้อบังคับด้านความเป็นส่วนตัวอย่างไร

บทแนะนำเบื้องต้นเกี่ยวกับ Amazon EMR (3:00)

ประโยชน์

ใช้งานง่าย

นักวิเคราะห์ วิศวกรข้อมูล และนักวิทยาศาสตร์ข้อมูลสามารถใช้ EMR Notebooks ซึ่งทำให้บุคคลและทีมสามารถทำงานร่วมกันและสำรวจ ประมวลผล รวมถึงแสดงภาพข้อมูลอย่างต่อเนื่องได้อย่างง่ายดาย คุณเพียงต้องระบุเวอร์ชันของแอปพลิเคชัน EMR และประเภทของการประมวลผลที่คุณต้องการใช้ EMR จะดูแลเรื่องการจัดเตรียม การกำหนดค่า และการปรับคลัสเตอร์ เพื่อให้คุณสามารถมุ่งเน้นกับการเรียกใช้การวิเคราะห์ได้

ต้นทุนต่ำ

การกำหนดราคาของ EMR เป็นเรื่องง่ายและคาดเดาได้ โดยคุณต้องจ่ายเป็นอัตราอินสแตนซ์สำหรับทุกวินาทีที่ใช้งาน ซึ่งคิดค่าบริการขั้นต่ำ 1 นาที คุณสามารถเปิดใช้คลัสเตอร์ EMR แบบ 10 โหนดได้ในราคาเพียง 0.15 USD ต่อชั่วโมง คุณยังสามารถประหยัดค่าใช้จ่ายสำหรับอินสแตนซ์ได้อีก 50-80% โดยเลือก Amazon EC2 Spot สำหรับปริมาณงานชั่วคราว และเลือกอินสแตนซ์แบบเหมาจ่ายสำหรับปริมาณงานระยะยาว คุณสามารถใช้ Savings Plans ได้ด้วย

ยืดหยุ่น

ต่างจากโครงสร้างพื้นฐานที่เข้มงวดของคลัสเตอร์ในองค์กร EMR แยกการคำนวณและพื้นที่จัดเก็บข้อมูลที่มอบความสามารถในการปรับขนาดแต่ละรายการอย่างอิสระให้แก่คุณ และใช้ประโยชน์จากพื้นที่จัดเก็บแบบระดับชั้นของ Amazon S3 คุณสามารถจัดเตรียมอินสแตนซ์การประมวลผลหนึ่ง หลายร้อย หรือหลายพันอินสแตนซ์เพื่อประมวลผลข้อมูลในทุกระดับได้ด้วย EMR จำนวนของอินสแตนซ์สามารถเพิ่มขึ้นหรือลดลงโดยอัตโนมัติด้วยการใช้ Auto Scaling (ที่จัดการขนาดของคลัสเตอร์โดยขึ้นอยู่กับการใช้งาน) และคุณชำระค่าบริการเฉพาะส่วนที่คุณใช้เท่านั้น

น่าเชื่อถือ

ใช้เวลาน้อยลงเพื่อปรับแต่งและเฝ้าติดตามคลัสเตอร์ EMR ได้รับการปรับแต่งมาแล้วสำหรับระบบคลาวด์ และยังเฝ้าติดตามคลัสเตอร์ของคุณอย่างสม่ำเสมอ ลองทำงานที่ล้มเหลวซ้ำอีกครั้ง และแทนที่อินสแตนซ์ที่มีประสิทธิภาพต่ำโดยอัตโนมัติ คลัสเตอร์มีความพร้อมใช้งานสูงและเปลี่ยนระบบโดยอัตโนมัติในกรณีที่โหนดตัวหนึ่งทำงานล้มเหลว ด้วยโหนดต้นแบบหลายโหนด EMR ช่วยมอบรุ่นของซอฟต์แวร์แบบโอเพนซอร์สที่มีความเสถียรรุ่นล่าสุด ดังนั้นคุณจึงไม่จำเป็นต้องจัดการอัปเดตและการแก้ไขข้อผิดพลาด ซึ่งจะนำไปสู่ปัญหาที่น้อยลงและลดความพยายามในการรักษาสภาพแวดล้อมเอาไว้

ปลอดภัย

EMR กำหนดการตั้งค่าไฟร์วอลล์ของ EC2 โดยอัตโนมัติซึ่งควบคุมการเข้าถึงเครือข่ายไปยังอินสแตนซ์ และเปิดใช้คลัสเตอร์ใน Amazon Virtual Private Cloud (VPC) การเข้ารหัสฝั่งเซิร์ฟเวอร์หรือการเข้ารหัสฝั่งลูกค้าสามารถใช้กับ AWS Key Management Service หรือคีย์ที่ลูกค้าเป็นผู้จัดการ EMR ทำให้ง่ายต่อการเปิดใช้งานตัวเลือกการเข้ารหัสอื่นๆ เช่น การเข้ารหัสระหว่างส่งผ่านและระหว่างพักเก็บ และการรับรองความถูกต้องด้วย Kerberos ที่แข็งแกร่ง คุณสามารถใช้ AWS Lake Formation หรือ Apache Ranger เพื่อปรับใช้การควบคุมสิทธิ์การเข้าถึงข้อมูลแบบละเอียดสำหรับฐานข้อมูล ตาราง และคอลัมน์

คล่องตัว

คุณสามารถควบคุมคลัสเตอร์ของคุณได้อย่างเต็มที่โดยมีสิทธิ์เข้าถึงระดับรากสำหรับทุกอินสแตนซ์ คุณสามารถเปิดใช้คลัสเตอร์ EMR ด้วย Amazon Linux AMI แบบกำหนดเองและติดตั้งแอปพลิเคชันเพิ่มเติมได้ง่ายๆ ด้วยวิธีบูตสแตร็ป EMR ช่วยให้คุณสามารถกำหนดค่าแอปพลิเคชันอีกครั้งบนคลัสเตอร์ที่ทำงานอยู่ในทันที โดยไม่ต้องเปิดใช้คลัสเตอร์อีกครั้ง นอกจากนี้ เมื่อใช้ Hadoop 3.0 คุณจะสามารถจัดเก็บการพึ่งพากันของไลบรารีในคอนเทนเนอร์ Docker และส่งไปพร้อมกับงานของคุณเพื่อลดความซับซ้อนของการพึ่งพากันของสภาพแวดล้อม

กรณีใช้งาน

แมชชีนเลิร์นนิ่ง

ใช้เครื่องมือแมชชีนเลิร์นนิ่งที่มีในตัวของ EMR รวมถึง Apache Spark MLlib, TensorFlow และ Apache MXNet สำหรับอัลกอริทึมแมชชีนเลิร์นนิ่งที่ปรับขนาดได้ และใช้ AMI แบบกำหนดเองและวิธีบูตสแตร็ปเพื่อเพิ่มไลบรารีและเครื่องมือที่คุณต้องการอย่างง่ายดาย เพื่อสร้างชุดเครื่องมือวิเคราะห์เชิงคาดการณ์ของคุณเอง

สกัด แปลง โหลด (ETL)

คุณสามารถนำ EMR ไปใช้ประมวลผลปริมาณงานแปลงข้อมูล (ETL) เช่น จัดเรียง รวบรวม และเชื่อมชุดข้อมูลขนาดใหญ่ได้อย่างรวดเร็วและมีประสิทธิภาพ

เรียนรู้ว่า Redfin ใช้คลัสเตอร์ EMR แบบชั่วคราวสำหรับ ETL ได้อย่างไร »

การวิเคราะห์คลิกสตรีม

วิเคราะห์ข้อมูลคลิกสตรีมจาก Amazon S3 โดยใช้ Apache Spark และ Apache Hive เพื่อแบ่งกลุ่มผู้ใช้ ทำความเข้าใจความชอบของผู้ใช้ และแสดงโฆษณาที่มีประสิทธิภาพมากขึ้น

การสตรีมแบบเรียลไทม์

วิเคราะห์เหตุการณ์จาก Apache Kafka, Amazon Kinesis หรือแหล่งข้อมูลการสตรีมแบบเรียลไทม์ด้วย Apache Spark Streaming และ Apache Flink เพื่อสร้างไปป์ไลน์ข้อมูลการสตรีมที่ใช้ระยะยาว พร้อมใช้งานสูง และทนต่อข้อผิดพลาดบน EMR รักษาชุดข้อมูลที่เปลี่ยนแล้วให้กับ S3 หรือ HDFS และข้อมูลเชิงลึกให้กับ Amazon Elasticsearch Service

เรียนรู้ว่า Hearst ใช้ Spark Streaming อย่างไร »

การวิเคราะห์เชิงโต้ตอบ

EMR Notebooks มอบสภาพแวดล้อมการวิเคราะห์ที่ได้รับการจัดการโดยขึ้นอยู่กับ Jupyter แบบโอเพนซอร์สที่ทำให้นักวิทยาศาสตร์ข้อมูล นักวิเคราะห์ และนักพัฒนาสามารถตระเตรียมและแสดงภาพข้อมูล ทำงานร่วมกันกับเพื่อนร่วมงาน สร้างแอพพลิเคชัน และทำการวิเคราะห์เชิงโต้ตอบได้

จีโนมิกส์

สามารถนำ EMR ไปใช้ประมวลผลข้อมูลจีโนมจำนวนมหาศาลและชุดข้อมูลทางวิทยาศาสตร์ขนาดใหญ่อื่นๆ ได้อย่างรวดเร็วและมีประสิทธิภาพ นักวิจัยสามารถเข้าถึงข้อมูลจีโนมที่โฮสต์ฟรีบน AWS

เรียนรู้เกี่ยวกับ Apache Spark และการแพทย์แบบแม่นยำ »

กรณีศึกษา

งานวิจัยของนักวิเคราะห์

เพิ่มเติม…

มีอะไรใหม่

วันที่
  • วันที่
1

เริ่มต้นใช้งาน AWS

อ่านคู่มือโยกย้าย EMR
อ่านคู่มือโยกย้าย

เรียนรู้วิธีการย้าย Big Data จากในองค์กรไปยัง AWS

เรียนรู้เพิ่มเติม 
ลงชื่อสมัครใช้บัญชี AWS ฟรี
ลงชื่อสมัครใช้บัญชีฟรี

รับสิทธิ์การเข้าถึง AWS Free Tier ได้ทันที 

ลงชื่อสมัครใช้งาน 
เริ่มต้นสร้างด้วย EMR ใน Console
เริ่มต้นสร้างใน Console

เริ่มต้นการสร้างด้วย Amazon EMR ในคอนโซล AWS

ลงชื่อเข้าใช้ 

ย้าย Big Data จากในองค์กรไปยัง AWS

แหล่งข้อมูลเพื่อช่วยคุณวางแผนการโยกย้าย

เรียนรู้เพิ่มเติมเกี่ยวกับ Big Data และการวิเคราะห์บน AWS

อ่านบล็อก AWS Big Data