Amazon EMR

ใช้งานและปรับขนาด Apache Spark, Hive, Presto และเฟรมเวิร์ค Big Data อื่นๆ ได้อย่างง่ายดาย

Amazon EMR คือแพลตฟอร์มข้อมูลขนาดใหญ่บนระบบคลาวด์ระดับชั้นนำของอุตสาหกรรมสำหรับการประมวลผลข้อมูลจำนวนมหาศาลโดยใช้เครื่องมือโอเพนซอร์ส เช่น Apache Spark, Apache Hive, Apache HBase, Apache Flink, Apache Hudi และ Presto Amazon EMR ช่วยให้การตั้งค่า ใช้งาน และปรับขนาดสภาพแวดล้อมข้อมูลขนาดใหญ่สามารถทำได้ง่ายๆ โดยการสร้างระบบอัตโนมัติเพื่อจัดการกับงานต่างๆ ที่ต้องใช้เวลานาน เช่น การเตรียมความจุและการปรับจูนคลัสเตอร์ เมื่อใช้ EMR คุณสามารถเรียกใช้การวิเคราะห์ข้อมูลระดับเพตะไบต์โดยมีค่าใช้จ่ายถูกลงมากกว่าครึ่งเมื่อเทียบกับโซลูชันแบบดั้งเดิมในองค์กร และเร็วขึ้นกว่า 3 เท่าเมื่อเทียบกับ Apache Spark มาตรฐาน คุณสามารถเรียกใช้ปริมาณงานบน Amazon EC2 Instance, บนคลัสเตอร์ Amazon Elastic Kubernetes Service (EKS) หรือในองค์กรโดยใช้ EMR บน AWS Outposts

ค้นพบวิธีที่ Apache Hudi ช่วยลดความซับซ้อนของไปป์ไลน์สำหรับการรวบรวมข้อมูลการเปลี่ยนแปลง (CDC) และข้อบังคับด้านความเป็นส่วนตัว

บทแนะนำเบื้องต้นเกี่ยวกับ Amazon EMR (3:00)

ประโยชน์

ใช้งานง่าย

คุณสามารถใช้ EMR Studio ซึ่งเป็นสภาพแวดล้อมการพัฒนาแบบผสานรวม (IDE) เพื่อการพัฒนา แสดงภาพ และแก้จุดบกพร่องของแอปพลิเคชันด้านวิศวกรรมข้อมูลและวิทยาศาสตร์ข้อมูลที่เขียนด้วยภาษา R, Python, Scala และ PySpark ได้อย่างง่ายดาย EMR Studio ใช้ AWS Single Sign-On และให้คุณเข้าสู่ระบบได้โดยตรงด้วยข้อมูลประจำตัวของบริษัทของคุณ ซึ่งให้ Jupyter Notebook ที่มีการจัดการเต็มรูปแบบและการทำงานร่วมกันกับเพื่อนร่วมงานโดยใช้คลังเก็บโค้ด เช่น GitHub และ BitBucket

ต้นทุนต่ำ

การกำหนดราคาของ EMR เป็นเรื่องง่ายและคาดเดาได้ โดยคุณต้องจ่ายเป็นอัตราอินสแตนซ์สำหรับทุกวินาทีที่ใช้งาน ซึ่งคิดค่าบริการขั้นต่ำ 1 นาที คุณสามารถเปิดใช้คลัสเตอร์ EMR แบบ 10 โหนดได้ในราคาเพียง 0.15 USD ต่อชั่วโมง คุณสามารถประหยัดค่าใช้จ่ายสำหรับอินสแตนซ์ได้อีก 50-80% โดยการเลือก Amazon EC2 Spot สำหรับปริมาณงานชั่วคราว และเลือกอินสแตนซ์แบบเหมาจ่ายสำหรับปริมาณงานระยะยาว นอกจากนี้คุณยังสามารถใช้ Savings Plans ได้อีกด้วย

ยืดหยุ่น

EMR แยกการประมวลผลและพื้นที่จัดเก็บข้อมูลออกจากกัน คุณจึงสามารถปรับขนาดแต่ละรายการอย่างอิสระและใช้ประโยชน์จากพื้นที่จัดเก็บข้อมูลแบบมีระดับชั้นของ Amazon S3 ได้ ซึ่งต่างจากโครงสร้างพื้นฐานที่ไม่ยืดหยุ่นของคลัสเตอร์ในองค์กร เมื่อใช้ EMR คุณสามารถจัดเตรียมอินสแตนซ์การประมวลผลหรือคอนเทนเนอร์ไม่ว่าจะหนึ่ง หลายร้อย หรือหลายพันรายการเพื่อประมวลผลข้อมูลได้ในทุกระดับ จำนวนของอินสแตนซ์สามารถเพิ่มหรือลดโดยอัตโนมัติได้ด้วยการใช้ Auto Scaling (ซึ่งจะจัดการขนาดของคลัสเตอร์ตามการใช้งาน) และระบบจะเรียกเก็บค่าบริการเฉพาะส่วนที่คุณใช้เท่านั้น

น่าเชื่อถือ

ใช้เวลาน้อยลงเพื่อปรับแต่งและเฝ้าติดตามคลัสเตอร์ EMR ได้รับการปรับจูนมาแล้วสำหรับระบบคลาวด์และจะคอยตรวจสอบคลัสเตอร์ของคุณอย่างสม่ำเสมอ ลองทำงานที่ล้มเหลวซ้ำอีกครั้ง และแทนที่อินสแตนซ์ที่มีประสิทธิภาพต่ำโดยอัตโนมัติ คลัสเตอร์มีความพร้อมใช้งานสูงและจะเปลี่ยนระบบโดยอัตโนมัติในกรณีที่โหนดล้มเหลว EMR จะดูแลซอฟต์แวร์โอเพนซอร์สให้เป็นเวอร์ชันล่าสุด คุณจึงไม่ต้องจัดการกับการอัปเดตและการแก้ไขจุดบกพร่อง ซึ่งช่วยให้มีปัญหาน้อยลงรวมถึงลดความยากลำบากในการรักษาสภาพแวดล้อมของคุณ

ปลอดภัย

EMR จะกำหนดการตั้งค่าไฟร์วอลล์ของ EC2 โดยอัตโนมัติ ซึ่งควบคุมการเข้าถึงของเครือข่ายไปยังอินสแตนซ์ และเปิดใช้คลัสเตอร์ใน Amazon Virtual Private Cloud (VPC) การเข้ารหัสฝั่งเซิร์ฟเวอร์หรือการเข้ารหัสฝั่งไคลเอนต์สามารถใช้กับ AWS Key Management Service หรือคีย์ที่ลูกค้าเป็นผู้จัดการได้ EMR ทำให้ง่ายต่อการเปิดใช้งานตัวเลือกการเข้ารหัสอื่นๆ เช่น การเข้ารหัสระหว่างส่งผ่านและระหว่างพักเก็บ และการรับรองความถูกต้องด้วย Kerberos ที่แข็งแกร่ง คุณสามารถใช้ AWS Lake Formation หรือ Apache Ranger เพื่อปรับใช้การควบคุมสิทธิ์การเข้าถึงข้อมูลแบบละเอียดสำหรับฐานข้อมูล ตาราง และคอลัมน์

ยืดหยุ่น

คุณสามารถควบคุมคลัสเตอร์ EMR และงาน EMR แต่ละงานได้โดยสมบูรณ์ คุณสามารถเปิดใช้งานคลัสเตอร์ EMR ด้วย Amazon Linux AMI แบบกำหนดเอง และกำหนดค่าคลัสเตอร์ได้อย่างง่ายดายโดยใช้สคริปต์เพื่อติดตั้งแพ็กเกจซอฟต์แวร์ของบริษัทอื่นเพิ่มเติม EMR ช่วยให้คุณกำหนดค่าแอปพลิเคชันอีกครั้งบนคลัสเตอร์ที่ทำงานอยู่ได้ทันทีโดยไม่ต้องเปิดใช้คลัสเตอร์อีกครั้ง นอกจากนี้ คุณยังสามารถกำหนดสภาพแวดล้อมการใช้งานให้กับแต่ละงานได้เองโดยการระบุไลบรารีและการขึ้นต่อกันของรันไทม์ลงในคอนเทนเนอร์ Docker แล้วส่งไปพร้อมกับงานของคุณ

ตัวเลือกการปรับใช้

Amazon EMR บน Amazon EC2

คุณสามารถปรับใช้ EMR บน Amazon EC2 แล้วใช้ประโยชน์จากอินสแตนซ์แบบตามความต้องการ แบบเหมาจ่าย และแบบสปอต EMR จะดูแลเรื่องการจัดเตรียม การจัดการ และการปรับขนาดของ EC2 instance AWS มีอินสแตนซ์ให้เลือกมากกว่าผู้ให้บริการระบบคลาวด์ทุกราย คุณจึงสามารถเลือกอินสแตนซ์ที่มีประสิทธิภาพที่สุดหรือคุ้มค่าที่สุดให้กับปริมาณของคุณ

เรียนรู้เพิ่มเติม »

Amazon EMR บน Amazon EKS

คุณสามารถใช้ EMR เพื่อเรียกใช้งาน Apache Spark ได้ตามความต้องการบน Amazon Elastic Kubernetes Service (EKS) โดยไม่จำเป็นต้องเตรียมคลัสเตอร์ EMR ซึ่งช่วยปรับปรุงการใช้งานทรัพยากรและลดความซับซ้อนให้กับการจัดการโครงสร้างพื้นฐาน Amazon EKS มอบความยืดหยุ่นให้คุณในการเริ่มต้น เรียกใช้งาน และปรับขนาดแอปพลิเคชัน Kubernetes ทั้งบน AWS Cloud และในองค์กร เมื่อใช้ Amazon EMR บน EKS คุณสามารถแชร์ทรัพยากรการประมวลผลและหน่วยความจำระหว่างแอปพลิเคชันทั้งหมด และใช้เครื่องมือ Kubernetes เพียงชุดเดียวเพื่อตรวจสอบและจัดการโครงสร้างพื้นฐานได้จากส่วนกลาง

เรียนรู้เพิ่มเติม »

Amazon EMR บน AWS Outposts

Amazon EMR พร้อมใช้งานบน AWS Outposts ซึ่งช่วยให้คุณสามารถตั้งค่า ปรับใช้ จัดการ และปรับขนาด EMR ในสภาพแวดล้อมในองค์กรของคุณได้แบบเดียวกับที่คุณจะทำบนระบบคลาวด์ AWS Outposts นำบริการ โครงสร้างพื้นฐาน และโมเดลการปฏิบัติงานของ AWS ไปใช้กับศูนย์ข้อมูล พื้นที่รับฝากเซิร์ฟเวอร์ หรือสถานที่ในองค์กรได้ทุกแห่ง

เรียนรู้เพิ่มเติม »

กรณีการใช้งาน

แมชชีนเลิร์นนิ่ง

ใช้เครื่องมือแมชชีนเลิร์นนิ่งที่มีในตัวของ EMR ซึ่งรวมถึง Apache Spark MLlib, TensorFlow และ Apache MXNet สำหรับอัลกอริทึมแมชชีนเลิร์นนิ่งที่ปรับขนาดได้ และใช้ AMI แบบกำหนดเองและวิธีบูตสแตร็ปเพื่อเพิ่มไลบรารีและเครื่องมือที่คุณต้องการอย่างง่ายดายเพื่อสร้างชุดเครื่องมือการวิเคราะห์เชิงคาดการณ์ของคุณเอง

แยก แปลง โหลด (ETL)

คุณสามารถนำ EMR ไปใช้ประมวลผลปริมาณงานด้านการแปลงข้อมูล (ETL) เช่น จัดเรียง รวบรวม และเชื่อมชุดข้อมูลขนาดใหญ่ได้อย่างรวดเร็วและคุ้มค่า

เรียนรู้ว่า Redfin ใช้คลัสเตอร์ EMR แบบชั่วคราวสำหรับ ETL ได้อย่างไร »

การวิเคราะห์คลิกสตรีม

วิเคราะห์ข้อมูลคลิกสตรีมจาก Amazon S3 โดยใช้ Apache Spark และ Apache Hive เพื่อแบ่งกลุ่มผู้ใช้ ทำความเข้าใจความชอบของผู้ใช้ และแสดงโฆษณาที่มีประสิทธิภาพมากขึ้น

การสตรีมแบบเรียลไทม์

วิเคราะห์เหตุการณ์จาก Apache Kafka, Amazon Kinesis หรือแหล่งข้อมูลการสตรีมแบบเรียลไทม์ด้วย Apache Spark Streaming และ Apache Flink เพื่อสร้างไปป์ไลน์ข้อมูลการสตรีมที่ใช้ระยะยาว พร้อมใช้งานสูง และทนต่อข้อผิดพลาดบน EMR รักษาชุดข้อมูลที่เปลี่ยนแล้วให้กับ S3 หรือ HDFS และข้อมูลเชิงลึกให้กับ Amazon Elasticsearch Service

เรียนรู้ว่า Hearst ใช้ Spark Streaming อย่างไร »

การวิเคราะห์เชิงโต้ตอบ

EMR Notebooks มอบสภาพแวดล้อมการวิเคราะห์ที่ได้รับการจัดการโดยขึ้นอยู่กับ Jupyter แบบโอเพนซอร์สที่ทำให้นักวิทยาศาสตร์ข้อมูล นักวิเคราะห์ และนักพัฒนาสามารถตระเตรียมและแสดงภาพข้อมูล ทำงานร่วมกันกับเพื่อนร่วมงาน สร้างแอพพลิเคชัน และทำการวิเคราะห์เชิงโต้ตอบได้

จีโนมิกส์

สามารถนำ EMR ไปใช้ประมวลผลข้อมูลจีโนมจำนวนมหาศาลและชุดข้อมูลทางวิทยาศาสตร์ขนาดใหญ่อื่นๆ ได้อย่างรวดเร็วและมีประสิทธิภาพ นักวิจัยสามารถเข้าถึงข้อมูลจีโนมที่โฮสต์ฟรีบน AWS

เรียนรู้เกี่ยวกับ Apache Spark และการแพทย์แบบแม่นยำ »

กรณีศึกษา

งานวิจัยของนักวิเคราะห์

เพิ่มเติม…

มีอะไรใหม่

วันที่
  • วันที่
1

เริ่มต้นใช้งาน AWS

อ่านคู่มือโยกย้าย EMR
อ่านคู่มือโยกย้าย

เรียนรู้วิธีการย้าย Big Data จากในองค์กรไปยัง AWS

เรียนรู้เพิ่มเติม 
ลงชื่อสมัครใช้บัญชี AWS ฟรี
ลงชื่อสมัครใช้บัญชีฟรี

รับสิทธิ์การเข้าถึง AWS Free Tier ได้ทันที 

ลงชื่อสมัครใช้งาน 
เริ่มต้นสร้างด้วย EMR ใน Console
เริ่มต้นสร้างใน Console

เริ่มต้นการสร้างด้วย Amazon EMR ในคอนโซล AWS

ลงชื่อเข้าใช้ 

ย้าย Big Data จากในองค์กรไปยัง AWS

แหล่งข้อมูลเพื่อช่วยคุณวางแผนการโยกย้าย

เรียนรู้เพิ่มเติมเกี่ยวกับ Big Data และการวิเคราะห์บน AWS

อ่านบล็อก AWS Big Data