Amazon EMR

ใช้งานและปรับขนาด Apache Spark, Hadoop, HBase, Presto, Hive และเฟรมเวิร์ค Big Data อื่นๆ ได้อย่างง่ายดาย

Amazon EMR คือแพลตฟอร์ม Big data แบบ Cloud-native ชั้นนำในอุตสาหกรรม ซึ่งทำให้ทีมสามารถประมวลผลข้อมูลจำนวนมหาศาลได้อย่างรวดเร็วและประหยัดคุ้มค่าได้ในทุกระดับ EMR มอบกลไกและความยืดหยุ่นให้แก่ทีมวิเคราะห์ในการเรียกใช้การวิเคราะห์ระดับเพตะไบต์ด้วยต้นทุนเพียงเล็กน้อยเมื่อเทียบกับคลัสเตอร์ในองค์กรแบบดั้งเดิม โดยใช้เครื่องมือโอเพนซอร์สต่างๆ อาทิ Apache Spark, Apache Hive, Apache HBase, Apache Flink และ Presto เชื่อมโยงกับความสามารถในการปรับขนาดแบบไดนามิกของ Amazon EC2 และพื้นที่จัดเก็บที่ปรับขนาดได้ของ Amazon S3 นักพัฒนาและนักวิเคราะห์สามารถใช้ EMR Notebooks บนระบบ Jupyter สำหรับการพัฒนาการทำซ้ำ การทำงานร่วมกัน และการเข้าถึงข้อมูลที่จัดเก็บทั่วทั้งผลิตภัณฑ์ข้อมูล AWS เช่น Amazon S3, Amazon DynamoDB และ Amazon Redshift เพื่อลดเวลาในการเจาะข้อมูลเชิงลึกและดำเนินการเชิงวิเคราะห์ได้อย่างรวดเร็ว

ลูกค้าทั่วทั้งอุตสาหกรรมแนวตั้งใช้ EMR เพื่อจัดการกรณีใช้งานชุด Big data แบบกว้างอย่างปลอดภัยและน่าเชื่อถือ รวมถึงแมชชีนเลิร์นนิ่ง, การแปลงข้อมูล (ETL), การจำลองทางวิทยาศาสตร์และทางการเงิน, ชีวสารสนเทศ, การวิเคราะห์บันทึก, และการเรียนรู้เชิงลึก EMR มอบความยืดหยุ่นให้แก่ทีมในการเรียกใช้กรณีใช้งานบนคลัสเตอร์ระยะสั้นแบบจุดประสงค์เดียวที่ปรับขนาดโดยอัตโนมัติเพื่อตอบสนองความต้องการ หรือบนคลัสเตอร์ระยะยาวพร้อมใช้งานสูงโดยใช้โหมดติดตั้งใช้จริงหลายต้นแบบโหมดใหม่ 

บทแนะนำเบื้องต้นเกี่ยวกับ Amazon EMR (3:00)

ประโยชน์

ใช้งานง่าย

EMR เปิดใช้คลัสเตอร์ในไม่กี่นาที คุณไม่จำเป็นต้องกังวลเรื่องการจัดหาโหนด การตั้งค่าโครงสร้างพื้นฐาน การกำหนดค่า Hadoop หรือการปรับแต่งคลัสเตอร์ EMR ทำงานเหล่านี้ให้เพื่อให้คุณสามารถมุ่งเน้นไปที่การวิเคราะห์ นักวิเคราะห์ วิศวกรข้อมูล และนักวิทยาศาสตร์ดาต้าสามารถเปิดใช้โน้ตบุ๊ค Jupyter แบบไร้เซิร์ฟเวอร์ได้ในไม่กี่วินาทีโดยใช้ EMR Notebooks ซึ่งทำให้บุคคลและทีมสามารถทำงานร่วมกันและสำรวจ ประมวลผล และแสดงภาพข้อมูลอย่างต่อเนื่องได้ในรูปแบบโน้ตบุ๊คที่ใช้งานง่าย

ต้นทุนต่ำ

การกำหนดราคาของ EMR เป็นเรื่องง่ายและคาดเดาได้ โดยคุณต้องจ่ายเป็นอัตราอินสแตนซ์สำหรับทุกวินาทีที่ใช้งาน ซึ่งคิดค่าบริการขั้นต่ำ 1 นาที คุณสามารถเปิดใช้คลัสเตอร์ EMR แบบ 10 โหนดกับแอปพลิเคชันเช่น Apache Spark และ Apache Hive ได้ โดยจ่ายเพียง 0.15 USD ต่อชั่วโมงเท่านั้น คุณสามารถประหยัดค่าใช้จ่ายในส่วนอินสแตนซ์พื้นฐานได้ถึง 50-80% เพราะ EMR รองรับ Amazon EC2 Spot และอินสแตนซ์แบบเหมาจ่ายแบบเนทีฟ

Elastic

คุณสามารถจัดเตรียมอินสแตนซ์การประมวลผลหนึ่ง หลายร้อย หรือหลายพันอินสแตนซ์เพื่อประมวลผลข้อมูลในทุกระดับได้ด้วย EMR จำนวนของอินสแตนซ์สามารถเพิ่มขึ้นหรือลดลงด้วยมือบุคคลหรือโดยอัตโนมัติโดยการใช้ Auto Scaling (ที่จัดการขนาดของคลัสเตอร์โดยขึ้นอยู่กับการใช้งาน) และคุณชำระค่าบริการเฉพาะส่วนที่คุณใช้เท่านั้น ต่างจากโครงสร้างพื้นฐานที่เข้มงวดของคลัสเตอร์ในองค์กร EMR แยกการคำนวณและพื้นที่จัดเก็บข้อมูลที่ใช้งานอย่างต่อเนื่อง มอบความสามารถในการวัดระดับทั้งสองได้อย่างอิสระให้แก่คุณ

น่าเชื่อถือ

ใช้เวลาน้อยลงเพื่อปรับแต่งและเฝ้าติดตามคลัสเตอร์ EMR มีการปรับแต่งแล้วสำหรับระบบคลาวด์ และยังช่วยเฝ้าติดตามคลัสเตอร์ของคุณ ลองงานที่ล้มเหลวซ้ำอีกครั้ง และแทนที่อินสแตนซ์ที่มีประสิทธิภาพต่ำโดยอัตโนมัติ EMR ช่วยมอบรุ่นของซอฟต์แวร์แบบโอเพนซอร์สที่มีความเสถียรรุ่นล่าสุด ดังนั้นคุณจึงไม่จำเป็นต้องจัดการอัปเดทและการแก้ไขข้อผิดพลาด โดยนำไปสู่ปัญหาที่น้อยลงและลดความพยายามในการรักษาสภาพแวดล้อมเอาไว้ คลัสเตอร์มีความพร้อมใช้งานสูงและเปลี่ยนระบบโดยอัตโนมัติในกรณีที่โหนดตัวหนึ่งทำงานล้มเหลว ด้วยโหนดต้นแบบหลายโหนด

ปลอดภัย

EMR กำหนดการตั้งค่าไฟร์วอลล์ของ EC2 โดยอัตโนมัติซึ่งควบคุมการเข้าถึงเครือข่ายไปยังอินสแตนซ์ และเปิดใช้คลัสเตอร์ใน Amazon Virtual Private Cloud (VPC) ซึ่งเป็นเครือข่ายแยกตามเหตุผลที่คุณกำหนด สำหรับอ็อบเจ็กต์ที่จัดเก็บใน S3 การเข้ารหัสฝั่งเซิร์ฟเวอร์ หรือการเข้ารหัสฝั่งลูกค้าสามารถใช้กับ EMRFS (อ็อบเจ็กต์ที่จัดเก็บสำหรับ Hadoop บน S3) โดยใช้ AWS Key Management Service หรือคีย์ที่ลูกค้าเป็นผู้จัดการ EMR ทำให้ง่ายต่อการเปิดใช้งานตัวเลือกการเข้ารหัสอื่นๆ เช่น การเข้ารหัสระหว่างส่งผ่านและระหว่างพักเก็บ และการรับรอบความถูกต้องด้วย Kerberos ที่แข็งแกร่ง

ยืดหยุ่น

คุณสามารถควบคุมคลัสเตอร์ของคุณได้อย่างสมบูรณ์ คุณสามารถเข้าถึงสิทธิ์จัดการไฟล์ระบบได้ทุกอินสแตนซ์ สามารถติดตั้งแอปพลิเคชันเพิ่มเติมได้อย่างง่ายดาย และสามารถปรับแต่งทุกคลัสเตอร์ด้วยวิธีบูตสแตร็ป คุณยังสามารถเปิดใช้คลัสเตอร์ EMR ด้วย Amazon Linux AMIs ที่กำหนดเอง และกำหนดค่าคลัสเตอร์ที่กำลังเรียกใช้อยู่อีกครั้งได้ทันทีโดยไม่ต้องเรียกใช้คลัสเตอร์ใหม่

กรณีใช้งาน

Machine learning

ใช้เครื่องมือแมชชีนเลิร์นนิ่งที่มีในตัวของ EMR รวมถึง Apache Spark MLlib, TensorFlow และ Apache MXNet สำหรับอัลกอริทึมแมชชีนเลิร์นนิ่งที่ปรับขนาดได้ และใช้ AMI แบบกำหนดเองและวิธีบูตสแตร็ปเพื่อเพิ่มไลบรารีและเครื่องมือที่คุณต้องการ เพื่อสร้างชุดเครื่องมือวิเคราะห์เชิงคาดการณ์ของคุณเอง

เรียนรู้ว่า Intent Media ใช้ Spark MLib ได้อย่างไร »

Extract Transform Load (ETL)

คุณสามารถนำ EMR ไปใช้ประมวลผลข้อมูลจีโนมจำนวนมหาศาลและชุดข้อมูลทางวิทยาศาสตร์ขนาดใหญ่อื่นๆ ได้อย่างรวดเร็วและมีประสิทธิภาพ

เรียนรู้ว่า Redfin ใช้คลัสเตอร์ EMR แบบชั่วคราวสำหรับ ETL ได้อย่างไร »

การวิเคราะห์คลิกสตรีม

วิเคราะห์ข้อมูลคลิกสตรีมจาก Amazon S3 โดยใช้ Apache Spark และ Apache Hive เพื่อแบ่งกลุ่มผู้ใช้ ทำความเข้าใจความชอบของผู้ใช้ และแสดงโฆษณาที่มีประสิทธิภาพมากขึ้น

เรียนรู้ว่า Razorfish ใช้ EMR วิเคราะห์สตรีมคลิกได้อย่างไร »

การสตรีมแบบเรียลไทม์

วิเคราะห์เหตุการณ์จาก Apache Kafka, Amazon Kinesis หรือแหล่งข้อมูลการสตรีมแบบเรียลไทม์ด้วย Apache Spark Streaming และ EMR เพื่อสร้างไปป์ไลน์ข้อมูลการสตรีมที่ใช้ระยะยาว พร้อมใช้งานสูง และทนต่อข้อผิดพลาด รักษาชุดข้อมูลที่เปลี่ยนแล้วให้กับ Amazon S3 หรือ HDFS และข้อมูลเชิงลึกให้กับ Amazon Elasticsearch

เรียนรู้ว่า Hearst ใช้ Spark Streaming ได้อย่างไร »

การวิเคราะห์เชิงโต้ตอบ

EMR Notebooks มอบสภาพแวดล้อมการวิเคราะห์ที่ได้รับการจัดการโดยขึ้นอยู่กับ Jupyter แบบโอเพนซอร์สที่ทำให้นักวิทยาศาสตร์ดาต้า นักวิเคราะห์ และนักพัฒนาสามารถตระเตรียมและแสดงภาพข้อมูล, ทำงานร่วมกันกับเพื่อนร่วมงาน, สร้างแอพพลิเคชัน และทำการวิเคราะห์เชิงโต้ตอบได้

จีโนมิกส์

สามารถนำ EMR ไปใช้ประมวลผลข้อมูลจีโนมจำนวนมหาศาลและชุดข้อมูลทางวิทยาศาสตร์ขนาดใหญ่อื่นๆ ได้อย่างรวดเร็วและมีประสิทธิภาพ นักวิจัยสามารถเข้าถึงข้อมูลจีโนมที่โฮสต์ฟรีบน AWS

เรียนรู้เกี่ยวกับ Apache Spark และการแพทย์แบบแม่นยำ »

กรณีศึกษา

งานวิจัยของนักวิเคราะห์

1

เริ่มต้นใช้งาน AWS

Step 1 - Sign up for an AWS account

ลงชื่อสมัครใช้งานบัญชี AWS

รับสิทธิ์การเข้าถึง AWS Free Tier ได้ทันที
icon2

เรียนรู้จากบทแนะนำสอนการใช้งาน 10 นาที

สำรวจและเรียนรู้จาก บทแนะนำสอนการใช้งานอย่างง่ายๆ
icon3

เริ่มต้นสร้างด้วย AWS

เริ่มสร้างด้วยคำแนะนำแบบทีละขั้นตอนเพื่อช่วยในการเปิดใช้ โปรเจกต์ AWS ของคุณ

ย้าย Big Data จากในองค์กรไปยัง AWS

อ่านคู่มือย้ายข้อมูล Amazon EMR ขอรับเวิร์กช็อปการย้ายข้อมูล Amazon EMR นอกสถานที่

เรียนรู้เพิ่มเติมเกี่ยวกับ Big Data on AWS

เยี่ยมชมบล็อก Big Data