Apache Spark เป็นโอเพนซอร์สระบบประมวลผลแบบกระจาย ซึ่งมักนำไปใช้สำหรับปริมาณงานBig Data Apache Spark ใช้การแคชในหน่วยความจำและการดำเนินการที่ดีที่สุดเพื่อให้มีประสิทธิภาพการทำงานที่รวดเร็ว และรองรับการประมวลผลแบบแบทช์ทั่วไป, การวิเคราะห์การสตรีม, Machine Learning ฐานข้อมูลแบบกราฟ และการสืบค้นข้อมูลแบบเฉพาะกิจ เรียนรู้เพิ่มเติมเกี่ยวกับ Apache Spark ที่นี่

Amazon EMR รองรับ Apache Spark และคุณสามารถสร้างคลัสเตอร์ Apache Spark ที่มีการจัดการได้อย่างง่ายดายและรวดเร็วจาก AWS Management Console, AWS CLI หรือ Amazon EMR API นอกจากนั้น คุณยังสามารถใช้ประโยชน์จากคุณสมบัติต่างๆ ของ Amazon EMR ได้อีกด้วย รวมถึงการเชื่อมต่อของ Amazon S3 ที่รวดเร็ว โดยใช้ Amazon EMR File System (EMRFS) ร่วมกับตลาดของ Amazon EC2 Spot และ AWS Glue Data Catalog และ Auto Scaling เพื่อเพิ่มหรือลบอินสแตนซ์จากคลัสเตอร์ของคุณ อีกทั้งคุณยังสามารถใช้ Apache Zeppelin เพื่อสร้างโน้ตบุ๊คเชิงโต้ตอบแบบทำงานร่วมกันสำหรับการสำรวจข้อมูลโดยใช้ Apache Spark และใช้เฟรมเวิร์ก Deep Learning เช่น Apache MXNet กับแอปพลิเคชัน Spark ของคุณได้

คุณสมบัติและประโยชน์

ประสิทธิภาพการทำงานที่รวดเร็ว

Apache Spark สามารถสร้างแผนการสืบค้นที่มีประสิทธิภาพสำหรับการแปลงข้อมูลได้โดยใช้เอนจิ้นดำเนินการแบบ Directed Acyclic Graph (DAG) นอกจากนั้น Apache Spark ยังสามารถจัดเก็บอินพุท เอาต์พุท และข้อมูลระดับกลางในหน่วยความจำเป็น Resilient Distributed Dataset (RDD) ซึ่งช่วยให้มีการประมวลผลที่รวดเร็วโดยไม่มีค่าบริการ I/O, การเพิ่มประสิทธิภาพของปริมาณงานที่ซ้ำหรือแบบโต้ตอบ

พัฒนาแอปพลิเคชันอย่างรวดเร็ว

Apache Spark รองรับ Java, Scala และ Python ซึ่งช่วยให้คุณมีรูปแบบภาษาต่างๆ มากมายสำหรับสรรค์สร้างแอปพลิเคชัน อีกทั้งคุณยังสามารถส่งการสืบค้น SQL หรือ HiveQL ไปยัง Apache Spark ได้โดยใช้โมดูล Spark SQL นอกจากการเปิดใช้แอปพลิเคชันแล้ว คุณยังสามารถใช้ Apache Spark API โต้ตอบกับ Python หรือ Scala ได้โดยตรงใน Apache Spark บนคลัสเตอร์ของคุณ คุณสามารถใช้ Zeppelin ในการสร้างโน้ตบุ๊คเชิงโต้ตอบแบบทำงานร่วมกันสำหรับการสำรวจข้อมูลและการแสดงข้อมูลด้วยภาพได้อีกด้วย นอกจากนั้น คุณสามารถปรับและแก้ไขปริมาณงานของคุณได้โดยใช้ประวัติแอปพลิเคชัน Spark ในคอนโซล Amazon EMR หรือ Spark UI แบบเนทีฟและเซิร์ฟเวอร์ประวัติบนคลัสเตอร์ของคุณ

สร้างเวิร์กโฟลว์ที่หลากหลาย

Apache Spark ประกอบด้วยไลบรารีต่างๆ มากมายเพื่อช่วยสร้างแอปพลิเคชันสำหรับ Machine Learning (MLlib), การประมวลผลสตรีม (Spark Streaming) และการประมวลผลกราฟ (GraphX) ไลบรารีเหล่านี้ผสานรวมกันอย่างใกล้ชิดในระบบนิเวศของ Apache Spark และสามารถนำไปใช้ได้ทันทีเพื่อรับมือกับกรณีใช้งานแบบต่างๆ นอกจากนั้น คุณสามารถใช้เฟรมเวิร์ก Deep Learning เช่น Apache MXNet กับแอปพลิเคชัน Spark ของคุณได้

การผสานการทำงานกับชุดคุณสมบัติ Amazon EMR

ส่งงาน Apache Spark ด้วย Amazon EMR Step API, ใช้ Apache Spark พร้อมกับ EMRFS เพื่อเข้าถึงข้อมูลโดยตรงใน Amazon S3, ประหยัดต้นทุนโดยใช้ความจุ Amazon EC2 Spot, ใช้ Auto Scaling พื่อเพิ่มและลบความจุแบบไดนามิก และเปิดใช้คลัสเตอร์แบบยาวนานหรือแบบชั่วคราวเพื่อให้เหมาะสมกับปริมาณงานของคุณ นอกจากนั้น คุณสามารถกำหนดค่าการเข้ารหัส Spark และการรับรองความถูกต้องด้วย Kerberos ได้อย่างง่ายดายโดยใช้การกำหนดค่าการรักษาความปลอดภัยของ Amazon EMR และคุณยังสามารถใช้ AWS Glue Data Catalog เพื่อจัดเก็บข้อมูลเมตาแบบตารางของ Spark SQL หรือใช้ Amazon SageMaker กับ Spark Machine Learning Pipeline ของคุณ Amazon EMR ติดตั้งและจัดการ Apache Spark บน Hadoop YARN และคุณสามารถเพิ่มแอปพลิเคชันระบบนิเวศของ Hadoop บนคลัสเตอร์ของคุณได้ คลิกที่นี่เพื่อดูรายละเอียดเพิ่มเติมเกี่ยวกับคุณสมบัติของ Amazon EMR

กรณีใช้งาน

การประมวลผลสตรีม

ใช้และประมวลผลข้อมูลเรียลไทม์จาก Amazon Kinesis, Apache Kafka หรือสตรีมข้อมูลอื่นๆ ด้วย Spark Streaming บน Amazon EMR ดำเนินการวิเคราะห์สตรีมมิ่งด้วยวิธีที่ทนทานต่อความผิดพลาดและเขียนผลลัพธ์ไปยัง Amazon S3 หรือ HDFS บนคลัสเตอร์

Machine Learning

Apache Spark บน Amazon EMR ได้รวม MLlib สำหรับอัลกอริทึม Machine Learning ที่ปรับขนาดได้แบบต่างๆ เอาไว้หรือคุณสามารถใช้ไลบรารีของคุณเองได้ การจัดเก็บชุดข้อมูลในหน่วยความจำระหว่างงาน ช่วยให้ Spark มีประสิทธิภาพการทำงานที่ยอดเยี่ยมสำหรับการสืบค้นซ้ำที่พบบ่อยในปริมาณงาน Machine Learning

SQL แบบอินเทอร์แอคทีฟ

ใช้ Spark SQL สำหรับการสืบค้นเชิงโต้ตอบที่มีเวลาแฝงต่ำด้วย SQL หรือ HiveQL Apache Spark บน Amazon EMR สามารถใช้ EMRFS ได้ ดังนั้นคุณจึงสามารถเข้าถึงชุดข้อมูลเฉพาะใน Amazon S3 ได้ นอกจากนั้น คุณยังสามารถใช้โน้ตบุ๊ค Zeppelin หรือเครื่องมือ BI ผ่านการเชื่อมต่อ ODBC และ JDBC ได้อีกด้วย

ความสำเร็จของลูกค้า

Yelp

ทีมกำหนดเป้าหมายโฆษณาของ Yelp สร้างรูปแบบการคาดการณ์ในการกำหนดความเป็นไปได้ของการโต้ตอบกับโฆษณาของผู้ใช้ Yelp มีรายได้เพิ่มขึ้นและมีอัตราการคลิกผ่านในการโฆษณาเพิ่มขึ้นโดยใช้ Apache Spark บน Amazon EMR ในการประมวลผลข้อมูลจำนวนมากเพื่อฝึกรูปแบบ Machine Learning

The Washington Post

Washington Post ใช้ Apache Spark บน Amazon EMR ในการสร้างรูปแบบที่ส่งเสริมเอนจิ้นการให้คำแนะนำบนเว็บไซต์เพื่อเพิ่มการมีส่วนร่วมและความพึงพอใจของผู้อ่าน พวกเขาใช้การเชื่อมต่อประสิทธิภาพสูงของ Amazon EMR กับ Amazon S3 เพื่ออัปเดตรูปแบบที่แทบจะเทียบได้กับแบบเรียลไทม์

Intent Media

Intent Media ปฏิบัติงานในด้านแพลตฟอร์มการโฆษณาบนเว็บไซต์การท่องเที่ยวเชิงพาณิชย์ ทีมงานฝ่ายข้อมูลใช้ Apache Spark และ MLlib บน Amazon EMR เพื่อนำเข้าข้อมูลอีคอมเมิร์ซขนาดเทราไบต์ในทุกๆ วันและใช้ข้อมูลนี้ในการส่งเสริมบริการด้านการตัดสินใจเพื่อเพิ่มรายได้ให้กับลูกค้า คลิกที่นี่เพื่อเรียนรู้เพิ่มเติม

200x100_Krux-Digital_Logo

Krux

ตามที่เป็นส่วนหนึ่งของแพลตฟอร์มการจัดการข้อมูลสำหรับข้อมูลเชิงลึกของลูกค้า Krux เปิดใช้งานหลาย Machine Learning และปริมาณงานการประมวลผลทั่วไปโดยใช้ Apache Spark Krux ใช้คลัสเตอร์ Amazon EMR แบบชั่วคราวกับ Amazon EC2 Spot Capacity เพื่อลดต้นทุน และใช้ Amazon S3 กับ EMRFS เป็นโครงสร้างข้อมูลสำหรับ Apache Spark

อ่านเพิ่มเติม »

200x100_GumGum_Logo

GumGum

GumGum ซึ่งเป็นแพลตฟอร์มการโฆษณาในภาพและในหน้าจอ ใช้ Spark บน Amazon EMR สำหรับการคาดการณ์สินค้าคงคลัง การประมวลผลบันทึกการคลิกสตรีม และการวิเคราะห์เฉพาะข้อมูลไร้โครงสร้างใน Amazon S3 การเพิ่มประสิทธิภาพการทำงานของ Spark ช่วย GumGum ประหยัดเวลาและเงินสำหรับเวิร์คโฟลว์เหล่านี้ได้

อ่านเพิ่มเติม »

200x100-hearst

Hearst Corporation

Hearst Corporation เป็นบริษัทสื่อและข้อมูลที่มีขนาดใหญ่ซึ่งมีลูกค้าที่ดูเนื้อหาบนเว็บไซต์กว่า 200 เว็บ ฝ่ายบรรณาธิการของ Hearst สามารถดูข้อมูลได้แบบเรียลไทม์เพื่อให้รู้ว่าบทความและรูปแบบไหนที่ได้รับความนิยม โดยใช้ Apache Spark Streaming บน Amazon EMR

อ่านเพิ่มเติม »

200x100_CrowdStrike_Logo

CrowdStrike

CrowdStrike มีระบบป้องกันปลายทางเพื่อไม่ให้เกิดการละเมิด พวกเขาใช้ Amazon EMR ที่มี Spark ในการประมวลผลข้อมูลเหตุการณ์กว่าร้อยเทราไบต์และรวบรวมลงในคำอธิบายลักษณะการทำงานระดับสูงกว่าบนโฮสต์ จากข้อมูลดังกล่าว CrowdStrike สามารถดึงข้อมูลเหตุการณ์เข้าไว้ด้วยกันและระบุการดำเนินการที่เป็นอันตราย

อ่านเพิ่มเติม »

เรียนรู้เพิ่มเติมเกี่ยวกับราคา Amazon EMR

ไปที่หน้าราคา
พร้อมสร้างหรือยัง
เริ่มต้นใช้งาน Amazon EMR
มีคำถามเพิ่มเติมหรือไม่
ติดต่อเรา