ใช้ Apache Spark บน Amazon EMR Serverless โดยตรงจาก Amazon SageMaker Studio

โพสต์บน: 4 ก.ย. 2024

ตอนนี้คุณสามารถเรียกใช้การวิเคราะห์ข้อมูลระดับเพตะไบต์และแมชชีนเลิร์นนิงบน Amazon EMR Serverless ได้โดยตรงจากโน้ตบุ๊กสตูดิโอ Amazon SageMaker EMR Serverless จัดเตรียมและปรับขนาดทรัพยากรที่จำเป็นโดยอัตโนมัติ ซึ่งจะช่วยให้คุณสามารถมุ่งเน้นไปที่ข้อมูลและโมเดลของตนเองได้โดยไม่ต้องกำหนดค่า เพิ่มประสิทธิภาพ ปรับแต่ง หรือจัดการคลัสเตอร์ EMR Serverless จะติดตั้งและกำหนดค่าเฟรมเวิร์กโอเพนซอร์สโดยอัตโนมัติ และจัดเตรียมรันไทม์ที่ปรับประสิทธิภาพให้เหมาะสม ซึ่งเข้ากันได้และเร็วกว่าโอเพนซอร์สมาตรฐาน

การเปิดตัวครั้งนี้ทำให้ตอนนี้คุณสามารถสร้างและเรียกดูแอปพลิเคชัน EMR Serverless ด้วยภาพโดยตรงจาก SageMaker Studio และเชื่อมต่อกับแอปพลิเคชันเหล่านั้นได้ในไม่กี่คลิกง่ายๆ เมื่อเชื่อมต่อกับแอปพลิเคชัน EMR Serverless แล้ว คุณจะสามารถใช้ Spark SQL, Scala, Python เพื่อสืบค้นแบบโต้ตอบ สำรวจและแสดงภาพข้อมูล รวมถึงเรียกใช้งาน Apache Spark เพื่อประมวลผลข้อมูลโดยตรงจากโน้ตบุ๊กสตูดิโอ งานดำเนินไปได้อย่างรวดเร็วเนื่องจากใช้ Spark เวอร์ชันปรับปรุงประสิทธิภาพของ EMR ตัวอย่างเช่น Spark บน EMR 7.1 เร็วกว่าโอเพนซอร์สที่เทียบเท่าถึง 4.5 เท่า EMR Serverless นำเสนอการปรับขนาดอัตโนมัติแบบละเอียด ซึ่งจะจัดเตรียมและปรับขนาดทรัพยากรการประมวลผลและหน่วยความจำอย่างรวดเร็วเพื่อให้ตรงกับข้อกำหนดของแอปพลิเคชันของคุณ และคุณจะจ่ายเฉพาะส่วนที่คุณใช้เท่านั้น

ฟีเจอร์เหล่านี้รองรับบนการกระจาย SageMaker 1.10 ขึ้นไป และโดยทั่วไปจะพร้อมใช้งานในทุก AWS Region ที่ SageMaker Studio ใช้งานได้ หากต้องการเรียนรู้เพิ่มเติม โปรดอ่านบล็อกใช้ LangChain กับ PySpark สำหรับการประมวลผลเอกสารในปริมาณมหาศาลด้วย Amazon SageMaker Studio และ EMR Serverless หรือเอกสารประกอบ SageMaker Studio ที่นี่