انتقل إلى المحتوى الرئيسي

Amazon EMR

Amazon EMR

يمكنك تشغيل وتوسيع نطاق Apache Spark وTrino وأعباء عمل البيانات الكبيرة الأخرى بسهولة

لماذا Amazon EMR؟

تُعد Amazon EMR خدمة لمعالجة البيانات الضخمة تساعد على تسريع أعباء عمل التحليل بفضل مرونتها الفائقة وقدرتها العالية على التوسّع. توفّر EMR بيئات تشغيل عالية الأداء لـ Apache Spark وTrino وApache Flink وApache Hive، ما يساهم في تقليص التكاليف ومدة المعالجة بشكل ملحوظ. تتكامل الخدمة بشكل سلس مع AWS، مما يسهل عمليات سير عمل مستودع البيانات المركزي وبنيات المؤسسات الواسعة النطاق. بفضل ميزة التحجيم التلقائي المُدمَجة، والمراقبة الذكية، والبنية التحتية المُدارة، تتيح لك EMR التركيز على استخلاص الرؤى، دون الحاجة إلى إدارة المجموعات، مما يوفر تحليلات على نطاق البيتابايت بكفاءة وبدون الأعباء التشغيلية للحلول التقليدية.

Missing alt text value

خيارات النشر المرنة

ما سبب أهمية EMR بلا خادم؟

تُسهل Amazon EMR بلا خادم على محللي البيانات والمهندسين تشغيل أطر تحليلات البيانات الضخمة مفتوحة المصدر مثل Apache Spark دون تكوين المجموعات أو الخوادم وإدارتها وتوسيع نطاقها.  EMR بلا خادم هي أسرع طريقة لبدء استخدام جميع ميزات وفوائد Amazon EMR دون الحاجة إلى خبراء لتخطيط المجموعات وإدارتها.  

EMR بلا خادم

ما سبب أهمية Amazon EMR on Amazon EC2؟

توفر Amazon EMR on Amazon EC2 التحكم في تكوين المجموعة وتدعم المجموعات طويلة المدى، مما يجعلها مثالية للمهام المستمرة الخاصة بمعالجة البيانات والتي تتطلب إعدادات أجهزة محددة. يمكنك تثبيت تطبيقات مخصصة إلى جانب أطر العمل الشائعة مثل Apache Spark وTrino، مع تقديم مجموعة واسعة من أنواع مثيلات EC2 لتحسين التكلفة والأداء. يُعد التكامل مع خدمات AWS الأخرى وإمكانية استخدام مثيلات Spot حلًا فعالًا من حيث التكلفة للمؤسسات التي تحتاج إلى تحكم دقيق في عمليات البيانات الضخمة لديها.

ما سبب أهمية Amazon EMR on Amazon EKS؟

تتيح لك Amazon EMR على Amazon Elastic Kubernetes Service‏ (EKS) تقديم مهام Apache Spark عند الطلب على EKS دون الحاجة إلى توفير مجموعات EMR. باستخدام EMR على EKS، يمكنك تشغيل أعباء عملك التحليلية على نفس مجموعة Amazon EKS مثل التطبيقات الأخرى المستندة إلى Kubernetes لتحسين استخدام الموارد وتبسيط إدارة البنية التحتية.  

Amazon EMR on Amazon EKS

معالجة بياناتك باستخدام Amazon EMR في الجيل التالي من Amazon SageMaker

أصبحت Amazon EMR متاحةً في الجيل الجديد من Amazon SageMaker، مما يتيح لك تشغيل Apache Spark وTrino وغيرها من أطر التحليلات مفتوحة المصدر بسلاسة ضمن بيئة موحدة لتطوير البيانات والذكاء الاصطناعي.

تعرّف على المزيد.

Missing alt text value

الفوائد

توفر Amazon EMR مزيجًا من Apache Spark عالي الأداء لمعالجة أسرع وبتكلفة أقل، مع القدرة على اختيار أنواع المثيلات بما في ذلك مثيلات Spot، إضافة إلى التحجيم التلقائي المُدار الذي يضبط حجم المجموعة بشكل ديناميكي، ما يقلل من الهدر ويخفض التكاليف الكلية.

تقدّم Amazon EMR أداءً أعلى بما يصل إلى 3.9 مرات مقارنةً بـ Apache Spark مفتوح المصدر، مع الحفاظ على التوافق مع واجهة برمجة التطبيقات (API). إنها تُمكِّن العملاء من نشر أطر مفتوحة المصدر من اختيارهم - Apache Spark أو Trino أو Apache Flink أو Apache Hive. توفر EMR دعمًا لتنسيقات الجداول مفتوحة المصدر مثل Iceberg وHudi وDelta، مما يساعد في تسريع الوصول إلى الرؤى.

تتيح EMR مرونة في خيارات النشر، بما يشمل EMR بلا خادم للمعالجة المُدارة بالكامل بدون إدارة للبنية التحتية، وبما يشمل أيضًا EMR على EC2 للتحكم المُفصَّل في المجموعات، وEMR على EKS لتشغيل أعباء عمل البيانات الضخمة المبنية أصلًا في Kubernetes. سواء كنت تدير مجموعات قصيرة الأمد للمهام عند الطلب أو مجموعات طويلة الأمد للمهام المستمرة، فإن EMR تتكيف مع احتياجاتك التشغيلية مع تحسين التكاليف من خلال تخصيص مرن للموارد وتوسُّع فعّال.

خدمة Amazon EMR في الجيل الجديد من Amazon SageMaker تُتيح لك تشغيل أطر مفتوحة المصدر مثل Apache Spark وTrino وApache Flink، مع القدرة على توسيع أعباء عمل التحليلات بسلاسة ودون الحاجة إلى توفير أو إدارة البنية التحتية. بفضل إمكانات EMR في Amazon SageMaker، يمكنك توحيد معالجة البيانات وتطوير النماذج، مما يتيح مسارات عمل شاملة من تحويل البيانات الخام إلى نشر الذكاء الاصطناعي في بيئة تعاونية واحدة.

حالات الاستخدام

يمكنك إجراء معالجة البيانات واسعة النطاق والتحليل الشرطي (ماذا لو) باستخدام خوارزميات إحصائية ونماذج تنبؤية لإظهار الأنماط المخفية، والارتباطات، واتجاهات السوق، وتفضيلات العملاء.
يُمكنك استخراج البيانات من مجموعة متنوعة من المصادر ومعالجتها على نطاق واسع وإتاحتها للتطبيقات وللمستخدمين.
يمكنك تحليل الأحداث من مصادر البيانات المتدفقة في الوقت الفعلي لإنشاء مسارات بيانات متدفقة وطويلة الأمد وعالية التوافر وقادرة على التعامل مع الأخطاء.
يمكنك تحليل البيانات باستخدام أطر عمل تعلم الآلة (ML) مفتوحة المصدر مثل Apache Spark MLlib، وTensorFlow، وApache MXNet. يمكنك الاتصال باستوديو Amazon SageMaker من أجل تدريب النماذج واسعة النطاق، والتحليل، وإعداد التقارير.