Amazon EMR

قم بتشغيل وتوسيع Apache Spark وHive وPresto وأطر عمل البيانات الكبيرة الأخرى بسهولة

Amazon EMR هي منصة البيانات الكبيرة السحابية الرائدة في المجال لمعالجة كميات هائلة من البيانات باستخدام الأدوات مفتوحة المصدر مثل ‏Apache Spark‏ و‏Apache Hive‏ و‏Apache HBase‏ و‏Apache Flink‏ و‏Apache Hudi‏ و‏Presto‏. تستطيع باستخدام EMR أن تقوم بتشغيل التحليل على نطاق بيتابايت بأقل من نصف تكلفة الحلول التقليدية المحلية وأسرع بأكثر من ثلاثة أضعاف من Apache Spark القياسي. بالنسبة للمهمات قصيرة المدى، يمكنك تشغيل المجموعات لأعلى ولأسفل والدفع بالثانية مقابل المثيلات المستخدَمة. أما بالنسبة لأعباء العمل طويلة المدى، يمكنك إنشاء مجموعات عالية التوافر تقوم بالمواءمة تلقائيًا لتلبية المتطلبات. إذا كان لديك عمليات نشر محلية لأدوات مفتوحة المصدر مثل Apache Spark وApache Hive، يمكنك أيضًا تشغيل مجموعات EMR على AWS Outposts‏.

تعرّف على كيف يمكنك تقليل التكلفة وتبسيط العمليات عن طريق ترحيل أعباء العمل المحلية إلى EMR‏

اكتشف كيف يقوم Apache Hudi بتبسيط المسارات لالتقاط بيانات التغيير (CDC) ولوائح الخصوصية

مقدمة حول Amazon EMR (3:00)

الفوائد

سهلة الاستخدام

يمكن للمحللين ومهندسي البيانات وعلمائها استخدام ‏EMR Notebooks‏، مما يتيح للأفراد والفِرق سهولة التعاون واستكشاف البيانات ومعالجتها وتصوّرها. تستطيع ببساطة تحديد إصدار تطبيقات EMR ونوع الحوسبة الذي ترغب في استخدامه. يهتم EMR بتوفير المجموعات وتكوينها وضبطها حتى تتمكن من التركيز على التحليلات قيد التشغيل.

تكلفة منخفضة

التسعير الخاص بـ EMR بسيط ويمكن التنبؤ به: أنت تدفع سعر المثيل لكل ثانية استخدام، مع حد أدنى لرسوم دقيقة واحدة. يمكنك تشغيل مجموعة EMR من 10 نقاط مقابل مبلغ قليل بقدر 0,15 USD في الساعة. تستطيع كذلك توفير 50-80% على تكلفة المثيلات عن طريق تحديد ‏Amazon EC2 Spot‏ لأعباء العمل العابرة والمثيلات المحجوزة لأعباء العمل طويلة المدى. يمكنك أيضًا استخدام ‏Savings Plans‏.

مرنة

وعلى عكس البنية التحتية الصارمة للمجموعات الداخلية، تقوم EMR بفك الحوسبة والتخزين، مما يمنحك القدرة على قياس كل منها على حدة والاستفادة من التخزين المدرج لدى Amazon S3. مع EMR، يمكنك توفير واحد أو مئات أو الآلاف من مثيلات حسابية لمعالجة البيانات بأي مقياس. يمكن زيادة عدد المثيلات أو تقليلها تلقائيًا باستخدام التكيف التلقائي Auto Scaling (الذي يدير أحجام المجموعة استنادًا إلى الاستخدام)، والدفع فقط مقابل ما يتم استخدامه.

موثوق بها

وقت أقل في ضبط مجموعتك ومراقبتها. جرت تهيئة EMR للسحابة وهي تعمل على مراقبة مجموعتك باستمرار – تقوم بإعادة محاولة تنفيذ المهام الفاشلة واستبدال المثيلات ذات الأداء الضعيف تلقائيًا. مع العقد الرئيسية المتعددة، تتوفر المجموعات بصورة أكبر ويتم تجاوز الفشل تلقائيًا في حالة فشل العقد. تقدم شركة EMR أحدث إصدارات البرمجيات مفتوحة المصدر، لذلك لا يتعين عليك إدارة التحديثات وإصلاح الأخطاء، وهو ما يؤدي إلى عدد أقل من المشكلات وأقل جهد للحفاظ على البيئة.

آمنة

تعمل EMR تلقائيًا على تكوين إعدادات جدار الحماية لـ EC2 التي تتحكم في وصول الشبكة إلى المثيلات، وتشغل المجموعات في Amazon Virtual Private Cloud (VPC). يمكن استخدام التشفير من جانب الخادم أو التشفير من جانب العميل مع خدمة AWS Key Management Service أو مع مفاتيحك الخاصة المُدارة بواسطة العملاء. مع EMR، يسهل تمكين خيارات التشفير الأخرى، مثل التشفير المتنقل والتشفير غير النشط والمصادقة القوية باستخدام Kerberos‏. يمكنك استخدام ‏AWS Lake Formation‏ أو Apache Ranger لتطبيق ضوابط دقيقة للوصول إلى البيانات بالنسبة لقواعد البيانات والجداول والأعمدة.

مرنة

لديك السيطرة الكاملة على المجموعة الخاصة بك مع إمكانية وصول جذرية إلى كل مثيل. تستطيع إطلاق مجموعات EMR باستخدام وحدات AMI المخصصة التابعة لـ Amazon Linux وتثبيت تطبيقات إضافية بسهولة باستخدام إجراءات التمهيد. يمكّنك EMR من إعادة تكوين التطبيقات على المجموعات قيد التشغيل أثناء عملها دون الحاجة إلى إعادة إطلاق المجموعات. بالإضافة إلى ذلك، باستخدام Hadoop 3.0 يمكنك تعبئة تبعيات المكتبة في حاويات Docker‏ وإرسالها مع مهماتك لتبسيط تبعيات البيئة.

حالات الاستخدام

تعلم الآلة

استخدم أدوات تعلُّم الآلة المدمجة في EMR، بما في ذلك Apache Spark MLlib وTensorFlow وApache MXNet للوغاريتمات تعلم الآلة القابلة للتطوير، واستخدم وحدات AMI المخصصة والإجراءات التمهيدية لإضافة مكتباتك وأدواتك المفضلة بسهولة لإنشاء مجموعة أدوات التحليلات التنبؤية الخاصة بك.

خدمة استخراج ونقل وتحميل (ETL)

يمكن استخدام EMR للقيام بأعباء عمل تحويل البيانات (ETL) بسرعة وتكلفة مناسبة، مثل الفرز، والتجميع، والانضمام على مجموعات البيانات الكبيرة.

تعلم كيف يستخدم Redfin مجموعات EMR عابرة لـ ETL »

تحليل تدفق النقرات

حلل بيانات تدفق النقرات من Amazon S3 باستخدام Apache Spark وApache Hive لتقسيم المستخدمين وفهم تفضيلات المستخدم وتقديم إعلانات أكثر فعالية.

البث في الوقت الفعلي

حلل الأحداث من Apache Kafka أو Amazon Kinesis أو مصادر البيانات الأخرى المتدفقة في الوقت الفعلي باستخدام Apache Spark Streaming وApache Flink لإنشاء مسارات بيانات متدفقة وطويلة المدى ومتاحة باستمرار وقادرة على التعامل مع الأخطاء على EMR. استمر في تحويل مجموعات البيانات إلى S3 أو HDFS والرؤى إلى Amazon Elasticsearch Service.

تعلم كيف يقوم Hearst باستخدام Spark Streaming »

التحليلات التفاعلية

توفر دفاتر EMR بيئة تحليلية مُدارة مستندة إلى Jupyter مفتوح المصدر، مما يسمح لأخصائيي البيانات ومحلليها ومطوريها إعداد البيانات وتصوّرها والتعاون مع أقرانهم وإنشاء التطبيقات وإجراء التحليلات التفاعلية.

علم الجينوم

يمكن استخدام EMR لمعالجة كميات هائلة من البيانات الجينومية وغيرها من مجموعات البيانات العلمية الكبيرة بسرعة وكفاءة. يمكن للباحثين الوصول إلى البيانات الجينومية المستضافة مجانًا على AWS.

تعرف على Apache Spark والطب الدقيق »

دراسات الحالة

أبحاث المحللين

المزيد...

المستجدات

التاريخ
  • التاريخ
1

ابدأ باستخدام AWS

اقرأ دليل ترحيل EMR
اقرأ دليل الترحيل

تعرَّف على كيفية ترحيل البيانات الكبيرة من الموقع المحلي إلى AWS.

تعرَّف على المزيد 
اشترك للحصول على حساب مجاني لدى AWS
اشترك للحصول على حساب مجاني

تمتع بالوصول الفوري إلى الطبقة المجانية لخدمة AWS. 

تسجيل الاشتراك 
ابدأ في الإنشاء بالاستعانة بخدمة EMR في وحدة التحكم
ابدأ في الإنشاء في وحدة التحكم

ابدأ في الإنشاء باستخدام Amazon EMR في وحدة التحكم AWS.

تسجيل الدخول 

ترحيل البيانات الكبيرة من الموقع المحلي إلى AWS

الموارد التي ستساعدك على التخطيط لعملية الترحيل الخاصة بك

تعرَّف على المزيد حول البيانات الكبيرة والتحليلات على AWS

اقرأ مدونة البيانات الكبيرة في AWS