Amazon EMR

قم بتشغيل وتوسيع Apache Spark، وHadoop، وHBase، وPresto، وHive، وأطر البيانات الكبيرة الأخرى بسهولة

تُعد Amazon EMR المنصة الرائدة للبيانات الكبيرة cloud-native لمعالجة كميات هائلة من البيانات بسرعة وبتكلفة منخفضة على نطاق واسع. تمنح EMR الفرق التحليلية المحركات والمرونة لتشغيل تحليل مقياس بيتابايت لجزء من تكلفة المجموعات التقليدية المحلية وذلك باستخدام أدوات مفتوحة المصدر مثل Apache Spark وApache Hive Apache HBaseوApache Flink Apache Hudi (Incubating)و Presto بالإضافة إلى قابلية التطوير الديناميكية لـ Amazon EC2 والتخزين القابل للتطوير لـ Amazon S3. كما توفر EMR للفِرق المرونة اللازمة لتشغيل حالات الاستخدام على مجموعات قصيرة المدى أحادية الغرض تتسع تلقائيًا لتلبية الطلب، أو على مجموعات تشغيل طويلة للغاية متاحة باستخدام وضع النشر الجديد متعدد الاستخدامات. إذا كان لديك عمليات نشر محلية لأدوات مفتوحة المصدر مثل Apache Spark وApache Hive، يمكنك أيضًا تشغيل مجموعات EMR على AWS Outposts بحيث يمنحك القدرة على التوسع المحلي عبر Outposts (المواقع الأمامية) أو في السحابة.

مقدمة حول Amazon EMR (3:00)

الفوائد

سهلة الاستخدام

تطلق EMR المجموعات خلال دقائق. لا داعي للقلق بشأن توفير العقدة أو إعداد البنية أو تهيئة Hadoop أو ضبط المجموعات. يعتني EMR بهذه المهام حتى يمكنك التركيز على التحليل. يمكن لمحللي البيانات ومهندسيها وأخصائييها إطلاق دفتر Jupyter بدون خادم في ثوانٍ باستخدام دفاتر EMR، مما يتيح للأفراد والفِرق التعاون واستكشاف البيانات ومعالجتها وتصورها بطريقة تفاعلية وباستخدام دفتر سهل الاستخدام.

منخفضة التكلفة

تسعير EMR بسيط وقابل للتنبؤ به: أنت تدفع بالمثيل لكل ثانية تستخدمها، مع حد أدنى لرسوم دقيقة واحدة. يمكنك إطلاق مجموعة EMR ذات 10 عقد مع تطبيقات مثل Apache Spark وApache Hive مقابل مبلغ منخفض يصل إلى 0.15 دولار في الساعة. ونظرًا لأن EMR لديها دعم محلي لـ Amazon EC2 Spot والمثيلات المحجوزة، يمكنك أيضًا توفير 50-80٪ على تكلفة المثيلات الأساسية.

Elastic

مع EMR، يمكنك توفير واحد أو مئات أو الآلاف من مثيلات حسابية لمعالجة البيانات بأي مقياس. كما يمكنك زيادة عدد المثيلات أو تقليلها يدويًا أو تلقائيًا باستخدام التكيف التلقائي Auto Scaling (الذي يدير أحجام المجموعة استنادًا إلى الاستخدام)، والدفع فقط مقابل ما يتم استخدامه. وعلى عكس البنية التحتية الصارمة للمجموعات الداخلية، تقوم EMR بفك التخزين الحسابي والمستمر، مما يمنحك القدرة على قياس كل منها على حدة.

موثوق بها

وقت أقل في ضبط مجموعتك ومراقبتها. جرت تهيئة EMR للسحابة وهي تعمل على مراقبة مجموعتك باستمرار – مسترجعة المهام الفاشلة ومستبدلة المثيلات ذات الأداء الضعيف تلقائيًا. تقدم شركة EMR أحدث إصدارات البرمجيات مفتوحة المصدر، لذلك لا يتعين عليك إدارة التحديثات وإصلاح الأخطاء، مما يؤدي إلى عدد أقل من المشكلات وأقل جهد للحفاظ على البيئة. مع العقد الرئيسية المتعددة، تتوفر المجموعات بصورة أكبر ويتم تجاوز الفشل تلقائيًا في حالة فشل العقد.

أمان

تعمل EMR تلقائيًا على تكوين إعدادات جدار الحماية لـ EC2 التي تتحكم في وصول الشبكة إلى المثيلات، وتشغل المجموعات في Amazon Virtual Private Cloud (VPC)، وهي شبكة معزولة منطقيًا تحددها أنت. بالنسبة للكائنات المخزنة في S3، يمكن استخدام تشفير من جانب الخادم أو تشفير من جانب العميل مع نظام EMRFS (وهو كائن تخزين لـ Hadoop على S3) باستخدام خدمة AWS Key Management Service أو يمكنك استخدام مفاتيحك الخاصة المدارة بواسطة العملاء. مع EMR، يسهل تمكين خيارات التشفير الأخرى، مثل التشفير المتنقل والتشفير غير النشط والمصادقة القوية باستخدام Kerberos.

المرونة

لديك السيطرة الكاملة على المجموعة الخاصة بك. لديك حق الوصول الجذر إلى كل مثيل، ويمكنك بسهولة تثبيت تطبيقات إضافية وتخصيص كل مجموعة باستخدام إجراءات التمهيد. يمكنك أيضًا تشغيل مجموعات EMR باستخدام Amazon AMIs المخصصة وإعادة تكوين مجموعات التشغيل على الفور دون الحاجة إلى إعادة تشغيل المجموعة.

حالات الاستخدام

تعلم الآلة

استخدم أدوات تعلُّم الآلة المدمجة في EMR، بما في ذلك Apache Spark MLlib وTensorFlow وApache MXNet لخوارزميات تعلُّم الآلة القابلة للتطوير، واستخدم Custom AMI وBootstrap Actions لإضافة مكتباتك وأدواتك المفضلة بسهولة لإنشاء مجموعة أدوات التحليلات التنبؤية الخاصة بك.

تعلم كيف تستخدم Intent Media Spark MLib »

خدمة استخراج ونقل وتحميل (ETL)

يمكن استخدام EMR للقيام بأعباء عمل تحويل البيانات (ETL) بسرعة وفعالية من حيث التكلفة، مثل – الفرز، التجميع، والانضمام – على مجموعات البيانات الكبيرة.

تعلم كيف يستخدم Redfin مجموعات EMR عابرة لـ ETL »

تحليل تدفق النقرات

حلل بيانات تدفق النقرات من Amazon S3 باستخدام Apache Spark وApache Hive لتقسيم المستخدمين وفهم تفضيلات المستخدم وتقديم إعلانات أكثر فعالية.

تعرف على كيفية استخدام Razorfish لـ EMR لتحليل تدفق النقرات »

البث في الوقت الفعلي

حلل الأحداث من Apache Kafka أو Amazon Kinesis أو مصادر البيانات الأخرى المتدفقة في الوقت الفعلي باستخدام Apache Spark Streaming وEMR لإنشاء مسارات بيانات متدفقة وطويلة المدى ومتاحة باستمرار وقادرة على التعامل مع الأخطاء. استمر في تحويل مجموعات البيانات إلى Amazon S3 أو HDFS والرؤى إلى Amazon Elasticsearch.

تعلم كيف يقوم Hearst باستخدام Spark Streaming »

التحليلات التفاعلية

توفر دفاتر EMR بيئة تحليلية مُدارة مستندة إلى Jupyter مفتوح المصدر، مما يسمح لأخصائيي البيانات ومحلليها ومطوريها بإعداد البيانات وتصورها والتعاون مع أقرانهم وإنشاء التطبيقات وإجراء التحليل التفاعلي.

علم الجينوم

يمكن استخدام EMR لمعالجة كميات هائلة من البيانات الجينومية وغيرها من مجموعات البيانات العلمية الكبيرة بسرعة وكفاءة. يمكن للباحثين الوصول إلى البيانات الجينومية المستضافة مجانًا على AWS.

تعرف على Apache Spark والطب الدقيق »

دراسات الحالة

أبحاث المحللين

1

ابدأ باستخدام AWS

Step 1 - Sign up for an AWS account

اشترك للحصول على حساب AWS

الوصول على الفور إلى الطبقة المجانية لخدمة AWS.
icon2

تعلَّم مع برامج تعليمية مدتها 10 دقائق

استكشف وتعلَّم مع البرامج التعليمية السهلة.
icon3

ابدأ البناء مع AWS

ابدأ الإنشاء باستخدام أدلة مفصلة خطوة بخطوة لمساعدتك في البدء في مشروع AWS الخاص بك.

ترحيل البيانات الكبيرة من الداخل إلى AWS

اقرأ دليل الترحيل إلى Amazon EMR طلب جلسة عمل في موقعك تتناول الترحيل إلى Amazon EMR

تعرّف على المزيد حول البيانات الكبيرة على AWS

قم بزيارة مدونة البيانات الكبيرة