ما المقصود بـ Hadoop؟
Apache Hadoop عبارة عن إطار مفتوح المصدر يُستخدم في تخزين ومعالجة مجموعات البيانات الكبيرة بكفاءة والتي يتراوح حجمها من وحدات جيجابايت إلى وحدات بيتابايت. بدلاً من استخدام كمبيوتر واحد كبير لتخزين البيانات ومعالجتها، يتيح Hadoop إمكانية تجميع عدة أجهزة كمبيوتر لتحليل مجموعات البيانات الكبيرة بالتوازي وبسرعة أكبر.
ما هي الوحدات الأربع الرئيسية لـ Hadoop؟
يتكون Hadoop من أربع وحدات رئيسية:
- نظام الملفات الموزّعة لـ Hadoop (HDFS) - نظام ملفات موزع يعمل على أجهزة قياسية أو ذات إمكانات منخفضة. يوفر HDFS سرعة نقل بيانات أفضل من أنظمة الملفات التقليدية، بالإضافة إلى القدرة العالية على التعامل مع الأخطاء والدعم الأصلي لمجموعات البيانات الكبيرة.
- Yet Another Resource Negotiator (YARN) - يدير ويراقب عقد الكتل واستخدام الموارد. يقوم بجدولة الوظائف والمهام.
- MapReduce - إطار يساعد البرامج على إجراء الحساب الموازي للبيانات. تأخذ مهمة الخريطة بيانات الإدخال وتحولها إلى مجموعة بيانات يمكن حسابها في أزواج القيم الرئيسية. يتم استهلاك مخرجات مهمة الخريطة من خلال تقليل المهام لتجميع المخرجات وتقديم النتيجة المرجوة.
- Hadoop Common - يوفر مكتبات Java الشائعة التي يمكن استخدامها عبر جميع الوحدات.
كيف يعمل Hadoop؟
تسهّل Hadoop استخدام السعة الكاملة للتخزين والمعالجة في خوادم المجموعة، وتنفيذ العمليات الموزعة مقابل كميات هائلة من البيانات. توفر Hadoop الكتل الإنشائية التي يمكن بناء الخدمات والتطبيقات الأخرى عليها.
يمكن للتطبيقات التي تجمع البيانات بتنسيقات مختلفة وضع البيانات في مجموعة Hadoop باستخدام عملية API للاتصال بـ NameNode. يتتبع NameNode بنية دليل الملفات وموضع «المجموعات» لكل ملف، ويتم نسخه عبر DataNodes. لتشغيل مهمة للاستعلام عن البيانات، قم بتوفير مهمة MapReduce المكونة من العديد من الخرائط وتقليل المهام التي تعمل مقابل البيانات الموجودة في HDFS المنتشرة عبر DataNodes. يتم تشغيل مهام الخريطة على كل عقدة مقابل ملفات الإدخال المتوفرة، ويتم تشغيل المخفضات لتجميع المخرجات النهائية وتنظيمها.
كيف تطور نظام Hadoop البيئي؟
نما نظام Hadoop البيئي بشكل كبير على مر السنين بسبب قابليته للتوسُّع. اليوم، يتضمن نظام Hadoop البيئي العديد من الأدوات والتطبيقات للمساعدة في جمع البيانات الكبيرة وتخزينها ومعالجتها وتحليلها وإدارتها. بعض التطبيقات الأكثر شيوعًا هي:
- Spark - وهو نظام معالجة موزع مفتوح المصدر يستخدم بشكل شائع لأحمال عمل البيانات الكبيرة. يستخدم Apache Spark التخزين المؤقت في الذاكرة والتنفيذ المحسن للأداء السريع، وهو يدعم المعالجة المجمعة العامة وتحليلات التدفق وتعلم الآلة وقواعد بيانات الرسومات البيانية والاستعلامات محددة الغرض.
- Presto – محرك استعلام SQL مفتوح المصدر وموزع ومحسّن لتحليل البيانات المخصص بزمن انتقال منخفض. وهو يدعم معيار ANSI SQL، بما في ذلك الاستعلامات المعقدة والتجميعات والصلات ووظائف النوافذ (window). يمكن لـ Presto معالجة البيانات من مصادر بيانات متعددة بما في ذلك نظام الملفات الموزعة لـ Hadoop (HDFS) وAmazon S3.
- Hive - يسمح للمستخدمين بالاستفادة من Hadoop MapReduce باستخدام واجهة SQL، ما يتيح التحليلات على نطاق واسع، بالإضافة إلى تخزين البيانات الموزعة والمتسامحة مع الأخطاء.
- HBase– قاعدة بيانات مفتوحة المصدر غير علائقية يتم تشغيلها فوق Amazon S3 (باستخدام EMRFS) أو نظام الملفات الموزّعة لـ Hadoop (HDFS). HBase عبارة عن مخزن بيانات كبير قابل للتطوير وموزع بشكل كبير مصمم للوصول العشوائي والمتسق تمامًا وفي الوقت الفعلي للجداول التي تحتوي على مليارات الصفوف وملايين الأعمدة.
- Zeppelin - هو دفتر ملاحظات تفاعلي يتيح استكشاف البيانات التفاعلية.
كيف يمكن لـ AWS دعم متطلبات Hadoop الخاصة بك؟
Amazon EMR هي خدمة مُدارة تتيح لك معالجة وتحليل مجموعات البيانات الكبيرة باستخدام أحدث إصدارات أطر معالجة البيانات الكبيرة مثل Apache Hadoop وSpark وHBase وPresto على مجموعات قابلة للتخصيص بالكامل.
- سهلة الاستخدام: يمكنك تشغيل مجموعة Amazon EMR في دقائق. لا داعي للقلق بشأن توفير العقدة أو إعداد مجموعة أو تهيئة Hadoop أو ضبط المجموعات.
- تكلفة منخفضة: تسعير Amazon EMR بسيط ويمكن التنبؤ به: أنت تدفع سعرًا بالساعة لكل ساعة تستخدمها ويمكنك الاستفادة من مثيلات Spot لتحقيق وفورات أكبر.
- مرنة: مع Amazon EMR، يمكنك توفير واحد أو مئات أو آلاف من مثيلات الحوسبة لمعالجة البيانات على أي نطاق.
- عابرة: يمكنك استخدام EMRFS لتشغيل المجموعات عند الطلب استنادًا إلى بيانات HDFS المخزنة باستمرار في Amazon S3. عند انتهاء المهام، يمكنك إيقاف تشغيل الكتلة وحفظ البيانات في Amazon S3. أنت تدفع فقط مقابل وقت الحساب الذي تعمل فيه المجموعة.
- الأمان: تستخدم Amazon EMR جميع خصائص الأمان الشائعة لخدمات AWS:
- أدوار وسياسات إدارة الهوية والوصول (IAM) لإدارة الأذونات.
- التشفير أثناء التنقل وفي حالة السكون لمساعدتك على حماية بياناتك وتلبية معايير الامتثال، مثل HIPAA.
- مجموعات الأمان للتحكم في حركة مرور الشبكة الواردة والصادرة إلى عقد الكتل الخاصة بك.
- AWS CloudTrail: يمكنك تدقيق جميع استدعاءات واجهة برمجة Amazon EMR التي تم إجراؤها في حسابك لتوفير تحليل الأمان وتتبع تغيير الموارد وتدقيق الامتثال.
ابدأ اليوم في استخدام Hadoop على AWS من خلال إنشاء حساب.