ما المقصود بتقنيات التنقيب عن البيانات؟
ما المقصود بتقنيات التنقيب عن البيانات؟
تساعد تقنيات التنقيب عن البيانات المؤسسات على كشف روابط خفية وأنماط غير ظاهرة ضمن بياناتها. تُحوّل البيانات الأولية إلى معرفة قابلة للتطبيق تساعد في حل المشكلات، وتوقّع نتائج القرارات التجارية، وتعزيز الأرباح. يقدّم هذا الدليل نظرة شاملة على تقنيات التنقيب عن البيانات وطرق تطبيقها باستخدام AWS.
تحتفظ المؤسسات بكميات هائلة من البيانات وتعالجها من خلال العديد من العمليات التجارية. يتيح التنقيب عن البيانات للمؤسسات استخراج رؤى مهمة من البيانات السابقة باستخدام نماذج البيانات والتحليل التنبؤي. يعتمد التنقيب عن البيانات الحديث بشكل كبير على تقنيات الذكاء الاصطناعي وتعلم الآلة (AI/ML) لتسريع الوصول إلى رؤى الأعمال وتحقيق نتائج أفضل.
إلا أن اكتشاف المعرفة باستخدام البنية التحتية في الموقع يشكّل تحديًا كبيرًا أمام العديد من الشركات. تحديدًا، يتطلب الأمر ربط أدوات التنقيب عن البيانات بمصادر بيانات متعددة، والتكامل مع تطبيقات خارجية، ومشاركة النتائج مع المعنيين، وهي مهام تفرض تكاليف عالية عند استخدام البنية التحتية التقليدية.
توفّر AWS مجموعة من الخدمات المُدارة التي تُمكّن المؤسسات من تطوير عمليات التنقيب عن البيانات ضمن بيئة سحابية قابلة للتوسع. نوظّف قدرات متقدمة في التنقيب عن البيانات، وخبرة في الذكاء الاصطناعي التوليدي، وأفضل ممارسات حوكمة البيانات ضمن Amazon SageMaker. يمكن لعلماء البيانات من خلال هذا النهج دمج البيانات من مصادر متعددة، وتنفيذ استعلامات تحليلية متقدمة، ومتابعة الامتثال للسياسات الأمنية بكفاءة أعلى.
إلى جانب تعزيز تدفق البيانات، تستطيع المؤسسات تنفيذ تحليلات متقدمة بطريقة أكثر توفيرًا دون الاستثمار في بنية تحتية محلية. كمثال عملي، قامت Lennar بإعادة تشكيل أساس بياناتها من خلال استوديو Amazon SageMaker الموحد ومخزن بيانات Amazon SageMaker، مما أتاح لفريق البيانات لديها الوصول إلى رؤى أعمال بشكل أكثر كفاءة.
في ما يلي توضيح لمجموعة من تقنيات التنقيب عن البيانات، مع شرح لدور أدوات AWS في دعم كل منها.
ما دور معالجة البيانات المسبقة في عمليات تنقيب البيانات؟
تقوم المعالجة المسبقة بإعداد البيانات الخام بشكل يجعلها قابلة للفهم من قبل الشبكات العصبية المُستخدمة في التنقيب عن البيانات. تشكّل المعالجة المسبقة مرحلة حاسمة في التنقيب عن البيانات نظرًا لتأثيرها الكبير على كفاءة النموذج المستخدم. قد تتضمن البيانات الخام في كثير من الأحيان أخطاءً أو بيانات مكررة أو ناقصة، مما ينعكس سلبًا على أداء النموذج. تتيح لك المعالجة المسبقة تصفية البيانات من الأخطاء والتكرارات والمعلومات الناقصة. كما يمكن لعلماء البيانات تحديد الخصائص ذات القيمة التحليلية للأعمال واستبعاد البيانات التي لا تضيف فائدة. فمثلاً، عند تحليل احتمالية مغادرة العملاء، يتم التركيز على خصائص مثل معدل الاستخدام الشهري، وآخر مرة تم فيها تسجيل الدخول، وعدد مرات التواصل مع الدعم. تُعرف هذه العملية بهندسة الميزات، وهي تسهم في خفض استهلاك موارد المعالجة أثناء التنقيب عن البيانات.
تُعد Amazon SageMaker Data Wrangler أداة لتحضير البيانات تُسهِم في رفع جودة البيانات وتحسين مخرجات التحليلات. بإمكانك الاستفادة من Amazon SageMaker Data Wrangler مع مختلف مصادر البيانات المرتبطة بمسار البيانات لديك. يوفر Amazon SageMaker Data Wrangler الوقت والجهد من خلال تنظيف البيانات في دقائق معدودة دون الحاجة إلى البرمجة. تعرّف على خطوات تجهيز البيانات لنموذج تعلم الآلة باستخدام SageMaker Data Wrangler.
الخطوة 1: التحديد والاستعلام
يمكنك باستخدام أداة الاستعلام المرئية الوصول إلى أنواع مختلفة من البيانات—النصوص، الصور، والجداول—من خدمات AWS ومصادر تخزين خارجية. ومن ثم، استخدم تقارير جودة البيانات لاكتشاف المشكلات مثل القيم الشاذة، وتفاوت توزيع الفئات، وتسرب المعلومات.
الخطوة 2: التنظيف والإثراء
قم بتحويل بياناتك عبر تحويلات PySpark المدمجة وواجهة تفاعلية تعتمد على اللغة الطبيعية. يوفر Amazon SageMaker Data Wrangler دعمًا لعمليات تحويل بيانات متعددة مثل تحويل النص إلى متجهات، واستخراج ميزات من البيانات الزمنية، والترميز، وموازنة البيانات. كما يمكنك إنشاء تحويلات مخصصة بسهولة لتناسب احتياجاتك الخاصة.
الخطوة 3 - التصور والفهم
استخدم المخططات والرسوم التوضيحية وغيرها من الأدوات البصرية للتحقق من دقة البيانات المحضّرة. ثم قم بإجراء تحليل تمهيدي سريع لتوقّع أداء النموذج قبل مرحلة التدريب الفعلية.
ما هو تحليل البيانات الاستكشافية؟
يُعد تحليل البيانات الاستكشافي (EDA) تقنية مستخدمة في علم البيانات تساعد علماء البيانات على التعرف على الأنماط المخبأة، والعلاقات ذات الدلالة، وحالات الشذوذ داخل البيانات. غالبًا ما يتم توجيه تحليل البيانات الاستكشافي (EDA) باستخدام أدوات مرئية مثل المخططات البيانية والرسوم البيانية والمُدرجات التكرارية. الهدف من تحليل البيانات الاستكشافي (EDA) هو تقديم توجيه لتحليل البيانات اللاحق. بالإضافة إلى ذلك، يساعد تحليل البيانات الاستكشافي (EDA) علماء البيانات على تحرير أحكامهم من الافتراضات والتحيزات.
ببساطة، يوفر تحليل البيانات الاستكشافي (EDA) أدلة يمكن ملاحظتها من خلال النمذجة الإحصائية وتقنيات مثل تحليل السلاسل الزمنية، والتحليل المكاني، والمخططات النقطية. مع ذلك، يتطلب تنفيذ تحليل البيانات الاستكشافي (EDA) مجموعة من أدوات تنقيب البيانات التي يجب أن تعمل معًا بطريقة متكاملة. قد تُسبب عملية الإعداد عبئًا ماليًا.
Amazon SageMaker Unified Studio هو منصة شاملة للذكاء الاصطناعي والبيانات تتيح لفريقك بناء أعباء عمل تحليل البيانات ونشرها وتبادلها. يمكنك استخدامه للعمل مع أدوات الذكاء الاصطناعي وتعلّم الآلة (AI/ML) المألوفة، والتخزين، والتحليلات من AWS، بما في ذلك Amazon EMR وAWS Glue وAmazon Athena وAmazon Redshift وAmazon Bedrock وAmazon SageMaker AI.
إليك طرقًا لتسريع تنفيذ تحليل البيانات الاستكشافي (EDA) من خلال استوديو Amazon SageMaker الموحد.
- قم بالاشتراك وإدارة أصول البيانات وتحديد القواعد الخاصة بها لاستخدامها في تدريب نماذج تحليلات البيانات.
- نفّذ استعلامات على البيانات المحفوظة في بحيرات البيانات ومستودعات البيانات ومصادر أخرى.
- قم بإنشاء سير عمل عبر واجهة مرئية مضمنة تتيح لك إدراج وحدات تحويل بين مصادر البيانات والوجهة النهائية.
ما المقصود بالتحليل التنبؤي ضمن تقنيات تنقيب البيانات؟
يعتمد التحليل التنبؤي في التنقيب عن البيانات على الأنماط المستخرجة لتوقّع ما قد يحدث مستقبلًا. يتم ذلك من خلال إدخال البيانات في نماذج تعلّم الآلة، التي تعتمد على ما تعلمته لتقديم تنبؤات تدعم قرارات الشركات. فعلى سبيل المثال، تعتمد شركات التمويل على التحليل التنبؤي لتوقّع تحركات السوق، والكشف عن الاحتيال، وتحديد مخاطر الائتمان.
يُعد Amazon SageMaker Canvas أداة مرئية تتيح لك تنفيذ عمليات تدريب واختبار ونشر النماذج التنبؤية على نطاق واسع. يتيح الوصول إلى نماذج التأسيس وخوارزميات تعلّم الآلة المخصصة (ML)، مما يساعد على إنتاج تنبؤات دقيقة تناسب العديد من حالات الاستخدام.
يمكنك أيضًا بناء سير عمل البيانات بشكل كامل من خلال لغة محادثة باستخدام Amazon Q Developer. يُعد أداة ذكاء اصطناعي توليدي تمكّنك من التعبير عن مهام تعلّم الآلة وتحليل البيانات بلغة بسيطة ومألوفة. ثم يقوم بتحويل ما وصفته إلى استعلامات، وأوامر SQL، وخطوات تنفيذية، واقتراحات برمجية لمساعدتك على استخدام الذكاء الاصطناعي والبيانات بشكل أكثر فعالية.
فيما يلي مجموعة من النماذج التي يمكنك تطويرها ونشرها عبر Amazon SageMaker Canvas لتفعيل التحليلات التنبؤية.
التصنيف
تُستخدم نماذج التصنيف في إسناد تسميات للبيانات الجديدة استنادًا إلى السمات التي سبق أن تعلمتها. كمثال، يقوم نظام دعم العملاء الذي يعمل بالذكاء الاصطناعي بتصنيف الملاحظات إلى إيجابية أو سلبية أو محايدة من خلال تحليل الكلمات المستخدمة في المحادثة. يوفر Amazon SageMaker Canvas دعمًا لنماذج التصنيف التي تُستخدم في معالجة أنواع متعددة من المشكلات مثل تصنيف النصوص والصور، واكتشاف الشذوذ، والكائنات.
التنقيب في قواعد الارتباط
يعمل استخراج قواعد الارتباط (ARM) على تحديد العلاقات بين البيانات، ويمكن أن يُستخدم في دعم مسار التحليل التنبؤي. كمثال، يُمكن تطبيق استخراج قواعد الارتباط (ARM) في تحليل سلة التسوق للتعرّف على المنتجات التي غالبًا ما تُشترى معًا في متجر السوبرماركت. يمكنك من خلال Amazon SageMaker تطوير خوارزميات استخراج قواعد الارتباط (ARM) مخصصة باستخدام أطر مثل Python، ومن ثم نشرها داخل مسار عمل الذكاء الاصطناعي وتعلّم الآلة (AI/ML) عبر AWS.
التجميع
يساهم التجميع بشكل غير مباشر في التحليل التنبؤي عن طريق تنظيم البيانات ضمن مجموعات بناءً على الخصائص المتشابهة. كمثال، يمكن تصنيف العملاء ضمن مجموعات بناءً على متوسط إنفاقهم. ثم تُستخدم فئات العملاء التي تم تقسيمها كأحد العوامل المدخلة في النموذج التنبؤي. عادةً ما يلجأ علماء البيانات إلى خوارزمية K-means عند تنفيذ عمليات التجميع. يعتمد Amazon SageMaker على نسخة محسّنة من خوارزمية K-means لتحقيق نتائج أدقّ وقدرة أفضل على التوسّع.
اكتشاف أوجه الخلل
تُدرَّب نماذج تعلّم الآلة للكشف عن الحالات غير الطبيعية ضمن أنماط البيانات. كمثال، تعتمد المصانع على النماذج التنبؤية لاكتشاف الأعطال المتوقعة في المعدات. يساهم اكتشاف الشذوذ في تنفيذ تدابير وقائية مثل الصيانة الاستباقية لتجنّب تعطل العمليات.
يتيح لك Amazon SageMaker اكتشاف الأنماط غير الطبيعية عبر خوارزمية Random Cut Forest التي تمنح البيانات درجات تشير إلى طبيعتها العادية أو الشاذة.
ما المقصود بالتنقيب عن المستندات؟
يُعد التنقيب عن المستندات من تقنيات تعلم الآلة التي تتيح اكتشاف البيانات النصية أو الصورية أو الجدولية ضمن المستندات واستخلاصها وتحليلها. من خلال تطبيق تقنيات التنقيب عن البيانات على المستندات المخزنة، تستطيع المؤسسات خفض النفقات وتعزيز تجربة العملاء وتحقيق كفاءة تشغيلية أعلى. كمثال، تستطيع الشركات القانونية استخدام التنقيب عن المستندات لاستخلاص بنود معينة من العقود بشكل تلقائي.
بإمكانك استخدام Amazon SageMaker Canvas لتطبيق نماذج التنقيب عن المستندات المعدّة مسبقًا بكل سهولة. نظرًا لأن هذه النماذج مدرّبة مسبقًا، يمكنك استخدامها مباشرة ضمن عملية التنقيب عن البيانات دون الحاجة إلى تدريب إضافي. بعد الإعداد، يبدأ النموذج في تحليل البيانات الخام داخل المستندات لاستخلاص أنماط مفيدة. ثم يتولى النموذج استخراج البيانات وتنظيمها ضمن فئات محددة أو تمييزها بالعلامات المناسبة.
على سبيل المثال، يُمكّن نموذج اكتشاف المعلومات الشخصية من الكشف عن معلومات مثل العناوين وأرقام الحسابات المصرفية وأرقام الهواتف من البيانات النصية. في الوقت ذاته، يقوم نموذج تحليل النفقات باستخراج بيانات مثل القيمة، والتاريخ، والمشتريات من الإيصالات والفواتير.
تعرّف على طريقة استخدام Amazon SageMaker Canvas لتطبيق تقنيات تنقيب الوثائق.
- إنشاء نطاق Amazon SageMaker AI وتفعيل نماذج Canvas الجاهزة للاستخدام.
- استيراد مجموعات بيانات المستندات التي ترغب في تحليلها. من خلال ذلك، يمكنك إنشاء تدفق بيانات.
- اختيار نموذج للتنقيب عن البيانات بهدف إنشاء تنبؤات. يتيح لك الإعداد تنفيذ تنبؤات إما بشكل فردي أو على دفعات.
ما الدور الذي يمكن أن تلعبه AWS في دعم تقنيات تنقيب البيانات؟
تمكّن تقنيات تنقيب البيانات الشركات من كشف رؤى مهمة من بياناتها، مما يساعدها على اتخاذ قرارات مبنية على معلومات دقيقة. لكي ينجح تنقيب البيانات، لا بد من وجود مسار بيانات منظم يربط بين البيانات الخام القادمة من مصادر مختلفة ونماذج الذكاء الاصطناعي وتعلم الآلة المتقدمة (AI/ML).
يوفّر مسار البيانات أتمتة كاملة لعمليات جمع البيانات وتخزينها وتنظيفها وتحويلها، مما يضمن تزويد النماذج اللاحقة ببيانات دقيقة وذات جودة عالية. ثم تُستخدم تقنيات تنقيب البيانات المتنوعة لاستخلاص معلومات قيّمة من البيانات.
تعرّف على Amazon SageMaker لتسهيل العمليات المعقدة للبيانات واستخلاص رؤى تنبؤية تدعم تحسين أداء الأعمال.