يدعم كتالوج بيانات AWS Glue الآن إنشاء الإحصائيات لجداول Apache Iceberg
يدعم كتالوج بيانات AWS Glue الآن إنشاء إحصائيات مجمعة على مستوى العمود لجداول Apache Iceberg. تم دمج هذه الإحصائيات الآن مع المُحسِّن المستند إلى التكلفة (CBO) من Amazon Redshift Spectrum، ما يؤدي إلى تحسين أداء الاستعلام وتوفير التكاليف المحتملة.
يدعم Apache Iceberg إحصائيات مثل nulls وmin وmax، ولكنه يفتقر إلى الدعم لإنشاء إحصائيات التجميع مثل عدد القيم المميزة (NDV). مع هذا الإطلاق، لديك الآن تجربة متكاملة من البداية إلى النهاية حيث يتم جمع قيم NDV على أعمدة جدول Apache Iceberg وتخزينها في ملفات Apache Iceberg Puffin. تستخدم Amazon Redshift إحصائيات التجميع هذه لتحسين الاستعلامات من خلال تطبيق عوامل التصفية الأكثر تقييدًا في أقرب وقت ممكن أثناء معالجة الاستعلام، وبالتالي الحد من استخدام الذاكرة وعدد السجلات التي تتم قراءتها لتوفير نتائج الاستعلام.
للبدء، يمكنك إنشاء إحصائيات لجدول Apache Iceberg باستخدام AWS Glue Console أو واجهات برمجة التطبيقات الخاصة بـ AWS Glue. مع كل عملية تشغيل، سيقوم Glue Catalog بحساب إحصائيات لقطة جدول Iceberg الحالية وتخزينها في ملف Iceberg puffin وGlue Catalog. أثناء تشغيل الاستعلامات من Amazon Redshift Spectrum، ستحصل تلقائيًا على تحسينات أداء الاستعلام من خلال التكامل المدمج مع Apache Iceberg.
يتوفر الدعم لإنشاء إحصائيات AWS Glue Catalog بشكل عام في مناطق AWS التالية: شرق الولايات المتحدة (أوهايو)، غرب الولايات المتحدة (شمال كاليفورنيا)، أوروبا (فرانكفورت)، آسيا والمحيط الهادئ (مومباي). اقرأ منشور المدونة وقم بزيارة وثائق AWS Glue Catalog لمعرفة المزيد.