يدعم كتالوج بيانات AWS Glue الآن إنشاء إحصائيات على مستوى العمود بشكل مجدول
يدعم كتالوج بيانات AWS Glue يدعم الآن إنشاء إحصائيات مستوى العمود المجدولة لجداول Apache Iceberg وتنسيقات الملفات مثل Parquet وJSON وCSV وXML وORC وION. بفضل هذا الإطلاق، يمكنك تبسيط وأتمتة عملية إنشاء الإحصائيات من خلال إنشاء جدول متكرر في كتالوج البيانات الملتصقة. تم دمج هذه الإحصائيات مع المحسِّن القائم على التكلفة (CBO) من Amazon Redshift Spectrum وAmazon Athena، مما يؤدي إلى تحسين أداء الاستعلام وتوفير التكاليف المحتملة.
في السابق، لإعداد جدول إنشاء الإحصائيات المتكررة، كان يتعين عليك الاتصال بخدمات AWS باستخدام مجموعة من AWS Lambda ومُجدول Amazon EventBridge. باستخدام هذه الميزة الجديدة، يمكنك الآن توفير الجدول المتكرر كتكوين إضافي لكتالوج بيانات Glue مع النسبة المئوية للعينة. بالنسبة لكل تشغيل مجدول، يتم جمع عدد القيم المميزة (NDVs) لجداول Apache Iceberg، ويتم جمع إحصائيات إضافية مثل عدد القيم الفارغة والحد الأقصى والحد الأدنى ومتوسط الطول لتنسيقات الملفات الأخرى. مع تحديث الإحصائيات، يستخدمها Amazon Redshift وAmazon Athena لتحسين الاستعلامات، باستخدام تحسينات مثل ترتيب الانضمام الأمثل أو الدفع التجميعي القائم على التكلفة. يمكنك الاطلاع على حالة وتوقيت كل عملية تشغيل لتوليد الإحصائيات، بالإضافة إلى قيم الإحصائيات المحدثة.
للبدء، يمكنك جدولة إنشاء الإحصائيات باستخدام وحدة تحكم كتالوج بيانات AWS Glue أو AWS Glue API. يتوفر دعم التوليد المجدول لإحصائيات AWS Glue Catalog بشكل عام في جميع المناطق التي يتوفر فيها مُجدول Amazon EventBridge. تفضل بزيارة وثائق كتالوج AWS Glue لمعرفة المزيد.