يعمل كتالوج بيانات AWS Glue الآن على إنشاء إحصاءات للجداول الجديدة تلقائيًا
يقوم كتالوج بيانات AWS Glue الآن تلقائيًا بإنشاء إحصائيات للجداول الجديدة. تم دمج هذه الإحصائيات مع المحسِّن القائم على التكلفة (CBO) من Amazon Redshift وAmazon Athena، مما يؤدي إلى تحسين أداء الاستعلام وتوفير التكاليف المحتملة.
يتم استخدام إحصائيات الجدول بواسطة محرك استعلام، مثل Amazon Redshift وAmazon Athena، لتحديد الطريقة الأكثر فعالية لتنفيذ الاستعلام. في السابق، كان إنشاء إحصائيات لجداول Apache Iceberg في كتالوج بيانات AWS Glue يتطلب منك مراقبة التكوينات وتحديثها باستمرار لجداولك. الآن، يتيح لك كتالوج بيانات AWS Glue إنشاء إحصائيات تلقائيًا للجداول الجديدة بتكوين كتالوج لمرة واحدة. يمكنك البدء بتحديد الكتالوج الافتراضي في وحدة تحكم Lake Formation وتمكين إحصائيات الجدول في تبويب تكوين تحسين الجدول. عند إنشاء جداول جديدة أو تحديث الجداول الحالية، يتم إنشاء الإحصائيات باستخدام عينة من الصفوف لجميع الأعمدة وسيتم تحديثها بشكل دوري. بالنسبة لجداول Apache Iceberg، تتضمن هذه الإحصائيات عدد القيم المميزة (NDVs). بالنسبة لتنسيقات الملفات الأخرى مثل Parquet، يتم جمع إحصائيات إضافية، مثل عدد القيم الخالية والقيم القصوى والدنيا ومتوسط الطول. يستخدم Amazon Redshift وAmazon Athena الإحصائيات المحدثة لتحسين الاستعلامات، باستخدام التحسينات مثل ترتيب الانضمام الأمثل أو الدفع التجميعي القائم على التكلفة. توفر لك وحدة تحكم كتالوج Glue إمكانية التعرّف على الإحصاءات المحدثة وعمليات إنشاء الإحصائيات.
يتوفر دعم التشغيل الآلي لإحصائيات كتالوج AWS Glue بشكل عام في مناطق AWS التالية: شرق الولايات المتحدة (فرجينيا الشمالية وأوهايو)، وغرب الولايات المتحدة (شمال كاليفورنيا وأوريجون)، وأوروبا (أيرلندا)، ومنطقة آسيا والمحيط الهادئ (طوكيو). اقرأ منشور المدونة وتفضل بزيارة وثائق كتالوج AWS Glue لمعرفة المزيد.