يوفر كتالوج بيانات AWS Glue تحسينًا تلقائيًا متقدمًا لجداول Apache Iceberg

:تاريخ النشر 19 ديسمبر 2024

يوفر كتالوج بيانات AWS Glue الآن تحسينًا تلقائيًا متقدمًا لجداول Apache Iceberg. يتضمن هذا التحديث دعم ضغط الملفات المحذوفة، وأنواع البيانات المتداخلة، وعمليات الالتزام بالتقدم الجزئي، ودعم تطور القسم، مما يجعل من الأسهل الحفاظ على مخازن البيانات المعاملاتية ذات الأداء الثابت. تعالج هذه الميزات التحديات التي يواجهها العملاء فيما يتعلق بتدفق البيانات التي يتم استيعابها باستمرار في جداول Apache Iceberg، مما يؤدي إلى عدد كبير من ملفات الحذف التي تتعقب التغييرات في ملفات البيانات.

بفضل هذه الإمكانية الجديدة، يراقب Glue Data Catalog أقسام الجدول باستمرار بحثًا عن الملفات المحذوفة حسب الموضع أو المساواة، ويبدأ عملية الضغط، ويلتزم بانتظام بالتقدم الجزئي لتقليل التعارضات. يدعم محسِّنو Glue Catalog الآن تطور المخطط أثناء إعادة ترتيب الأعمدة أو إعادة تسميتها بالإضافة إلى تطور مواصفات القسم. بالإضافة إلى ذلك، قام Glue Catalog بتوسيع الدعم للبيانات المعقدة المتداخلة بشكل كبير ودعم برامج ترميز ضغط الباركيه - zstd، وbrotli، وlz4، وgzip، وsnappy. يؤدي تمكين الضغط التلقائي إلى تقليل حذف الملفات والنفقات الإضافية للبيانات الوصفية على جداول Iceberg وتحسين أداء الاستعلام. يتم تطبيق هذه الميزات الجديدة تلقائيًا على محسنات Glue Catalog الحالية والجديدة.

بالإضافة إلى وحدة تحكم AWS، يمكن للعملاء أيضًا استخدام AWS CLI أو AWS SDKs لأتمتة تحسين جداول Apache Iceberg. تتوفر هذه الميزة في 14 منطقة من مناطق AWS وهي شرق الولايات المتحدة (فرجينيا الشمالية وأوهايو)، وغرب الولايات المتحدة (أوريجون)، وأوروبا (أيرلندا ولندن وفرانكفورت وستوكهولم)، وكندا (الوسطى)، وآسيا والمحيط الهادئ (طوكيو وسول ومومباي وسنغافورة وسيدني)، وأمريكا الجنوبية (ساو باولو). لمعرفة المزيد، اقرأ المدونة وتفضل بزيارة وثائق كتالوج بيانات AWS Glue.