Veröffentlicht am: Nov 22, 2022
Amazon-EMR-Kunden können jetzt den AWS-Glue-Datenkatalog von ihren Streaming- und Batch-SQL-Workflows in Flink aus verwenden. Der AWS-Glue-Datenkatalog ist mit dem Apache Hive Metastore kompatibel. Sie können Ihre Flink-Aufgaben in Amazon EMR so konfigurieren, dass sie den Datenkatalog als einen externen Apache Hive Metastore verwenden. Mit diesem Release können Sie dann Flink-SQL-Abfragen direkt an im Datenkatalog gespeicherten Tabellen ausführen.
Flink unterstützt den Hive Metastore im Cluster als sofort einsatzfähigen persistenten Katalog. Das bedeutet, dass Metadaten erneut erstellt werden mussten, wenn Cluster heruntergefahren waren, und es war schwierig, wenn mehrere Cluster dieselben Metadateninformationen haben sollten. Ab Amazon EMR 6.9 können Ihre Flink-Aufgaben in Amazon EMR Flinks Metadaten im AWS-Glue-Datenkatalog verwalten. Sie können einen persistenten und vollständig verwalteten Glue-Datenkatalog als ein zentralisiertes Repository verwenden. Jeder Datenkatalog ist eine hochgradig skalierbare Sammlung von in Datenbanken organisierten Tabellen.
Der AWS-Glue-Datenkatalog bietet ein einheitliches Repository, in dem unterschiedliche Systeme Metadaten speichern und finden können, um den Überblick über Daten in Datensilos zu behalten. Sie können die Metadaten dann abfragen und diese Daten einheitlich in vielen verschiedenen Anwendungen transformieren. Mit der Unterstützung für den AWS-Glue-Datenkatalog können Sie Apache Flink in Amazon EMR für die einheitliche BATCH- und STREAM-Verarbeitung von Apache-Hive-Tabellen oder Metadaten einer Flink-Tabellenquelle, wie Iceberg, Kinesis oder Kafka, verwenden. Sie können den AWS-Glue-Datenkatalog über die AWS-Managementkonsole, die AWS CLI oder die Amazon EMR API als den Metaspeicher für Flink angeben.
Sie können diese Funktion in allen Regionen nutzen, in denen Amazon EMR verfügbar ist. Um mehr über diese Funktion zu erfahren, lesen Sie die Dokumentation.