Veröffentlicht am: Aug 15, 2023
Amazon EMR Serverless ist eine Serverless-Option für Amazon EMR, mit der Datenanalysten und Techniker ganz einfach Open-Source-Frameworks für Big-Data-Analytik wie Apache Spark und Apache Hive ausführen können, ohne Cluster oder Server konfigurieren, verwalten und skalieren zu müssen. Ab heute können Sie detaillierte Protokollkonfigurationen für Ihre Treiber- und Executor-Protokolle festlegen, wodurch die Fehlersuche bei Ihren Apache-Spark-Jobs vereinfacht wird.
Entwickler müssen häufig Protokolle analysieren, um detaillierte Einblicke in ihre Arbeit zu erhalten, damit sie diese effektiv überwachen und Fehler beheben können. Die Standardprotokolleinstellungen von Spark können jedoch manchmal zu ausführlich sein, sodass es schwierig ist, relevante Protokolleinträge zu finden. Spark verwendet Log4j2 zur Konfiguration von Protokollen. Mit diesem Feature können Sie benutzerdefinierte Log4j2-Einstellungen für Ihre Spark-Treiber- und Executor-Protokolle für die Ausführung jedes EMR-Serverless-Jobs festlegen. Sie können beispielsweise die Standardprotokollebene von Spark auf „ERROR“ einstellen, um minimale Protokolle für Spark zu erhalten, die Protokollebene Ihres Codes auf „INFO“, um detaillierte Protokolle für Ihren Code zu erhalten, und die Protokollebene für Bibliotheken, für die Sie Fehler beheben möchten, auf „DEBUG“, um noch detailliertere Protokolle für diese zu erhalten, so dass Sie die Protokolle besser analysieren können, um aussagekräftige Erkenntnisse zu erhalten.
Dieses Feature ist für alle EMR-Release-Versionen 6.8.0 und höher in allen Regionen, in denen Amazon EMR Serverless verfügbar ist, verfügbar. Weitere Informationen finden Sie auf der Seite Konfiguration von Log4j2.