Veröffentlicht am: Dec 4, 2018
Kunden können ab sofort Amazon S3 Inventory-Berichte Apache Parquet-Dateiformat erhalten. Amazon S3 Inventory bietet flache Dateilisten mit Objekten und ausgewählten Metadaten für Ihren Bucket oder gemeinsam genutzte Präfixe. Mit S3 Inventory können Sie den Status Ihrer Objekte auflisten, überprüfen und auswerten oder Geschäftsabläufe und große Datenaufträge vereinfachen und beschleunigen.
Parquet ist ein spaltenbasiertes Speicherformat, ähnlich ORC (optimized row-columnar) und steht jedem Projekt im Hadoop-Umfeld zur Verfügung, unabhängig von der Wahl des Datenverarbeitungsrahmens, des Datenmodells oder der Programmiersprache. Das spaltenbasierte Format lässt den Leser nur die Spalten lesen, entpacken und verarbeiten, die für die aktuelle Abfrage benötigt werden. Für die Abfrage von S3 Inventory mit AWS-Services wie Amazon Athena oder Amazon Redshift Spectrum oder Tools wie Apache Hive, Spark, HBase oder Presto empfehlen wir Ihnen, Ihren S3 Inventory-Bericht entweder in Parquet oder ORC zu konfigurieren, um die Abfrageleistung zu erhöhen und die Abfragekosten zu senken.
Das Parquet-Format für S3 Inventory ist in allen kommerziellen AWS- und AWS GovCloud-Regionen verfügbar. Sie können mit dem Einrichten Ihrer S3 Inventory-Konfiguration über die AWS-Managementkonsole oder über die S3 API, die CLI oder das SDK beginnen.