Themen der Seite
- S3 – Häufig gestellte allgemeine Fragen
20
- AWS-Regionen
6
- Fakturierung
10
- S3 Tables
18
- S3 Vectors
12
- Amazon S3 und IPv6
4
- S3-Ereignisbenachrichtigungen
5
- Amazon S3 Transfer Acceleration
12
- Sicherheit
14
- S3 Access Grants
19
- S3 Access Points
13
- Zuverlässigkeit und Datenschutz
23
- Speicherklassen
2
- S3 Intelligent-Tiering
15
- S3 Standard
2
- S3 Express One Zone
16
- S3 Standard – Infrequent Access (S3 Standard-IA)
8
- S3 One Zone-Infrequent Access (S3 One Zone-IA)
6
- Speicherklasse für Amazon S3 Glacier Instant Retrieval
8
- Speicherklasse für Amazon S3 Glacier Flexible Retrieval
10
- Amazon S3 Glacier Deep Archive
10
- S3 auf Outposts
1
- Speicherverwaltung
46
- Speicheranalysen und Einblicke
12
- Direkte Abfragen
4
- Replikation
32
- Datenverarbeitung
9
- Datenzugriff
20
- Storage Browser für Amazon S3
9
S3 – Häufig gestellte allgemeine Fragen
Alles öffnenEin Tabellen-Bucket wurde speziell für die Speicherung von Tabellen im Apache-Iceberg-Format entwickelt. Verwenden Sie Amazon S3 Tables, um Tabellen-Buckets zu erstellen und Berechtigungen auf Tabellenebene in nur wenigen Schritten einzurichten. S3-Tabellen-Buckets sind speziell für Analytik- und Machine-Learning-Workloads optimiert. Dank der integrierten Unterstützung für Apache Iceberg können Sie tabellarische Daten in S3 mit gängigen Abfrage-Engines wie Amazon Athena, Amazon Redshift und Apache Spark abfragen. Verwenden Sie S3-Tabellen-Buckets, um tabellarische Daten wie tägliche Kauftransaktionen, Streaming-Sensordaten oder Anzeigenimpressionen als Iceberg-Tabelle in Amazon S3 zu speichern und dann mithilfe von Analytikfunktionen mit diesen Daten zu interagieren.
Ein Vektor-Bucket wurde speziell für das Speichern und Abfragen von Vektoren entwickelt. Innerhalb eines Vektor-Buckets verwenden Sie nicht die S3-Objekt-APIs, sondern dedizierte Vektor-APIs, um Vektordaten zu schreiben und sie auf der Grundlage semantischer Bedeutung und Ähnlichkeit abzufragen. Sie können den Zugriff auf Ihre Vektordaten mit den vorhandenen Zugriffskontrollmechanismen in Amazon S3 kontrollieren, einschließlich Bucket- und IAM-Richtlinien. Alle Schreibvorgänge in einen Vektor-Bucket sind stark konsistent, was bedeutet, dass Sie sofort auf die zuletzt hinzugefügten Vektoren zugreifen können. Während Sie Vektoren im Laufe der Zeit schreiben, aktualisieren und löschen, optimieren S3-Vektor-Buckets automatisch die darin gespeicherten Vektordaten, um das optimale Preis-Leistungs-Verhältnis zu erzielen, selbst wenn die Datensätze skalieren und sich weiterentwickeln.
Ein Bucket ist ein Container für Objekte und Tabellen, die in Amazon S3 gespeichert sind, und Sie können eine beliebige Anzahl von Objekten in einem Bucket speichern. Allzweck-Buckets sind der ursprüngliche S3-Bucket-Typ, und ein einziger Allzweck-Bucket kann Objekte enthalten, die in allen Speicherklassen außer S3 Express One Zone gespeichert sind. Sie werden für die meisten Anwendungsfälle und Zugriffsmuster empfohlen. S3-Verzeichnis-Buckets lassen nur Objekte zu, die in der Speicherklasse S3 Express One Zone gespeichert sind, was eine schnellere Datenverarbeitung innerhalb einer einzelnen Availability Zone ermöglicht. Sie werden für Anwendungsfälle mit geringer Latenz empfohlen. Jeder S3-Verzeichnis-Bucket kann bis zu 2 Millionen Transaktionen pro Sekunde (TPS) unterstützen, unabhängig von der Anzahl der Verzeichnisse innerhalb des Buckets. S3-Tabellen-Buckets wurden speziell für die Speicherung tabellarischer Daten in S3 entwickelt, z. B. tägliche Kauftransaktionen, Streaming-Sensordaten oder Anzeigenimpressionen. Wenn Sie einen Tabellen-Bucket verwenden, werden Ihre Daten als Iceberg-Tabelle in S3 gespeichert. Anschließend können Sie mit diesen Daten interagieren, indem Sie Analytikfunktionen wie Transaktionen auf Zeilenebene, abfragbare Tabellen-Snapshots und mehr verwenden, die alle von S3 verwaltet werden. Darüber hinaus führen Tabellen-Buckets eine kontinuierliche Tabellenwartung durch, um die Abfrageeffizienz im Laufe der Zeit automatisch zu optimieren, auch wenn der Data Lake skaliert und weiterentwickelt wird. S3-Vektor-Buckets wurden speziell für das Speichern und Abfragen von Vektoren entwickelt. Innerhalb eines Vektor-Buckets verwenden Sie spezielle Vektor-APIs, um Vektordaten zu schreiben und sie auf der Grundlage ihrer semantischen Bedeutung und Ähnlichkeit abzufragen. Sie können den Zugriff auf Ihre Vektordaten mithilfe der vorhandenen Zugriffskontrollmechanismen in Amazon S3 kontrollieren, einschließlich Bucket- und IAM-Richtlinien. Während Sie Vektoren im Laufe der Zeit schreiben, aktualisieren und löschen, optimieren S3-Vektor-Buckets automatisch die darin gespeicherten Vektordaten, um das optimale Preis-Leistungs-Verhältnis zu erzielen, selbst wenn die Datensätze skalieren und sich weiterentwickeln.
AWS-Regionen
Alles öffnenDie Speicherklasse Amazon-S3-One-Zone-IA repliziert Daten innerhalb einer einzigen AZ. Die in S3 One Zone-IA gespeicherten Daten sind nicht resistent gegen den physischen Verlust einer Availability Zone infolge von Katastrophen wie Erdbeben, Brände oder Überschwemmungen.
Fakturierung
Alles öffnen2) Tag 16 des Monats: Sie führen eine PUT-Anfrage von 5 GB (5 368 709 120 Bytes) innerhalb desselben Buckets aus und verwenden denselben Schlüssel wie bei der ursprünglichen PUT-Anfrage an Tag 1.
Bei der Analyse der Speicherkosten der obigen Vorgänge beachten Sie, dass das 4-GB-Objekt von Tag 1 nicht aus dem Bucket gelöscht wird, wenn das 5-GB-Objekt am Tag 15 geschrieben wird. Das 4-GB-Objekt wird hingegen als ältere Version gespeichert und das 5-GB-Objekt wird zur zuletzt geschriebenen Version des Objekts in Ihrem Bucket. Am Ende des Monats: Byte-Hour-Nutzung insgesamt
[4 294 967 296 Bytes x 31 Tage x (24 Stunden/Tag)] + [5 368 709 120 Bytes x 16 Tage x (24 Stunden/Tag)] = 5 257 039 970 304 Byte-Stunden. Umrechnung in Gesamtzahl GB-Monate
5 257 039 970 304 Byte-Stunden x (1 GB / 1 073 741 824 Bytes) x (1 Monat / 744 Stunden) = 6,581 GB-Monat Die Kosten errechnen sich aus den aktuellen Tarifen für Ihre Region, die Sie auf der Preisseite zu Amazon S3 finden.
S3 Tables
Alles öffnenS3 Tables bieten speziell entwickelten S3-Speicher zum Speichern strukturierter Daten im Apache-Parquet-Format. Innerhalb eines Tabellen-Buckets können Sie Tabellen als erstklassige Ressourcen direkt in S3 erstellen. Diese Tabellen können mit Berechtigungen auf Tabellenebene gesichert werden, die entweder in identitäts- oder ressourcenbasierten Richtlinien definiert sind, und sind für Anwendungen oder Tools zugänglich, die den Apache-Iceberg-Standard unterstützen. Wenn Sie eine Tabelle in Ihrem Tabellen-Bucket erstellen, werden die zugrunde liegenden Daten in S3 als Parquet-Dateien gespeichert. Dann verwendet S3 den Apache-Iceberg-Standard, um die Metadaten zu speichern, die erforderlich sind, damit diese Parquet-Daten von Ihren Anwendungen abgefragt werden können. S3 Tables enthalten eine Client-Bibliothek, die von Abfrage-Engines verwendet wird, um in den Iceberg-Metadaten der Tabellen in Ihrem Tabellen-Bucket zu navigieren und sie zu aktualisieren. Diese Bibliothek ermöglicht in Verbindung mit aktualisierten S3-APIs für Tabellenoperationen mehreren Clients das sichere Lesen und Schreiben von Daten in Ihre Tabellen. Im Laufe der Zeit optimiert S3 automatisch die zugrunde liegenden Parquet-, Avro- oder ORC-Daten, indem Ihre Objekte neu geschrieben oder „komprimiert“ werden. Die Komprimierung optimiert Ihre Daten auf S3, um die Abfrageleistung zu verbessern.
Sie können in nur drei Schritten mit S3 Tables beginnen, ohne eine Infrastruktur außerhalb von Amazon S3 einrichten zu müssen. Erstellen Sie zunächst einen Tabellen-Bucket in der S3-Konsole. Im Rahmen der Erstellung Ihres ersten Tabellen-Buckets über die Konsole erfolgt die Integration mit den AWS-Analytics-Services automatisch, sodass S3 automatisch alle Tabellen-Buckets und Tabellen in Ihrem Konto und Ihrer Region im AWS-Glue-Datenkatalog auffüllen kann. Danach ist S3 Tables jetzt für AWS-Abfrage-Engines wie Amazon Athena, EMR und Redshift zugänglich. Als Nächstes können Sie in der S3-Konsole auf Amazon Athena klicken, um eine Tabelle zu erstellen. Sobald Sie sich in Athena befinden, können Sie umgehend mit dem Erstellen neuer Tabellen und dem Abfragen dieser Tabellen beginnen.
Alternativ können Sie mithilfe des Iceberg-REST-Katalog-Endpunkts über den AWS-Glue-Datenkatalog auf S3 Tables zugreifen, sodass Sie Ihren gesamten Datenbestand einschließlich aller Tabellenressourcen ermitteln können. Sie können auch eine direkte Verbindung zu einem einzelnen Tabellen-Bucket-Endpunkt herstellen, um alle S3-Tables-Ressourcen in diesem Bucket zu ermitteln. Auf diese Weise können Sie S3-Tables mit jeder Anwendung oder Abfrage-Engine verwenden, die die Apache-Iceberg-REST-Katalog-Spezifikation unterstützt.
Sie können eine bis zu 3-mal schnellere Abfrageleistung und bis zu 10-mal höhere Transaktionen pro Sekunde (TPS) im Vergleich zum Speichern von Iceberg-Tabellen in Amazon-S3-Allzweck-Buckets erwarten. Das liegt daran, dass Tabellen-Buckets automatisch die zugrunde liegenden Parquet-Daten für Ihre Tabellen komprimieren, um die Abfrageleistung zu optimieren. Der speziell entwickelte Speicher unterstützt standardmäßig das bis zu 10-fache TPS.
Tabellen-Buckets bieten Ihnen die Möglichkeit, Ressourcenrichtlinien auf den gesamten Bucket oder auf einzelne Tabellen anzuwenden. Tabellen-Bucket-Richtlinien können mithilfe der PutTablePolicy- und PutTableBucketPolicy-APIs angewendet werden. Mithilfe von Richtlinien auf Tabellenebene können Sie die Berechtigungen für Tabellen in Ihren Tabellen-Buckets auf der Grundlage der logischen Tabelle verwalten, mit der sie verknüpft sind, ohne den physischen Speicherort der einzelnen Parquet-Dateien kennen zu müssen. Darüber hinaus wird S3 Block Public Access immer auf Ihre Tabellen-Buckets angewendet.
Tabellen-Buckets unterstützen das Apache-Iceberg-Tabellenformat mit Parquet-Daten.
S3 Vectors
Alles öffnenSie können in vier einfachen Schritten mit S3 Vectors beginnen, ohne eine Infrastruktur außerhalb von Amazon S3 einrichten zu müssen. Erstellen Sie zunächst einen Vektor-Bucket in einer bestimmten AWS-Region über die CreateVectorBucket-API oder in der S3-Konsole. Zweitens erstellen Sie einen Vektorindex mit der CreateIndex-API oder in der S3-Konsole, um Ihre Vektordaten in einem Vektor-Bucket zu organisieren. Wenn Sie einen Vektorindex erstellen, geben Sie die Entfernungsmetrik (Kosinus oder Euklidisch) und die Anzahl der Dimensionen an, die ein Vektor haben sollte (bis zu 4 092). Wählen Sie für die genauesten Ergebnisse die von Ihrem Einbettungsmodell empfohlene Entfernungsmetrik aus. Drittens fügen Sie einem Vektorindex mit der PutVectors API Vektordaten hinzu. Sie können optional Metadaten als Schlüsselwertpaare an jeden Vektor anhängen, um Abfragen zu filtern. Viertens führen Sie mithilfe der QueryVectors-API eine Ähnlichkeitsabfrage durch und geben Sie den zu suchenden Vektor und die Anzahl der ähnlichsten Ergebnisse an, die zurückgegeben werden sollen.
Sie können einen Vektorindex mit der S3-Konsole oder der CreateIndex-API erstellen. Bei der Indexerstellung geben Sie den Vektor-Bucket, den Index, die Entfernungsmetrik, die Dimensionen und optional eine Liste von Metadatenfeldern an, die Sie bei Ähnlichkeitsabfragen von der Filterung ausschließen möchten. Wenn Sie beispielsweise Daten, die mit Vektoren verknüpft sind, nur zu Referenzzwecken speichern möchten, können Sie diese als nicht filterbare Metadatenfelder angeben. Bei der Erstellung wird jedem Index ein eindeutiger Amazon-Ressourcenname (ARN) zugewiesen. Wenn Sie anschließend eine Schreib- oder Abfrageanforderung stellen, leiten Sie diese an einen Vektorindex innerhalb eines Vektor-Buckets weiter.
Mit der PutVectors API können Sie Vektoren zu einem Vektorindex hinzufügen. Jeder Vektor besteht aus einem Schlüssel, der jeden Vektor in einem Vektorindex eindeutig identifiziert (z. B. können Sie programmgesteuert eine UUID generieren). Um den Schreibdurchsatz zu maximieren, wird empfohlen, Vektoren in großen Batches bis zur maximalen Anforderungsgröße einzufügen. Darüber hinaus können Sie Metadaten (wie Jahr, Autor, Genre und Ort) als Schlüsselwertpaare an jeden Vektor anhängen. Bei der Einbindung von Metadaten können standardmäßig alle Felder als Filter in einer Ähnlichkeitsabfrage verwendet werden, sofern sie nicht zum Zeitpunkt der Erstellung des Vektorindexes als nicht filterbare Metadaten gekennzeichnet wurden. Um neue Vektoreinbettungen Ihrer unstrukturierten Daten zu generieren, können Sie die InvokeModel-API von Amazon Bedrock verwenden und dabei die Modell-ID des Einbettungsmodells angeben, das Sie verwenden möchten.
Sie können die GetVectors-API verwenden, um Vektoren und zugehörige Metadaten anhand des Vektorschlüssels nachzuschlagen und zurückzugeben.
Sie können eine Ähnlichkeitsabfrage mit der QueryVectors API ausführen und dabei den Abfragevektor, die Anzahl der relevanten Ergebnisse, die zurückgegeben werden sollen (die besten .000 nächsten Nachbarn) und den Index-ARN angeben. Beim Generieren des Abfrage-Vektors sollten Sie dasselbe Einbettungsmodell verwenden, das zum Generieren der im Vektorindex gespeicherten Anfangsvektoren verwendet wurde. Wenn Sie beispielsweise Amazon Titan Text Embeddings v2 in Amazon Bedrock verwenden, um Einbettungen Ihrer Dokumente zu generieren, wird empfohlen, dasselbe Modell zu verwenden, um eine Frage in einen Vektor umzuwandeln. Darüber hinaus können Sie Metadatenfilter in einer Abfrage verwenden, um nach Vektoren zu suchen, die dem Filter entsprechen. Wenn Sie die Ähnlichkeitsabfrage ausführen, werden standardmäßig die Vektorschlüssel zurückgegeben. Sie können optional die Entfernung und die Metadaten in die Antwort aufnehmen.
S3 Vectors bietet einen äußerst langlebigen und verfügbaren Vektorspeicher. In S3 Vectors geschriebene Daten werden auf S3 gespeichert, das für eine Datenbeständigkeit von 11 9s ausgelegt ist. S3 Vectors wurde für eine Verfügbarkeit von 99,99 % mit einer Verfügbarkeits-SLA von 99.9 % entwickelt.
S3 Vectors bietet Abfragelatenzzeiten von unter einer Sekunde. Es nutzt den elastischen Durchsatz von Amazon S3, um Suchanfragen über Millionen von Vektoren abzuwickeln, und ist ideal für seltene Abfrage-Workloads.
Bei der Durchführung von Ähnlichkeitsabfragen für Ihre Vektoreinbettungen können mehrere Faktoren den durchschnittlichen Erinnerungswert beeinflussen, darunter das Einbettungsmodell, die Größe des Vektor-Datensatzes (Anzahl der Vektoren und Dimensionen) und die Verteilung der Abfragen. S3 Vectors bietet für die meisten Datensätze eine durchschnittliche Erinnerungsrate von über 90 %. Average Recall misst die Qualität der Abfrageergebnisse – 90 % bedeuten, dass die Antwort 90 % der Ground-Truth-Vektoren enthält, die im Index gespeichert sind und dem Abfragefektor am nächsten sind. Da die tatsächliche Leistung jedoch je nach Ihrem speziellen Anwendungsfall variieren kann, empfehlen wir, Ihre eigenen Tests mit repräsentativen Daten und Abfragen durchzuführen, um zu überprüfen, ob S3-Vektorindizes Ihre Anforderungen erfüllen.
Sie können eine Liste von Vektoren in einem Vektorindex mit der ListVectors-API sehen, die bis zu 1 000 Vektoren gleichzeitig mit einem Indikator zurückgibt, wenn die Antwort gekürzt wird. Die Antwort enthält das Datum der letzten Änderung, den Vektorschlüssel, die Vektordaten und die Metadaten. Sie können auch die ListVectors API verwenden, um Vektordaten einfach aus einem bestimmten Vektorindex zu exportieren. Der ListVectors-Vorgang ist sehr konsistent. Nach einem Schreibvorgang können Sie also sofort Vektoren mit allen Änderungen auflisten.
Mit S3 Vectors zahlen Sie für Speicherplatz und alle anfallenden Schreib- und Leseanforderungen (z. B. das Einfügen von Vektoren und das Ausführen von Abfrageoperationen an Vektoren in einem Vektorindex). Preisdetails finden Sie auf der S3-Preisseite.
Ja. Während Sie eine Bedrock Knowledge Base über die Bedrock-Konsole oder -API erstellen, können Sie einen vorhandenen S3-Vektorindex als Ihren Vektorspeicher konfigurieren, um Vektorspeicherkosten für RAG-Anwendungsfälle zu sparen. Wenn Sie es vorziehen, Bedrock den Vektorindex für Sie erstellen und verwalten zu lassen, verwenden Sie den Quick-Create-Workflow in der Bedrock-Konsole. Darüber hinaus können Sie einen neuen S3-Vektorindex als Ihren Vektorspeicher für RAG-Workflows in Amazon SageMaker Unified Studio konfigurieren.
Ja. Es gibt zwei Möglichkeiten, S3 Vectors mit Amazon OpenSearch Service zu verwenden. Erstens können S3-Kunden alle Vektoren aus einem S3-Vektorindex als neue Serverless-Sammlung mithilfe der S3- oder OpenSearch-Konsole nach OpenSearch Serverless exportieren. Wenn Sie nativ auf S3 Vectors aufbauen, profitieren Sie von der Möglichkeit, OpenSearch Serverless selektiv für Workloads mit Echtzeitabfrageanforderungen zu verwenden. Zweitens: Wenn Sie ein verwalteter OpenSearch-Kunde sind, können Sie nun S3 Vectors als Ihre Engine für Vektordaten auswählen, die mit einer Latenz von weniger als einer Sekunde abgefragt werden können. OpenSearch verwendet dann automatisch S3 Vectors als zugrunde liegende Engine für Vektoren und Sie können Ihre Vektordaten mithilfe der OpenSearch-APIs aktualisieren und durchsuchen. Sie profitieren von den Kostenvorteilen von S3 Vectors, ohne Änderungen an Ihren Anwendungen vornehmen zu müssen.
Amazon S3 und IPv6
Alles öffnenS3-Ereignisbenachrichtigungen
Alles öffnenAmazon S3 Transfer Acceleration
Alles öffnenWeitere Informationen zur AWS-Implementierung erhalten Sie unter Dateiabschnitt: Storage Gateway – Häufig gestellte Fragen.
Sicherheit
Alles öffnenWeitere Informationen zur Sicherheit in AWS finden Sie auf der Seite AWS Security. Sicherheitsinformationen zu S3 finden Sie auf der Seite S3 Security und dem Leitfaden zu bewährten S3-Sicherheitsmethoden.
Standardmäßig bleiben Ihre Objektdaten und Objektmetadaten in der einzigen dedizierten Local Zone, in der Sie das Objekt platziert haben. Bucket-Verwaltungs- und Telemetriedaten, einschließlich Bucket-Namen, Kapazitätsmetriken, CloudTrail-Protokolle, CloudWatch-Metriken, vom Kunden verwaltete Schlüssel von AWS Key Management Service (KMS) und IAM-Richtlinien (Identity and Access Management), werden wieder in der übergeordneten AWS-Region gespeichert. Optional speichern andere Bucket-Verwaltungsfunktionen, wie S3 Batch Operations, Verwaltungsmetadaten mit Bucket-Namen und Objektnamen in der übergeordneten AWS-Region.
Sie können einen Schnittstellen-VPC-Endpunkt mithilfe der AWS-VPC-Managementkonsole, der AWS Command Line Interface (AWS CLI), des AWS SDK oder der API erstellen. Weitere Informationen finden Sie in der Dokumentation.
Weitere Informationen finden Sie in der Dokumentation zu IAM Access Analyzer.
S3 Access Grants
Alles öffnenS3 Access Points
Alles öffnenAmazon S3 Access Points sind Endpunkte, welche die Verwaltung des Datenzugriffs für alle Anwendungen oder AWS-Services, die mit S3 arbeiten vereinfachen. S3 Access Points funktionieren mit S3-Buckets und Amazon FSX für OpenZFS-Dateisysteme. Sie können steuern und vereinfachen, wie verschiedene Anwendungen oder Benutzer auf Daten zugreifen können, indem Sie Zugangspunkte mit Namen und Berechtigungen erstellen, die auf jede Anwendung oder jeden Benutzer zugeschnitten sind.
Durch die Verwendung von S3 Access Points mit S3-Buckets müssen Sie nicht mehr eine einzige, komplexe Bucket-Richtlinie mit Hunderten von verschiedenen Berechtigungsregeln verwalten, die geschrieben, gelesen, nachverfolgt und geprüft werden müssen. Stattdessen können Sie Hunderte von Zugangspunkten pro Bucket erstellen, die jeweils einen benutzerdefinierten Pfad in einen Bucket bieten, mit einem eindeutigen Hostnamen und einer Zugriffsrichtlinie, die die spezifischen Berechtigungen und Netzwerkkontrollen für jede über den Zugangspunkt gestellte Anfrage durchsetzt.
Wenn Sie S3 Access Points mit FSx für OpenZFS verwenden, können Sie mithilfe der S3-API auf Ihre FSx-Daten zugreifen, als ob die Daten in S3 wären. Mit dieser Funktion sind Ihre Dateidaten in FSx für OpenZFS für die Verwendung mit einer Vielzahl von Diensten und Anwendungen für künstliche Intelligenz, Machine Learning und Analytik zugänglich, die mit S3 funktionieren, während Ihre Dateidaten weiterhin auf dem FSx für OpenZFS-Dateisystem gespeichert sind.
Mit S3 Access Points können Sie mithilfe von S3-APIs auf Dateidaten in Amazon FSX für OpenZFS zugreifen, ohne Daten nach S3 zu verschieben. An FSX angehängte S3 Access Points für OpenZFS-Dateisysteme funktionieren ähnlich wie S3 Access Points, die an S3-Buckets angeschlossen sind. Sie ermöglichen den Datenzugriff über S3, wobei der Zugriff durch Zugriffsrichtlinien gesteuert wird, während Daten weiterhin entweder in FSX für OpenZFS-Dateisysteme oder in S3-Buckets gespeichert werden. Sobald beispielsweise ein S3 Access Point an ein FSX-für-OpenZFS-Dateisystem angeschlossen ist, können Kunden den Access Point mit generativen KI-, Machine Learning- und Analysediensten und -anwendungen, die mit S3 funktionieren, verwenden, um auf ihre FSx-für-OpenZFS-Daten zuzugreifen.
Zuverlässigkeit und Datenschutz
Alles öffnenAmazon S3 verwendet eine Kombination aus Content-MD5-Prüfsummen, Secure Hash Algorithms (SHAs) und zyklischen Redundanzprüfungen (CRCs), um die Datenintegrität zu verifizieren. Amazon S3 führt diese Prüfsummen auf Daten im Ruhemodus aus und behebt alle Verfälschungen mit redundanten Daten. Darüber hinaus berechnen die neuesten AWS-SDKs automatisch effiziente CRC-basierte Prüfsummen für alle Uploads. S3 überprüft diese Prüfsummen unabhängig und akzeptiert Objekte nur nachdem bestätigt wurde, dass die Datenintegrität bei der Übertragung über das öffentliche Internet gewahrt wurde. Wenn eine Version des SDK, die keine vorberechneten Prüfsummen bereitstellt, verwendet wird, um ein Objekt hochzuladen, berechnet S3 eine CRC-basierte Prüfsumme des gesamten Objekts, auch für mehrteilige Uploads. Prüfsummen werden in Objektmetadaten gespeichert und sind daher jederzeit verfügbar, um die Datenintegrität zu überprüfen. Für die Überprüfung der Datenintegrität bei Upload- und Download-Anforderungen können Sie aus fünf unterstützten Prüfsummenalgorithmen wählen. Je nach Anwendungsanforderungen können Sie einen SHA-1-, SHA-256-, CRC32-, CRC32C- oder CRC64NVME-Prüfsummenalgorithmus auswählen. Sie können Prüfsummen automatisch berechnen und überprüfen, wenn Sie Daten in S3 speichern oder abrufen, und Sie können die Prüfsummeninformationen jederzeit über die HeadObject S3 API, die GetObjectAttributes S3 API oder einen S3-Inventarbericht abrufen. Die Berechnung einer Prüfsumme beim Streaming von Daten in S3 spart Zeit, da Sie Ihre Daten in einem einzigen Durchgang verifizieren und übertragen können, anstatt zwei aufeinanderfolgende Vorgänge durchzuführen. Die Verwendung von Prüfsummen für die Datenvalidierung ist eine bewährte Praxis für die Datenbeständigkeit. Diese Funktionen erhöhen die Leistung und reduzieren die dabei anfallenden Kosten.
2) Tag 16 des Monats: Sie führen eine PUT-Anfrage von 5 GB (5 368 709 120 Bytes) innerhalb desselben Buckets aus und verwenden denselben Schlüssel wie bei der ursprünglichen PUT-Anfrage an Tag 1.
Bei der Analyse der Speicherkosten der obigen Vorgänge beachten Sie, dass das 4-GB-Objekt von Tag 1 nicht aus dem Bucket gelöscht wird, wenn das 5-GB-Objekt am Tag 15 geschrieben wird. Das 4-GB-Objekt wird hingegen als ältere Version gespeichert und das 5-GB-Objekt wird zur zuletzt geschriebenen Version des Objekts in Ihrem Bucket. Am Ende des Monats: Byte-Hour-Nutzung insgesamt
[4 294 967 296 Bytes x 31 Tage x (24 Stunden/Tag)] + [5 368 709 120 Bytes x 16 Tage x (24 Stunden/Tag)] = 5 257 039 970 304 Byte-Stunden. Umrechnung in Gesamtzahl GB-Monate
5 257 039 970 304 Byte-Stunden x (1 GB / 1 073 741 824 Bytes) x (1 Monat / 744 Stunden) = 6,581 GB-Monat Die Kosten errechnen sich aus den aktuellen Tarifen für Ihre Region, die Sie auf der Preisseite zu Amazon S3 finden.
Weitere Informationen finden Sie im Benutzerhandbuch für S3 Object Lock.
Die S3-Objektsperre kann in einem Modus oder in zwei Modi konfiguriert werden. Wenn die Bereitstellung im Governance-Modus erfolgt, können AWS-Konten mit bestimmten IAM-Berechtigungen den WORM-Schutz von einer Objektversion entfernen. Wenn aufgrund von Richtlinien eine stärkere Unveränderlichkeit gewünscht wird, können Sie den Compliance-Modus verwenden. Im Compliance-Modus kann der WORM-Schutz von keinem Benutzer entfernt werden. Das gilt auch für das Root-Konto.
Nein, Sie können S3 Object Lock oder die S3-Versionsverwaltung für Buckets nicht deaktivieren, sobald S3 Object Lock aktiviert ist.
Um mit der Replikation von Objekten mit S3 Replication aus Buckets zu beginnen, für die S3 Object Lock aktiviert ist, können Sie Ihrem Quell-Bucket eine Replikationskonfiguration hinzufügen, indem Sie einen Ziel-Bucket in derselben oder einer anderen AWS-Region und in demselben oder einem anderen AWS-Konto angeben. Sie können wählen, ob Sie alle Objekte auf S3-Bucket-Ebene replizieren oder Objekte auf einer gemeinsamen Präfixebene oder auf Objektebene mithilfe von S3-Objekt-Tags filtern möchten. Sie müssen auch eine AWS Identity and Access Management (IAM)-Rolle mit den erforderlichen Berechtigungen angeben, um den Replikationsvorgang durchzuführen. Sie können die S3-Konsole, die AWS-API, die AWS-CLI, die AWS-SDKs oder AWS CloudFormation verwenden, um die Replikation zu aktivieren, und Sie müssen S3 Versioning sowohl für den Quell- als auch für den Ziel-Bucket aktiviert haben. Um Objekte aus Buckets mit aktiviertem S3 Object Lock zu replizieren, muss in Ihrem Ziel-Bucket außerdem S3 Object Lock aktiviert sein. Weitere Informationen finden Sie in der Dokumentation zur Einrichtung der S3-Replikation und zur Verwendung von S3 Object Lock mit S3 Replication.
Ja, um Objekte aus Buckets mit aktiviertem S3 Object Lock zu replizieren, müssen Sie zwei neue Berechtigungen, s3:getObjectRetention und s3:getObjectLegalHold, für den Quell-Bucket in der IAM-Rolle gewähren, die Sie zum Einrichten der Replikation verwenden. Wenn die IAM-Rolle alternativ über eine s3:Get*-Berechtigung verfügt, erfüllt sie die Anforderung. Weitere Informationen finden Sie in der Dokumentation zur Verwendung von S3 Object Lock mit S3 Replication.
Nein, alle Features von S3 Replication, wie regionsinterne S3-Replikation (S3 SRR), regionsübergreifende S3-Replikation (S3 CRR), S3-Replikationsmetriken zur Verfolgung des Fortschritts, Begrenzung der S3-Replikationszeit (S3 RTC) und S3 Batch Replication, werden bei der Replikation aus S3-Object-Lock-Buckets unterstützt.
Sie können die S3 Batch Replication verwenden, um vorhandene Objekte aus Buckets mit aktiviertem S3 Object Lock zu replizieren. Weitere Informationen zur Replikation vorhandener Objekte finden Sie in der Dokumentation zur S3 Batch Replication.
Speicherklassen
Alles öffnenBei der Entscheidung, welche S3-Speicherklasse am besten für Ihre Workload geeignet ist, sollten Sie die Zugriffsmuster und die Aufbewahrungszeit Ihrer Daten berücksichtigen, um die niedrigsten Gesamtkosten über die Lebensdauer Ihrer Daten zu erhalten. Viele Workloads haben wechselnde (nutzergenerierte Inhalte), unvorhersehbare (Analysen, Data Lakes) oder unbekannte (neue Anwendungen) Zugriffsmuster. Deshalb sollte S3 Intelligent-Tiering die Standard-Speicherklasse sein, um automatisch Speicherkosten zu sparen. Wenn Sie die Zugriffsmuster Ihrer Daten kennen, können Sie die folgenden Hinweise befolgen. Die Speicherklasse S3 Standard ist ideal für Daten, auf die häufig zugegriffen wird. Sie ist die beste Wahl, wenn Sie mehr als einmal pro Monat auf Daten zugreifen. S3 Standard-Infrequent Access ist ideal für Daten, die mindestens einen Monat lang aufbewahrt werden und auf die alle ein bis zwei Monate zugegriffen wird. Die Amazon-S3-Glacier-Speicherklassen wurden speziell für die Datenarchivierung entwickelt und bieten Ihnen die höchste Leistung, die größte Abrufflexibilität und den kostengünstigsten Archivspeicher in der Cloud. Sie können jetzt aus drei Archivspeicherklassen wählen, die für unterschiedliche Zugriffsmuster und Speicherdauer optimiert wurden. Für Archivdaten, auf die sofortiger Zugriff erforderlich ist, wie z. B. medizinische Bilder, Nachrichtenmedien-Komponenten oder Genomik-Daten, ist die Speicherklasse S3 Glacier Instant Retrieval die erste Wahl und bietet die kostengünstigste Speicherung mit Abrufen in Millisekunden. Für Archivdaten, auf die kein sofortiger Zugriff erforderlich ist, die aber die Flexibilität benötigen, große Datenmengen kostenlos abzurufen, wie z. B. Backup- oder Notfallwiederherstellungs-Anwendungsfälle, wählen Sie S3 Glacier Flexible Retrieval, mit Abrufen innerhalb von Minuten oder kostenlosen Massenabrufen innerhalb von 5–12 Stunden. Um bei Langzeit-Archivspeichern, wie z. B. Compliance-Archiven und der Aufbewahrung digitaler Medien, noch mehr sparen zu können, wählen Sie S3 Glacier Deep Archive, den kostengünstigsten Speicher in der Cloud mit Datenabruf innerhalb von 12 Stunden. Alle diese Speicherklassen bieten Ausfallsicherheit für mehrere Availability Zones (AZ), indem sie Daten redundant auf mehreren Geräten und physisch getrennten AWS Availability Zones in einer AWS-Region speichern.
Für Daten mit geringeren Anforderungen an die Ausfallsicherheit können Sie die Kosten senken, indem Sie eine Speicherklasse mit einer einzelnen AZ auswählen, wie S3 One Zone-Infrequent Access. Wenn Sie Datenresidenz- oder Isolierungsanforderungen haben, die von einer bestehenden AWS-Region nicht erfüllt werden können, können Sie S3-Speicherklassen für dedizierte AWS Local Zones oder S3 on Outposts-Racks verwenden, um Ihre Daten in einem bestimmten Perimeter zu speichern.
S3 Intelligent-Tiering
Alles öffnenEs gibt keine Mindestobjektgröße in S3 Intelligent-Tiering, aber Objekte, die kleiner als 128 KB sind, kommen nicht für das automatische Tiering in Frage. Diese kleineren Objekte können auch in S3 Intelligent-Tiering gespeichert werden, werden jedoch immer zu den Tarifen für die Frequent-Access-Ebene berechnet. Es fallen keine Überwachungs- und Automatisierungsgebühren an. Wenn Sie S3 Intelligent-Tiering als Standardspeicherklasse für neu erstellte Daten verwenden möchten, können Sie Ihre Anwendungen ändern, indem Sie INTELLIGENT-TIERING im Header Ihrer S3-PUT-API-Anforderung angeben. S3 Intelligent-Tiering ist auf eine Verfügbarkeit von 99,9 % und eine Haltbarkeit der Daten von 99,999999999 % ausgelegt. Es bietet automatisch die gleiche niedrige Latenz und hohe Durchsatzleistung wie S3 Standard. Verwenden Sie den AWS-Cost-Explorer, um die zusätzlichen Einsparungen durch die Archive-Instant-Access-Ebene zu messen.
Gegen eine geringe Überwachungs- und Automatisierungsgebühr überwacht S3 Intelligent-Tiering die Zugriffsmuster und verschiebt Objekte automatisch in drei Zugriffsebenen mit niedriger Latenz und hohem Durchsatz sowie in zwei optionale asynchrone Archivzugriffsebenen, die Kunden die niedrigsten Cloud-Speicherkosten für Daten bieten, auf die asynchron zugegriffen werden kann.
Es gibt keine Mindestgröße für abrechenbare Objekte in S3 Intelligent-Tiering, aber Objekte, die kleiner als 128 KB sind, kommen nicht für das automatische Tiering in Frage. Diese kleinen Objekte werden nicht überwacht und werden immer zu den Tarifen der Frequent-Access-Ebene abgerechnet, ohne Überwachungs- und Automatisierungsgebühren. Für jedes Objekt, das auf der Archivzugriffsebene oder der tiefen Archivzugriffsebene in S3 Intelligent-Tiering archiviert wird, benutzt Amazon S3 8 KB Speicherplatz für den Namen des Objekts und andere Metadaten (abgerechnet zu S3 Standard-Speichertarifen) und 32 KB Speicherplatz für Index- und zugehörige Metadaten (abgerechnet zu Speichertarifen von S3 Glacier und S3 Glacier Deep Archive).
S3 Standard
Alles öffnenS3 Express One Zone
Alles öffnenSie können Daten aus derselben AWS-Region über die S3-Konsole in die S3-Speicherklasse Express One Zone importieren, indem Sie die Import-Option verwenden, nachdem Sie einen Verzeichnis-Bucket erstellt haben. Import vereinfacht das Kopieren von Daten in S3-Verzeichnis-Buckets, indem Sie ein Präfix oder einen Bucket auswählen können, aus dem Daten importiert werden sollen, ohne alle zu kopierenden Objekte einzeln angeben zu müssen. S3 Batch Operations kopiert die Objekte in das ausgewählte Präfix oder den Allzweck-Bucket, und Sie können den Fortschritt des Importkopierauftrags auf der Seite mit den Auftragsdetails von S3 Batch Operations überwachen.
S3-Verzeichnis-Buckets, die über einen Zeitraum von mindestens 3 Monaten keine Anforderungsaktivität aufweisen, werden in einen inaktiven Zustand versetzt. In einem inaktiven Zustand ist ein Verzeichnis-Bucket vorübergehend für Lese- und Schreibvorgänge nicht zugänglich. Inaktive Buckets behalten alle Speicher-, Objekt- und Bucket-Metadaten bei. Bestehende Speichergebühren fallen für inaktive Buckets an. Bei einer Zugriffsanforderung auf einen inaktiven Bucket wechselt der Bucket in einen aktiven Zustand, in der Regel innerhalb weniger Minuten. Während dieser Übergangsphase geben Lese- und Schreibvorgänge einen „503 SlowDown“-Fehlercode zurück.
Nehmen wir an, Sie speichern 10 GB an Daten 30 Tage lang in S3 Express One Zone, führen insgesamt 1 000 000 Schreibvorgänge und 9 000.000 Lesevorgänge durch und greifen mit Athena mit einer Anforderungsgröße von 10 KB zu. Anschließend löschen Sie innerhalb von 30 Tagen 1 000 000 Dateien. Die Gebühren für Speicherung und Anforderungen sind im Folgenden aufgeführt. Dabei wird davon ausgegangen, dass sich Ihr Bucket in der Region USA Ost (Nord-Virginia) befindet: Speichergebühren
Gesamtzahl verwendeter Byte-Stunden = 10 GB-Monat
Gesamtspeicherkosten = 10 GB pro Monat x 0,11 USD = 1,10 USD Anforderungsgebühren
1 000 000 PUT-Anforderungen: 1 000 000 Anforderungen x 0,00113 USD/1 000 = 1,13 USD
9 000 000 GET-Anforderungen: 9 000 000 Anforderungen x 0,00003 USD/1 000 = 0,27 USD
1 000 000 DELETE-Anforderungen = 1 000 000 Anforderungen x 0,00 USD (keine Gebühr) = 0 USD Gebühr für das Hochladen von Daten: 10 KB/1 048 576 x 0,0032 USD = 0,03 USD
Gebühr für den Datenabruf: 10 KB/1 048 576 x 9 000 000 x 0,0006 USD = 0,05 USD
Gesamtgebühren = 1,10 USD + 1,13 USD + 0,27 USD + 0,03 USD + 0,05 USD = 2,58 USD Beispiel 2:
Nehmen wir an, Sie speichern täglich 10 TB an Daten für Machine Learning für einen 8-stündigen Workload und löschen diese dann. Während des 8-stündigen Workloads führen Sie 5 242 880 Schreibvorgänge und 10 485 760 Lesevorgänge für eine Anforderungsgröße von 2 MB aus. Nehmen wir an, Sie tun dies 30 Tage lang (einen Monat). Speichergebühren
Gesamtnutzung in Byte-Stunden = [10 995 116 277 760 Byte x 30 Tage x (8 Stunden pro Tag)] = 2 638 827 906 662 400 Byte-Stunden = 3 303,77 GB-Monat
Gesamtspeicherkosten = 3303,77 GB x 0,11 USD = 363,41 USD Anforderungsgebühren
5 242 880 PUT-Anfragen/Tag: 5 242 880 Anfragen x 30 x 0,00113 USD/1 000 = 177,73 USD
10 485 760 GET-Anfragen/Tag: 10 485 760 Anfragen x 30 x 0,00003 USD/1 000 = 9,44 USD
5 242 880 DELETE-Anforderungen/Tag = 5 242 880 Anforderungen x 0,00 USD (keine Gebühr) = 0 USD Gebühr für das Hochladen von Daten: 2 MB/1 024 x 5 242 880 x 30 x 0,0032 USD = 983,04 USD
Gebühr für den Datenabruf: 2 MB/1 024 x 10 485 760 x 30 x 0,0006 USD = 368,64 USD
Gesamtgebühren = 363,41 USD + 177,73 USD + 9,44 USD + 983,04 USD + 368,64 USD = 1 902,26 USD
S3 Standard – Infrequent Access (S3 Standard-IA)
Alles öffnenS3 One Zone-Infrequent Access (S3 One Zone-IA)
Alles öffnenSpeicherklasse für Amazon S3 Glacier Instant Retrieval
Alles öffnenSpeicherklasse für Amazon S3 Glacier Flexible Retrieval
Alles öffnenHinweis: S3 Glacier Flexible Retrieval ist auch über die ursprünglichen direkten Glacier-APIs und über die Amazon-S3-Glacier-Managementkonsole verfügbar. Für ein verbessertes Erlebnis mit Zugriff auf den gesamten Featureumfang von S3, einschließlich Lebenszyklusmanagement, S3 Replication, S3 Storage Lens und mehr, empfehlen wir, S3-APIs und die S3-Managementkonsole zu benutzen, um die Features von S3 Glacier zu nutzen.
Bei mit der Speicherklasse S3 Glacier bereitgestellten Kapazitätseinheiten können Sie eine feste Vorausgebühr für einen bestimmten Monat zahlen, um die Verfügbarkeit von Abrufkapazitäten für beschleunigte Abrufe aus S3 Glacier Flexible Retrieval zu gewährleisten. Sie können zwei bereitgestellte Kapazitätseinheiten pro Monat erwerben, um die Datenmenge, die Sie abrufen können, zu erhöhen. Jede Kapazitätseinheit gewährleistet, dass alle fünf Minuten mindestens drei Schnellabrufe durchgeführt werden können und bietet einen Abrufdurchsatz von bis zu 150 MB/s. Wenn Ihre Arbeitslast einen äußerst zuverlässigen und vorhersehbaren Zugriff auf eine Teilmenge Ihrer Daten innerhalb von Minuten erfordert, sollten Sie bereitgestellte Abrufkapazität erwerben. Ohne bereitgestellte Kapazität werden in Zeiten hoher Nachfrage möglicherweise keine beschleunigten Abrufe akzeptiert. Wenn Sie unter irgendwelchen Umständen Zugang zu beschleunigten Abrufen benötigen, empfehlen wir Ihnen den Kauf von bereitgestellter Abrufkapazität.
Sie können bereitgestellte Kapazität über die Amazon S3-Konsole, die REST-API für den Kauf bereitgestellter Kapazität, die AWS SDKs oder die AWS CLI erwerben. Eine bereitgestellte Kapazitätseinheit hat eine Laufzeit von einem Monat, als dessen Startdatums das Datum und die Uhrzeit des Kaufs zu verstehen ist. Die Einheit läuft am Verfallsdatum ab, das auf die Sekunde genau einen Monat nach dem Startdatum liegt. Informationen zu den Preisen für bereitgestellte Kapazität finden Sie unter Amazon-S3-Preise.
1,000032 GB für jedes Objekt x 100 000 Objekte = 100 003,2 GB S3-Glacier-Speicher.
0,000008 GB für jedes Objekt x 100 000 Objekte = 0,8 GB S3-Standardspeicher.
Die Gebühren errechnen sich aus den aktuellen Tarifen für Ihre AWS-Region, die Sie auf der Seite mit der Preisübersicht für Amazon S3 finden. Weitere Beispiele für die Preisgestaltung von Amazon S3 finden Sie in den FAQs zur S3-Abrechnung oder Sie können den AWS-Preisrechner benutzen.
S3 Glacier Flexible Retrieval benötigt außerdem 40 KB zusätzliche Metadaten für jedes archivierte Objekt. Darin enthalten sind 32 KB Metadaten, die zum S3-Glacier-Flexible-Retrieval-Tarif berechnet werden, der für die Identifizierung und den Abruf Ihrer Daten erforderlich ist. Und zusätzliche 8 KB Daten zum S3-Standardtarif, die erforderlich sind, um den benutzerdefinierten Namen und die Metadaten für Objekte zu erhalten, die in S3 Glacier Flexible Retrieval archiviert werden. Damit können Sie jedoch eine Echtzeitliste all Ihrer S3-Objekte mit der S3 LIST-API oder dem S3 Inventory-Bericht abrufen. Informationen zu den Preisen von Amazon S3 Glacier Flexible Retrieval finden Sie auf der Amazon-S3-Preisseite.
Amazon S3 Glacier Deep Archive
Alles öffnenSie können AWS Snowball auch verwenden, um Daten zu migrieren. Snowball beschleunigt das Verschieben von Datenmengen im Terabyte- oder Petabyte-Bereich in und aus AWS. Für den physischen Transport kommen sichere Speichergeräte zum Einsatz. Die Verwendung von Snowball hilft bei der Bewältigung von Herausforderungen, die beim Übertragen von großen Datenmengen auftreten können, darunter hohe Netzwerkkosten, lange Übertragungszeiten und Sicherheitsbedenken. Außerdem können Sie auch mit AWS Direct Connect dedizierte Netzwerkverbindungen zwischen Ihrem Standort und AWS herstellen. Häufig können Sie mit Direct Connect Ihre Netzwerkkosten senken, den Bandbreitendurchsatz erhöhen und eine konsistentere Netzwerkverbindung bereitstellen, als dies bei einer internetbasierten Verbindung möglich wäre.
S3 auf Outposts
Alles öffnenSpeicherverwaltung
Alles öffnenSie sollten Amazon S3 Metadata verwenden, wenn Sie SQL verwenden möchten, um Informationen über Ihre S3-Objekte abzufragen, um schnell bestimmte Datensätze für Ihre Anwendungsfälle von generativer KI, Analytik und sonstigem zu identifizieren. S3 Metadata hält Metadaten nahezu in Echtzeit auf dem neuesten Stand, sodass Sie jeden Iceberg-kompatiblen Client verwenden können, um SQL-Abfragen auszuführen, um Objekte anhand der Objektmetadaten zu finden. Sie können beispielsweise eine SQL-Abfrage verwenden, um eine Liste von Objekten zurückzugeben, die bestimmten Filtern entsprechen, z. B. Objekte, die in den letzten 30 Tagen in einem beliebigen Bucket hinzugefügt wurden.
S3 Metadata wurde entwickelt, um automatisch Metadaten zu generieren, die zusätzliche Informationen zu Objekten liefern, die in einen Bucket hochgeladen werden, und um diese Metadaten in einer schreibgeschützten Tabelle abfragbar zu machen. Diese Metadatentabellen werden in Amazon S3 Tables gespeichert, die auf Apache Iceberg basieren und eine verwaltete Möglichkeit zum Speichern und Abfragen von Tabellendaten innerhalb von S3 bieten. S3 Metadata erstellt und verwaltet Metadaten auf Systemebene wie Objektgröße, benutzerdefinierte Metadaten wie Tags und benutzerdefinierte Metadaten beim Hochladen von Objekten sowie Ereignismetadaten wie die IP-Adresse, von der die Anfrage gesendet wurde. Wenn sich die Daten in Ihrem Bucket ändern, werden die S3-Metadaten nahezu in Echtzeit aktualisiert, um die neuesten Änderungen widerzuspiegeln. Anschließend können Sie Ihre Metadatentabellen mithilfe verschiedener AWS-Analytik-Services und Open-Source-Tools, die mit Iceberg kompatibel sind, wie Amazon Athena, Amazon QuickSight und Apache Spark abfragen.
Sie können mit nur wenigen Klicks in der S3-Konsole mit S3 Metadata beginnen. Wählen Sie einfach den Allzweck-S3-Bucket aus, für den Sie S3-Metadaten aktivieren möchten, und S3 analysiert die Daten in Ihrem Bucket und erstellt eine vollständig verwaltete Apache-Iceberg-Tabelle, die Metadaten für alle Ihre Objekte enthält. Innerhalb weniger Minuten können Sie beginnen, Ihre Metadaten mit jeder Abfrage-Engine oder jedem Tool abzufragen, das Apache Iceberg unterstützt.
Ihre S3-Metadatentabellen werden in einem von AWS verwalteten Tabellen-Bucket namens aws-s3 in Ihrem AWS-Konto gespeichert. Ihre Tabellen sind schreibgeschützt und nur S3 hat die Berechtigung, Metadaten zu schreiben, zu aktualisieren oder zu löschen.
S3 Metadata speichert Metadaten in zwei verwalteten Tabellen in Ihrem Konto: Journal-Tabellen und Live-Inventartabellen.
Die S3-Metadaten-Journal-Tabelle bietet einen Überblick über die Änderungen, die in Ihrem Bucket vorgenommen wurden. Wenn Objekte zu Ihren allgemeinen S3-Buckets hinzugefügt, aktualisiert und daraus entfernt werden, werden die entsprechenden Änderungen nahezu in Echtzeit in den Journal-Tabellen widergespiegelt. Journal-Tabellen sind hilfreich, um das Verhalten Ihrer Anwendungen zu verstehen und um alle an Ihren Datensätzen vorgenommenen Änderungen zu identifizieren. Sie können beispielsweise SQL-Abfragen für Journal-Tabellen schreiben, um S3-Objekte zu finden, die einem Filter entsprechen, z. B. Objekte, die in den letzten 30 Tagen hinzugefügt wurden, Objekte, die von aktiven Anforderern hinzugefügt wurden, oder Objekte, deren Metadaten in der letzten Woche geändert wurden.
Die Live-Inventartabelle mit S3-Metadaten enthält eine vollständige Liste aller Objekte in Ihrem Bucket. Live-Inventartabellen werden stündlich aktualisiert und enthalten alle Informationen, die S3 über Ihre Objekte weiß. Live-Inventartabellen sind nützlich, um Datensätze in Ihrem Bucket auf der Grundlage der in den Objektmetadaten generierten Eigenschaften zu erkennen oder zu identifizieren. Beispielsweise können Sie Live-Inventartabellen verwenden, um Trainingsdatensätze für Machine Learning zu identifizieren, zur Optimierung der Speicherkosten einzusetzen oder zur Durchsetzung von Governance-Kontrollen beizutragen.
Wenn Sie Ihrem Bucket neue Objekte hinzufügen, werden innerhalb weniger Minuten Einträge in der Journal-Tabelle angezeigt. Bei der nächsten stündlichen Aktualisierung werden Sie Einträge in der Live-Inventartabelle sehen. Wenn Sie S3-Metadaten für einen vorhandenen Bucket aktivieren, startet S3 automatisch einen Backfill-Vorgang, um Metadaten für alle Ihre vorhandenen Objekte zu generieren. Dieses Auffüllen ist in der Regel innerhalb von Minuten abgeschlossen, kann jedoch mehrere Stunden dauern, wenn Ihre vorhandenen Datensätze Millionen oder Milliarden von S3-Objekten enthalten.
Der S3-Inventory-Bericht stellt eine Alternative mit Zeitplanung zur synchronen Listen-API von Amazon S3 dar. Sie können S3 Inventory so konfigurieren, dass es täglich oder wöchentlich für ein S3-Bucket oder ein Präfix eine Übersicht über Ihre Objekte und die zugehörigen Metadaten in Form einer CSV (Comma Separated Values), einer ORC (Optimized Row Columnar) oder einer Parquet-Datei zur Verfügung stellt. Mit S3 Inventory können Sie Workflows und Aufträge mit großem Datenumfang vereinfachen oder beschleunigen. Sie können S3 Inventory auch zur Verifizierung der Verschlüsselung und des Replikationsstatus Ihrer Objekte verwenden, um geschäftliche, Compliance- und behördliche Anforderungen zu erfüllen. Weitere Informationen finden Sie im Amazon-S3-Inventory-Benutzerhandbuch.
S3 Tables bieten speziell entwickelten S3-Speicher zum Speichern strukturierter Daten im Apache-Parquet-Format. Innerhalb eines Tabellen-Buckets können Sie Tabellen als erstklassige Ressourcen direkt in S3 erstellen. Diese Tabellen können mit Berechtigungen auf Tabellenebene gesichert werden, die entweder in identitäts- oder ressourcenbasierten Richtlinien definiert sind, und sind für Anwendungen oder Tools zugänglich, die den Apache-Iceberg-Standard unterstützen. Wenn Sie eine Tabelle in Ihrem Tabellen-Bucket erstellen, werden die zugrunde liegenden Daten in S3 als Parquet-Dateien gespeichert. Dann verwendet S3 den Apache-Iceberg-Standard, um die Metadaten zu speichern, die erforderlich sind, damit diese Parquet-Daten von Ihren Anwendungen abgefragt werden können. S3 Tables enthalten eine Client-Bibliothek, die von Abfrage-Engines verwendet wird, um in den Iceberg-Metadaten der Tabellen in Ihrem Tabellen-Bucket zu navigieren und sie zu aktualisieren. Diese Bibliothek ermöglicht in Verbindung mit aktualisierten S3-APIs für Tabellenoperationen mehreren Clients das sichere Lesen und Schreiben von Daten in Ihre Tabellen. Im Laufe der Zeit optimiert S3 automatisch die zugrunde liegenden Parquet-, Avro- oder ORC-Daten, indem Ihre Objekte neu geschrieben oder „komprimiert“ werden. Die Komprimierung optimiert Ihre Daten auf S3, um die Abfrageleistung zu verbessern.
Sie können in nur drei Schritten mit S3 Tables beginnen, ohne eine Infrastruktur außerhalb von Amazon S3 einrichten zu müssen. Erstellen Sie zunächst einen Tabellen-Bucket in der S3-Konsole. Im Rahmen der Erstellung Ihres ersten Tabellen-Buckets über die Konsole erfolgt die Integration mit den AWS-Analytics-Services automatisch, sodass S3 automatisch alle Tabellen-Buckets und Tabellen in Ihrem Konto und Ihrer Region im AWS-Glue-Datenkatalog auffüllen kann. Danach ist S3 Tables jetzt für AWS-Abfrage-Engines wie Amazon Athena, EMR und Redshift zugänglich. Als Nächstes können Sie in der S3-Konsole auf Amazon Athena klicken, um eine Tabelle zu erstellen. Sobald Sie sich in Athena befinden, können Sie umgehend mit dem Erstellen neuer Tabellen und dem Abfragen dieser Tabellen beginnen.
Alternativ können Sie mithilfe des Iceberg-REST-Katalog-Endpunkts über den AWS-Glue-Datenkatalog auf S3 Tables zugreifen, sodass Sie Ihren gesamten Datenbestand einschließlich aller Tabellenressourcen ermitteln können. Sie können auch eine direkte Verbindung zu einem einzelnen Tabellen-Bucket-Endpunkt herstellen, um alle S3-Tables-Ressourcen in diesem Bucket zu ermitteln. Auf diese Weise können Sie S3-Tables mit jeder Anwendung oder Abfrage-Engine verwenden, die die Apache-Iceberg-REST-Katalog-Spezifikation unterstützt.
Sie können eine bis zu 3-mal schnellere Abfrageleistung und bis zu 10-mal höhere Transaktionen pro Sekunde (TPS) im Vergleich zum Speichern von Iceberg-Tabellen in Amazon-S3-Allzweck-Buckets erwarten. Das liegt daran, dass Tabellen-Buckets automatisch die zugrunde liegenden Parquet-Daten für Ihre Tabellen komprimieren, um die Abfrageleistung zu optimieren. Der speziell entwickelte Speicher unterstützt standardmäßig das bis zu 10-fache TPS.
Tabellen-Buckets bieten Ihnen die Möglichkeit, Ressourcenrichtlinien auf den gesamten Bucket oder auf einzelne Tabellen anzuwenden. Tabellen-Bucket-Richtlinien können mithilfe der PutTablePolicy- und PutTableBucketPolicy-APIs angewendet werden. Mithilfe von Richtlinien auf Tabellenebene können Sie die Berechtigungen für Tabellen in Ihren Tabellen-Buckets auf der Grundlage der logischen Tabelle verwalten, mit der sie verknüpft sind, ohne den physischen Speicherort der einzelnen Parquet-Dateien kennen zu müssen. Darüber hinaus wird S3 Block Public Access immer auf Ihre Tabellen-Buckets angewendet.
Tabellen-Buckets unterstützen das Apache-Iceberg-Tabellenformat mit Parquet-Daten.
Wenn Sie daran interessiert sind, mehr über S3 Batch Operations zu erfahren, sehen Sie sich die Videos der Tutorials an und lesen Sie die Dokumentation.
Sie können eine S3-Lifecycle-Richtlinie festlegen, um Objekte nach einer bestimmten Zeit zu löschen. Mithilfe dieser durch Richtlinien gesteuerten Automatisierung können Sie schnell und einfach Speicherkosten senken und Zeit sparen. In jeder Regel können Sie ein Präfix, einen Zeitraum, eine Übertragung in S3 Standard-IA, S3 One Zone-IA, S3 Glacier Instant Retrieval, S3 Glacier Flexible Retrieval, S3 Glacier Deep Archive und/oder einen Ablauftermin angeben. Sie können beispielsweise eine Regel definieren, durch die alle Objekte mit dem gemeinsamen Präfix „logs/“ 30 Tage nach der Erstellung in S3 Glacier Flexible Retrieval archiviert und 365 Tage nach der Erstellung gelöscht werden.
Sie können auch eine gesonderte Regel erstellen, gemäß der nur alle Objekte mit dem Präfix „backups/“ 90 Tage nach der Erstellung gelöscht werden. S3-Lebenszyklusrichtlinien gelten sowohl für vorhandene als auch für neue S3-Objekte. Sie ermöglichen Ihnen eine optimierte Speicherung und maximale Kosteneinsparung für alle derzeitigen und neuen Daten, die in S3 abgelegt werden, und zwar ohne zeitaufwendige manuelle Datenüberprüfungen und -migrationen.
Bei einer Lebenszyklusregel bestimmt das Präfixfeld die Objekte, die der Regel unterliegen. Um die Regel auf ein einzelnes Objekt anzuwenden, müssen Sie den Schlüsselnamen angeben. Wenn Sie die Regel auf einen ganzen Satz an Objekten anwenden möchten, muss ihr gemeinsames Präfix angegeben werden (z. B. „logs“). Sie können zum Archivieren Ihrer Objekte eine Überführungsaktion und zum Entfernen Ihrer Objekte eine Löschaktion nach Terminablauf angeben. Geben Sie beim Zeitraum das Erstellungsdatum (z. B. 31.01.2015) oder die Anzahl der Tage ab dem Erstellungsdatum (z. B. 30 Tage) an, nach denen Ihre Objekte archiviert oder entfernt werden sollen. Sie können mehrere Regeln für unterschiedliche Präfixe erstellen.
Speicheranalysen und Einblicke
Alles öffnenDas S3-Storage-Lens-Dashboard ist nach vier Haupttypen von Fragen organisiert, die über Ihren Speicher beantwortet werden können. Im Filter „Summary“ (Zusammenfassung) können übergeordnete Fragen zur allgemeinen Speichernutzung und zu Aktivitätstrends untersucht werden. Zum Beispiel: „Wie schnell steigert sich meine gesamte Byte- und Anfrageanzahl im Laufe der Zeit?“ Im Filter „Cost Optimization“ (Kostenoptimierung) können Sie Fragen nachgehen, die sich mit der Speicherkostenreduzierung befassen, wie etwa: „Kann ich Einsparungen erzielen, indem ich weniger veraltete Versionen nutze?“ Und in den Filtern „Data Protection“ (Datenschutz) und „Access Management“ (Zugriffsmanagement) können Sie Antworten zur Sicherung von Daten finden, indem Sie Fragen stellen wie: „Ist mein Speicher vor versehentlicher oder absichtlicher Löschung geschützt?“ Mit den Filtern „Performance“ (Leistung) und „Events“ (Ereignisse) können Sie prüfen, wie Sie die Workflow-Leistung verbessern können. Jede diese Fragen repräsentiert die erste Ebene einer Anfrage und führt wahrscheinlich zu einer Drilldown-Analyse.
Es wird ein Standard-Dashboard konfiguriert, das automatisch für Ihr gesamtes Konto bereitgestellt wird, und Sie haben die Möglichkeit, zusätzliche benutzerdefinierte Dashboards zu erstellen, die auf Ihre AWS-Organisation, bestimmte Regionen oder Buckets innerhalb eines Kontos skaliert werden können. Sie können mehrere benutzerdefinierte Dashboards einrichten, was nützlich sein kann, wenn Sie eine logische Trennung in Ihrer Speicheranalyse benötigen, wie z. B. die Segmentierung auf Buckets, um verschiedene interne Teams darzustellen. Standardmäßig erhält Ihr Dashboard die kostenlosen Metriken von S3 Storage Lens. Sie haben jedoch die Möglichkeit, ein Upgrade durchzuführen, um fortgeschrittene Metriken und Empfehlungen von S3 Storage Lens zu erhalten (gegen Gebühr). Die erweiterten Metriken von S3 Storage Lens haben sieben getrennte Optionen: erweiterte Kostenoptimierungsmetriken, erweiterte Datenschutzmetriken, detaillierte Statuscodemetriken, Präfix-Aggregation, CloudWatch-Publishing und Storage-Lens-Gruppenaggregation. Zusätzlich können Sie für jedes Dashboard den Export von Metriken aktivieren, mit zusätzlichen Optionen zum Festlegen des Ziel-Buckets und des Verschlüsselungstyps.
S3 Storage Lens bietet zwei Stufen von Metriken. Die kostenfreien Metriken sind standardmäßig aktiviert und stehen allen S3-Kunden ohne Zusatzkosten zur Verfügung. Einzelheiten zu den Preisen für fortgeschrittenen Metriken und Empfehlungen von S3 Storage Lens erhalten Sie auf der Seite mit der Preisübersicht für S3. Mit den kostenlosen Metriken von S3 Storage Lens erhalten Sie 28 Metriken auf Bucket-Ebene und können im Dashboard auf 14 Tage an historischen Daten zugreifen. Mit den erweiterten Metriken und Empfehlungen von S3 Storage Lens erhalten Sie 35 weitere Metriken, Aggregation auf Präfixebene, CloudWatch-Metriken-Support, benutzerdefinierte Filterung von Objekt-Metadaten mit S3 Storage Lens-Gruppen und Zugriff auf 15 Monate an historischen Daten im Dashboard.
Direkte Abfragen
Alles öffnenReplikation
Alles öffnenMehr Informationen zur Lebenszykluskonfiguration und Replikation finden Sie in der Dokumentation zur S3 Replication.
Ja. Mit S3 Replication können Kunden ihre Daten in mehreren Ziel-Buckets derselben oder unterschiedlicher AWS-Regionen replizieren. Geben Sie bei der Einrichtung einfach den neuen Ziel-Bucket in Ihrer bestehenden Replikationskonfiguration an oder erstellen Sie eine neue Replikationskonfiguration mit mehreren Ziel-Buckets. Für jedes neue Ziel können Sie die Speicherklasse des Ziel-Buckets, den Verschlüsselungstyp, die Replikationsmetriken und -Benachrichtungen, die Replication Time Control (RTC) und weitere Einstellungen festlegen.
F: Kann ich S3 Replication verwenden, um eine bidirektionale Replikation zwischen S3-Buckets einzurichten?
Weitere Informationen zu den Preisen von S3 Replication finden Sie auf der Amazon-S3-Preisseite.
In einer Aktiv-Aktiv-Konfiguration berücksichtigen S3-Zugriffspunkte für mehrere Regionen Faktoren wie Netzwerküberlastung und den Standort der anfordernden Anwendung, um Ihre Anfragen dynamisch über das AWS-Netzwerk an die am nächsten liegende Kopie Ihrer Daten zu leiten. Die S3-Zugriffspunkte für mehrere Regionen leiten Ihre Anforderungen durch den am nächsten liegenden AWS-Standort an Ihren Client und dann über das globale private AWS-Netzwerk an S3 weiter. In beiden Konfigurationen ermöglichen S3 Access Points für mehrere Regionen Ihnen, die globale Infrastruktur von AWS zu nutzen und gleichzeitig eine einfache Anwendungsarchitektur beizubehalten.
S3 CRR und S3 Access Points für mehrere Regionen sind ergänzende Features, die gemeinsam Daten in AWS-Regionen replizieren und dann automatisch Anforderungen an die replizierte Kopie mit der niedrigsten Latenz weiterleiten. Die S3 Access Points für mehrere Regionen helfen Ihnen bei der Verwaltung von Anforderungen in AWS-Regionen. Gleichzeitig ermöglicht CRR es Ihnen, Daten in allen AWS-Regionen zu verschieben, um isolierte Replikate zu erstellen. Sie verwenden S3 Access Points für mehrere Regionen und CRR zusammen, um einen replizierten Datensatz für mehrere Regionen zu erstellen, der von einem einzigen globalen Endpunkt aus aufgerufen werden kann.
Wenn Sie einen S3 Multi-Region Access Point verwenden, um Anforderungen innerhalb von AWS weiterzuleiten, zahlen Sie geringe Kosten pro GB für die Datenweiterleitung für jedes verarbeitete Gigabyte (GB) sowie die Standardgebühren für S3-Anforderungen, Speicher, Datenübertragung und Replikation. Wenn Ihre Anwendung außerhalb von AWS läuft und über das Internet auf S3 zugreift, erhöhen S3 Multi-Region Access Points die Leistung, indem sie Ihre Anforderungen automatisch über einen AWS-Edge-Standort über das globale private AWS-Netzwerk an die nächstgelegene Kopie Ihrer Daten auf Basis der Zugriffslatenz weiterleiten. Wenn Sie Anfragen über das Internet beschleunigen, zahlen Sie die Kosten für das Datenrouting und die Kosten für die Internetbeschleunigung. Die Preise für die Internet-Beschleunigung von S3 Access Points für mehrere Regionen hängen davon ab, ob sich der Quell-Client in der gleichen oder in einer anderen AWS-Region befindet wie die Zielregion, und gelten zusätzlich zu den Standardpreisen für die S3-Datenübertragung. Zur Verwendung von Failover-Kontrollen von S3-Zugriffspunkten für mehrere Regionen werden Ihnen nur S3-API-Standardgebühren in Rechnung gestellt, um den aktuellen Kontrollzustand der Weiterleitung jeder Region anzuzeigen und Änderungen an den Kontrollen zur Einleitung eines Failovers zu senden. Bitte lesen Sie die Amazon-S3-Preisseite und die Registerkarte Übertragung, um mehr über Preise zu erfahren.
Ja, Sie können die zugrunde liegenden Buckets des S3-Zugangspunkts für mehrere Regionen als Requester-Pays-Buckets konfigurieren. Mit Zahlungen durch den Anforderer zahlt der Anforderer alle Kosten im Zusammenhang mit der Endpunktnutzung, einschließlich der Kosten für Anfragen und Datenübertragungskosten, die sowohl mit dem Bucket als auch mit dem Zugriffspunkt für mehrere Regionen verbunden sind. In der Regel sollten Sie Ihre Buckets als Buckets mit Zahlungen durch den Anforderer konfigurieren, wenn Sie Daten teilen möchten, aber keine Gebühren für den Zugriff anderer auf die Daten anfallen. Im Allgemeinen zahlen Bucket-Besitzer für den gesamten Amazon S3-Speicher, der ihrem Bucket zugeordnet ist. Um mehr zu erfahren, besuchen Sie bitte S3 Requester Pays.
Die S3-Konsole bietet einen einfachen Workflow mit Anleitungen zur schnellen Einrichtung von allem, was für das Speichern in mehreren Regionen in S3 benötigt wird, und zwar in nur drei einfachen Schritten. Erstellen Sie zunächst einen Endpunkt für den S3-Zugriffspunkt für mehrere Regionen und geben Sie die AWS-Regionen an, die Sie replizieren und bei denen Sie Failovers durchführen möchten. Sie können Buckets in mehreren AWS-Konten zu einem neuen S3-Zugriffspunkt für mehrere Regionen hinzufügen, indem Sie die Konto-IDs eingeben, denen die Buckets zum Zeitpunkt der Erstellung gehören. Zweitens: Geben Sie für jede AWS-Region und für jedes S3-Bucket Ihren Endpunkt für S3-Zugriffspunkte für mehrere Regionen an, ob der Routing-Status aktiv oder passiv ist, ob aktive AWS-Regionen den Datenverkehr der S3-Anforderungen akzeptieren und ob passive Regionen nicht geleitet werden, bis Sie einen Failover eingeleitet haben. Drittens: Konfigurieren Sie S3 die regionsübergreifenden Replikationsregeln, um Ihre Daten in S3 zwischen den Regionen und/oder Konten. Sie können dann einen Failover jederzeit zwischen den AWS-Regionen binnen Minuten einleiten, um Ihre S3-Datenanforderungen zu verschieben und um die Verschiebung Ihres S3-Datenverkehrs zur neuen aktiven AWS-Region in Amazon CloudWatch zu überwachen. Alternativ können Sie mit AWS CloudFormation die Konfiguration Ihres Speichers für mehrere Regionen automatisieren. Alle für die Einrichtung eines Speichers für mehrere Regionen in S3 erforderlichen Bausteine, einschließlich den S3 Access Points für mehrere Regionen, werden von CloudFormation unterstützt, damit Sie einen wiederholbaren Einrichtungsprozess außerhalb der S3-Konsole automatisieren können.