Amazon Data Firehose – Funktionen – Pipeline für Streaming-Daten

Amazon Data Firehose bietet die einfachste Methode zum Laden von Streaming-Daten in Datenspeicher und Analysetools. Data Firehose ist ein vollständig verwalteter Service, der das Erfassen, Umwandeln und Laden riesiger Datenstrom-Volumina aus Hunderttausenden von Quellen in Amazon S3, Amazon Redshift, Amazon OpenSearch Service, Snowflake, generische HTTP-Endpunkte und Serviceanbieter wie Datadog, New Relic, MongoDB und Splunk vereinfacht und so Analysen und Einblicke nahezu in Echtzeit ermöglicht.

Firehose-Streams

Ein Firehose-Stream ist die zugrunde liegende Einheit von Firehose. Sie verwenden Firehose, indem Sie einen Firehose-Stream erstellen und dann Daten dorthin senden.

Wichtigste Funktionen

Einfaches Starten und Konfigurieren

Sie können Amazon Data Firehose starten und einen Datenstrom zum Laden von Daten in Amazon S3, Amazon Redshift, Amazon OpenSearch Service, Snowflake, HTTP-Endpunkte, Datadog, New Relic, MongoDB oder Splunk mit nur wenigen Klicks in der AWS-Managementkonsole erstellen. Sie können Daten an den Liefer-Datenstrom senden, indem Sie die Firehose-API aufrufen oder den von uns bereitgestellten Linux-Agenten in der Datenquelle ausführen. Anschließend lädt Data Firehose die Daten kontinuierlich in die angegebenen Ziele.

Elastisches Skalieren zur Verarbeitung schwankender Datendurchsätze

Nach dem Start werden Ihre Firehose-Streams automatisch nach oben oder unten skaliert, um den Eingang von Daten mit einer Datenrate von mehreren Gigabyte pro Sekunde zu verarbeiten und die Datenlatenz auf einem Wert zu halten, den Sie für den Datenstrom innerhalb der Grenzwerte festgelegt haben. Weder Eingriff noch Wartung ist erforderlich.

Neue Daten in Sekunden laden

Sie können eine Stapelgröße oder ein Stapelintervall angeben und so steuern, wie schnell Daten zu Zielen hochgeladen werden. Beispielsweise können Sie das Stapelintervall auf einen beliebigen Wert zwischen 0 Sekunden und 15 Minuten festlegen. Darüber hinaus können Sie festlegen, ob die Daten komprimiert werden sollen oder nicht. Der Service unterstützt gängige Komprimierungsalgorithmen wie GZip, Hadoop-Compatible Snappy, Zip und Snappy. Mit der Stapelverarbeitung und Komprimierung von Daten vor dem Hochladen können Sie steuern, wie schnell die neuen Daten an den Zielorten eingehen.

Unterstützung für mehrere Datenquellen

Firehose liest problemlos Daten aus über 20 Datenquellen, darunter Amazon-MSK- und MSK-Serverless-Cluster, Amazon Kinesis Data Streams, Amazon CloudWatch Logs, Amazon SNS, AWS IoT Core und mehr.

Konvertierung von Apache-Parquet- oder ORC-Formaten

Firehose unterstützt Datenformate mit Spalten wie z. B. Apache Parquet und Apache ORC, die für eine kosteneffiziente Speicherung und für Analysen mit Services wie Amazon Athena, Amazon Redshift Spectrum, Amazon EMR und anderen Hadoop-basierten Tools optimiert sind. Firehose kann das Format von eingehenden Daten von JSON- zu Parquet- oder ORC-Formaten vor der Speicherung der Daten in Amazon S3 konvertieren. Dadurch sparen Sie Speicherplatz und Analysekosten.

Partitionierte Daten an S3 liefern

Sie können Ihre Streamingdaten dynamisch partitionieren, bevor Sie sie an S3 liefern, indem Sie statische oder dynamisch definierte Schlüssel wie “customer_id” oder “transaction_id” verwenden. Firehose gruppiert Daten nach diesen Schlüsseln und liefert sie in für die Schlüssel einmalige S3-Präfixe, damit Sie leichter leistungsstarke, kostengünstige Analytik in S3 mit Athena, EMR und Redshift Spectrum durchführen können. Weitere Informationen »

Integrierte Datenumwandlungen

Sie können Amazon Data Firehose so konfigurieren, dass Ihre Streaming-Daten vor dem Laden in die Datenspeicher vorbereitet werden. Wählen Sie einfach eine AWS Lambda-Funktion auf der Registerkarte zur Konfiguration des Amazon-Kinesis-Data-Firehose-Streams in der AWS-Managementkonsole aus. Amazon Data Firehose wird diese Funktion automatisch auf alle eingegebenen Datensätze anwenden und die umgewandelten Daten an die Ziele laden. Amazon Data Firehose bietet integrierte Lambda-Blueprints für die Konvertierung allgemeiner Datenquellen wie Apache-Protokolle und Systemprotokolle in die Formate JSON und CSV. Sie können diese integrierten Blueprints ohne jede Änderung verwenden oder diese weiter anpassen bzw. Ihre eigenen benutzerdefinierten Funktionen schreiben. Sie können Amazon Data Firehose auch für die automatische Wiederholung fehlgeschlagener Aufträge und das Sichern der unbearbeiteten Streaming-Daten konfigurieren. Weitere Informationen »

Unterstützung für mehrere Datenziele

Firehose liest problemlos Daten aus mehr als 20 Datenquellen, darunter Amazon-MSK- und MSK-Serverless-Cluster, Amazon Kinesis Data Streams, Amazon CloudWatch Logs, Amazon SNS, AWS IoT Core und mehr. Amazon Data Firehose unterstützt derzeit Amazon S3, Amazon Redshift, Amazon OpenSearch Service, Snowflake, HTTP-Endpunkte, Datadog, New Relic, MongoDB und Splunk als Ziele. Sie können den Amazon-S3-Ziel-Bucket, die Amazon-Redshift-Tabelle, die Amazon-OpenSearch-Service-Domain, generische HTTP-Endpunkte oder einen Serviceanbieter als Ladeziel für die Daten angeben.

Optionale automatische Verschlüsselung

Amazon Data Firehose bietet Ihnen die Option, die Daten automatisch zu verschlüsseln, nachdem sie in das Ziel hochgeladen wurden. Im Rahmen der Konfiguration des Firehose-Streams können Sie einen Verschlüsselungsschlüssel für AWS Key Management System (KMS) festlegen.

Metriken zum Überwachen der Leistung

Amazon Data Firehose stellt mehrere Metriken über die Konsole und Amazon CloudWatch bereit. Dazu gehören das Volumen der übertragenen Daten, das Volumen der in das Ziel hochgeladenen Daten, die Zeit von der Quelle bis zum Ziel, die Limits des Firehose-Streams, eine eingeschränkte Datensatzanzahl und die Erfolgsrate beim Hochladen.

Nutzungsabhängige Preisberechnung

Bei Amazon Data Firehose zahlen Sie nur für die Datenmengen, die Sie über den Dienst übertragen, und ggf. für die Datenformatkonvertierung. Sie zahlen ggf. außerdem für die Amazon-VPC-Bereitstellung und -Datenübertragung. Es fallen weder Mindestgebühren noch Vorausleistungen an. Sie benötigen keine Mitarbeiter, um die Infrastruktur zu betreiben, zu skalieren und zu pflegen. Es sind auch keine benutzerdefinierten Anwendungen nötig, um Streaming-Daten zu erfassen und zu laden.

Weitere Informationen zur Preisgestaltung von Amazon Data Firehose.

Zur Preisseite

Sind Sie startbereit?

Registrieren

Haben Sie noch Fragen?

Kontakt

Amazon Data Firehose – Funktionen