- Analytik›
- Amazon SageMaker›
- Datenverarbeitung
Amazon-SageMaker-Datenverarbeitung
Daten für Analytik und KI in jeder Größenordnung analysieren, vorbereiten und integrieren
Warum SageMaker-Datenverarbeitung?
Bereiten Sie Ihre Daten vor, integrieren und orchestrieren Sie sie mit Datenverarbeitungsfunktionen von Amazon Athena, Amazon EMR, AWS Glue und Amazon Managed Workflows for Apache Airflow (Amazon MWAA). Verarbeiten und integrieren Sie Ihre Daten, wo auch immer sie sich befinden, mit schneller und einfacher Konnektivität zu Hunderten von Datenquellen.
Nutzen Sie Open-Source-Frameworks für die Datenverarbeitung wie Apache Spark, Trino und Apache Flink. Analysieren Sie Daten in großem Maßstab mit Trino, ohne die Infrastruktur zu verwalten, und erstellen Sie nahtlos Echtzeitanalytik mit Apache Flink und Apache Spark.
Vertrauen Sie darauf, dass Ihre Daten korrekt und sicher sind, indem Sie die Datenqualität, die Identifizierung sensibler Daten, die Nachverfolgung der Herkunft und die Durchsetzung detaillierter Zugriffskontrollen automatisieren.
Vorteile
Amazon SageMaker Data Processing bietet umfassenden Zugriff auf Daten- und Stream-Verarbeitungs-Frameworks, verteilte Open-Source-SQL-Abfrage-Engines und die beliebtesten Tools wie Notebooks, Abfrage-Editoren und visuelles Extract, Transform and Load (ETL).
Sie können auf die gängigsten Frameworks wie Apache Spark zugreifen, um Ihre Daten in jeder Größenordnung aufzubereiten und zu integrieren. Reagieren Sie mit Stream-Verarbeitung mit Apache Flink und Apache Spark Streaming auf Geschäftsanforderungen in Echtzeit und analysieren Sie Daten mit führenden Open-Source-SQL-Frameworks wie Trino. Vereinfachen Sie die Workflow-Orchestrierung, ohne die Infrastruktur mit nativer Integration mit Amazon MWAA verwalten zu müssen.
SageMaker Data Processing greift auf Daten aus dem Lakehouse in Amazon SageMaker zu, sodass Sie mithilfe einer Kopie Ihrer Daten für alle Ihre Anwendungsfälle, einschließlich Analysen, Ad-hoc-Abfragen, maschinelles Lernen (ML) und generative KI, verarbeiten und integrieren können.
Die Amazon SageMaker-Open-Lakehouse-Architektur vereinheitlicht Daten aus Amazon Simple Storage Service (Amazon S3) Data Lakes und Amazon Redshift Data Warehouses und bietet so einen einheitlichen Zugriff auf Ihre Daten. Mit Hunderten von Konnektoren, Null-ETL-Integrationen und föderierten Datenquellen können Sie im Lakehouse vereinheitlichte Daten entdecken und analysieren, sodass Sie sich ein vollständiges Bild von Ihrem Unternehmen machen. SageMaker funktioniert sofort mit Ihrer vorhandenen Datenarchitektur, ohne durch bestimmte Speicherformate oder Abfrage-Engine-Optionen eingeschränkt zu sein.
Verbessern Sie die Effizienz mit schneller Abfrageleistung über Apache-Iceberg-Tabellen. Erhalten Sie Einblicke bis zu 2-mal schneller als bei herkömmlichen Open-Source-Systemen mit hochleistungsfähigen und Open-Source-API-kompatiblen Versionen von Apache Spark, Apache Airflow, Apache Flink, Trino und mehr.
Mit SageMaker Data Processing können Sie sich auf die Transformation und Analyse Ihrer Daten konzentrieren, ohne Rechenkapazität oder Open-Source-Anwendungen verwalten zu müssen. Das spart Ihnen Zeit und senkt die Kosten. Sie können Ihre Kapazität automatisch auf Amazon EMR in der Amazon Elastic Compute Cloud (Amazon EC2) oder auf Amazon EMR in Amazon Elastic Kubernetes Service (Amazon EKS) bereitstellen. Skalierungsregeln verwalten Änderungen an Ihrem Rechenbedarf, um Leistung und Laufzeiten zu optimieren.
Gewinnen Sie Vertrauen und Transparenz mit automatisierten Berichten zur Datenqualität, der Erkennung sensibler Daten und der Nachverfolgung der Herkunft von Daten und KI-Modellen durch die Integration im Amazon-SageMaker-Katalog. Erhöhen Sie das Vertrauen in die Qualität Ihrer Daten durch automatische Messungen, Überwachung und Empfehlungen für Datenqualitätsregeln.
Verarbeiten und analysieren Sie Ihre Daten sicher, indem Sie die detaillierten Zugriffskontrollen einhalten und durchsetzen, die für Datensätze im Lakehouse definiert sind. So können Sie Berechtigungen nur einmal definieren und Ihre Daten autorisierten Benutzern in Ihrem gesamten Unternehmen zugänglich machen. Das Lakehouse ist in AWS Glue Data Quality integriert und vereint serverlose Datenintegration, Datenqualitätsmanagement und erweiterte ML-Funktionen in einer einheitlichen Umgebung.
AWS-Services
Vereinfachte Datenintegration
AWS SageMaker bietet serverlose Datenintegration und vereinfacht so die Erkundung, Vorbereitung und Integration von Daten aus mehreren Quellen. Stellen Sie eine Verbindung zu verschiedenen Datenquellen her, verwalten Sie Ihre Daten in einem zentralen Datenkatalog und erstellen, führen, orchestrieren und überwachen Sie ETL-Pipelines und -Jobs visuell, um Daten in Ihr Lakehouse zu laden. Wenn Apache Spark-Jobs fehlschlagen, können Sie generative KI-Fehlerbehebung verwenden, um die Hauptursachen zu identifizieren und Probleme schnell zu lösen. Amazon SageMaker skaliert automatisch bei Bedarf, sodass Sie sich darauf konzentrieren können, Erkenntnisse aus Ihren Daten zu gewinnen, ohne die Infrastruktur verwalten zu müssen.
Apache Spark, Apache Hive, Trino und andere Workloads ausführen und skalieren
Amazon EMR ermöglicht eine einfachere und kostengünstigere Ausführung von Datenverarbeitungs-Workloads wie Apache Spark, Apache Airflow, Apache Flink, Trino und mehr auszuführen. Erstellen und betreiben Sie Datenverarbeitungs-Pipelines und skalieren Sie automatisch schneller als bei On-Premises-Lösungen.
Kosten nachverfolgen
Athena bietet eine vereinfachte und flexible Methode zur Analyse Ihrer Daten in jeder Größenordnung. Athena ist ein interaktiver Abfrageservice, der die Datenanalyse in Amazon S3 mithilfe von Standard-SQL vereinfacht. Athena ist Serverless, sodass keine Infrastruktur eingerichtet oder verwaltet werden muss. Sie können wählen, ob Sie auf der Grundlage der von Ihnen ausgeführten Abfragen oder der für Ihre Abfragen benötigten Rechenressourcen bezahlen möchten. Mit Athena können Sie Protokolle verarbeiten, Datenanalytik durchführen und interaktive Abfragen ausführen. Athena skaliert sich automatisch. Mehrere Abfragen werden parallel ausgeführt, sodass Sie die Ergebnisse selbst bei großen Datensätzen und komplexen Abfragen schnell zurück erhalten.
Sicherheitsorientierte und hochverfügbare verwaltete Workflow-Orchestrierung für Apache Airflow
Amazon MWAA ist ein verwalteter Service für Apache Airflow, mit dem Sie Ihre aktuelle, vertraute Apache Airflow-Plattform verwenden können, um Ihre Datenverarbeitungsaufträge zu orchestrieren. Sie profitieren von einer verbesserten Skalierbarkeit, Verfügbarkeit und Sicherheit, ohne dass Sie sich um die Verwaltung der zugrunde liegenden Infrastruktur kümmern müssen. Amazon MWAA orchestriert Ihre Workflows mithilfe gerichteter azyklischer Graphen (DAGs), die in Python oder einem Visual Workflows Studio geschrieben wurden. Sie stellen Amazon MWAA einen S3-Bucket zur Verfügung, in dem sich Ihre DAGs, Plugins und Python-Anforderungen befinden. Setzen Sie Apache Airflow in großem Umfang ein, ohne die zugrunde liegende Infrastruktur verwalten zu müssen.
Anwendungsfälle
Identifizieren Sie schnell vereinheitlichte Daten in AWS, On-Premises und anderen Clouds, greifen Sie darauf zu und stellen Sie sie dann sofort für Abfragen und Transformationen zur Verfügung. Verwenden Sie Query Federation und Zero-ETL, um den Zugriff auf Daten in AWS-Datenbankdiensten und Anwendungen von Drittanbietern zu vereinfachen.
Verarbeiten Sie Daten mithilfe von Frameworks wie Apache Spark, Apache Flink und Trino sowie mit verschiedenen Workloads, einschließlich Batch, Microbatch und Streaming.
Führen Sie mithilfe von statistischen Algorithmen und Prognose-Modellen Daten-Verarbeitung auf großer Skala und What-If-Analysen durch, um versteckte Muster, Korrelationen, Markttrends und Kundenvorlieben zu erkennen.