Allgemeines
Amazon Athena für SQL
- Einheitliches Metadaten-Repository: AWS Glue ist in verschiedene AWS-Services integriert. AWS Glue unterstützt Daten, die in Amazon Aurora, Amazon Relational Database Service (RDS) für MySQL, Amazon RDS für PostreSQL, Amazon Redshift und S3 gespeichert sind, sowie MySQL- und PostgreSQL-Datenbanken in Ihrer Amazon Virtual Private Cloud (VPC), die in Amazon Elastic Compute Cloud (EC2) ausgeführt wird. AWS Glue bietet eine sofortige Integration mit Athena, Amazon EMR, Amazon Redshift Spectrum und jeder Anwendung, die mit dem Apache-Hive-Metaspeicher kompatibel ist.
- Automatische Schema- und Partitionserkennung: AWS Glue scannt automatisch Ihre Datenquellen, identifiziert Datenformate und schlägt Schemata und Transformationen vor. Crawler können die Automatisierung der Tabellenerstellung sowie das automatische Laden von Partitionen erleichtern.
Weitere Informationen zu Servicelimits finden Sie im Benutzerhandbuch zu Amazon Athena unter Service Quotas.
Erstellen von Tabellen, Datenformaten und Partitionen
- Apache Web Logs: „org.apache.hadoop.hive.serde2.RegexSerDe“
- CSV: „org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe“
- TSV: „org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe“
- Benutzerdefinierte Trennzeichen: „org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe“
- Parquet: „org.apache.hadoop.hive.ql.io.parquet.serde.ParquetHiveSerDe“
- Orc: „org.apache.hadoop.hive.ql.io.orc.OrcSerde“
- JSON: „org.apache.hive.hcatalog.data.JsonSerDe“ oder „org.openx.data.jsonserde.JsonSerDe“
Abfragen, Datenformate und Multicloud
Sie können ihre UDFs in Java mit dem Athena-Abfrageverbund-SDK schreiben. Wenn eine UDF in einer an Athena übermittelten SQL-Abfrage verwendet wird, wird sie in AWS Lambda aufgerufen und ausgeführt. UDFs können sowohl in SELECT- als auch in FILTER-Klauseln einer SQL-Abfrage verwendet werden. Sie können mehrere UDFs in derselben Abfrage aufrufen.
Verbundabfrage
F: Was ist eine Verbundabfrage?
Falls Sie Daten in anderen Quellen als S3 haben, können Sie Athena verwenden, um die Daten direkt abzufragen oder Pipelines zu entwickeln, die Daten aus mehreren Datenquellen extrahieren und in S3 speichern. Mit der Amazon-Athena-Verbundabfrage können Sie SQL-Abfragen für Daten ausführen, die in relationalen, nicht-relationalen, objekt- und benutzerdefinierten Datenquellen gespeichert sind.
F: Warum sollte ich Verbundabfragen in Athena verwenden?
Unternehmen speichern Daten häufig in einer Datenquelle, die den Anforderungen ihrer Anwendungen oder Geschäftsprozesse entspricht. Zu diesen Datenbanken können relationale, Schlüsselwert-, Dokument-, In-Memory-, Such-, Graph-, Zeitreihen- und Ledger-Datenbanken, sowie die Speicherung von Daten in einem S3-Data-Lake gehören. Die Ausführung von Analysen aus so vielfältigen Quellen kann komplex und zeitaufwändig sein, da sie typischerweise das Erlernen neuer Programmiersprachen oder Datenbankkonstrukte und den Aufbau komplexer Pipelines zur Extraktion, Umwandlung und Duplizierung von Daten erfordert, bevor sie für Analysen verwendet werden können. Athena reduziert diese Komplexität, indem es Ihnen ermöglicht, SQL-Abfragen für die Daten dort auszuführen, wo sie sich befinden. Sie können bekannte SQL-Konstrukte verwenden, um Daten für eine schnelle Analyse über mehrere Datenquellen hinweg abzufragen, oder geplante SQL-Abfragen verwenden, um Daten aus mehreren Datenquellen zu extrahieren, zu transformieren und sie für die weitere Analyse in S3 zu speichern.
F: Welche Datenquellen werden unterstützt?
Athena bietet integrierte Konnektoren zu mehr als 30 beliebten AWS-, On-Premises- und anderen Cloud-Datenspeichern, darunter Amazon Redshift, Amazon DynamoDB, Google BigQuery, Google Cloud Storage, Azure Synapse, Azure Data Lake Storage, Snowflake und SAP Hana. Mithilfe dieser Konnektoren können Sie SQL-Analyseanwendungen für strukturierte, halbstrukturierte, Objekt-, Diagramm-, Zeitreihen- und andere Datenspeichertypen nutzen. Eine vollständige Liste der unterstützten Datenquellen finden Sie im Handbuch zu Amazon Athena unter Verfügbare Athena-Datenquellen-Konnektoren.
Außerdem können Sie das Athena-Datenkonnektor-SDK von Athena verwenden, um einen benutzerdefinierten Datenquellenkonnektor zu erstellen und diesen mit Athena abzufragen. Sehen Sie sich zum Einstieg die Dokumentation und das Beispiel für eine Konnektorimplementierung an.
F: Welche Anwendungsfälle werden durch die Verbundabfrage ermöglicht?
Sie können Ihre vorhandenen SQL-Kenntnisse mit Athena nutzen, um Erkenntnisse aus verschiedenen Datenquellen zu gewinnen, ohne eine neue Sprache erlernen, Skripts zum Extrahieren (und Duplizieren) von Daten entwickeln oder eine Infrastruktur verwalten zu müssen. Mit Amazon Athena können Sie die folgenden Aufgaben durchführen:
- On-Demand-Analysen auf Daten ausführen, die über mehrere Datenspeicher verteilt sind, mit einem einzigen Tool und SQL-Dialekt
- Daten in BI-Anwendungen visualisieren, die komplexe Joins mit mehreren Quellen über JDBC- und ODBC-Schnittstellen an die verteilte Computing-Engine von Athena weiterleiten
- Self-Service-ETL-Pipelines und ereignisbasierte Workflows zur Datenverarbeitung mit der Integration von Athena in AWS Step Functions entwerfen
- Verschiedene Datenquellen zur Erzeugung umfangreicher Eingabefunktionen für Modell-Trainingsabläufe in ML vereinheitlichen
- Nutzerorientierte Daten-als-Produkt-Anwendungen entwickeln, die Erkenntnisse über Data-Mesh-Architekturen hinweg vermitteln
- Analyseanwendungsfälle unterstützen, während Ihr Unternehmen On-Premises-Quellen zu AWS migriert
F: Kann ich die Verbundabfrage für ETL verwenden?
Athena speichert Abfrageergebnisse in einer Datei in S3. Dies bedeutet, dass Sie Athena verwenden können, um Verbunddaten für andere Benutzer und Anwendungen verfügbar zu machen. Wenn Sie Analysen der Daten mit Athena durchführen möchten, ohne die zugrunde liegende Quelle wiederholt abzufragen, verwenden Sie die Funktion CREATE TABLE AS von Athena. Außerdem können Sie die Funktion UNLOAD von Athena verwenden, um die Daten abzufragen und die Ergebnisse in einem spezifischen Dateiformat in S3 zu speichern.
F: Wie funktionieren Datenquellenkonnektoren?
Ein Datenquellenkonnektor ist ein Codestück, das in Lambda ausgeführt wird und zwischen Ihrer Zieldatenquelle und Athena übersetzt. Wenn Sie einen Datenquellenkonnektor verwenden, um einen Datenspeicher bei Athena zu registrieren, können Sie SQL-Abfragen für Verbunddatenspeicher ausführen. Wenn eine Abfrage in einer Quelle im Verbund ausgeführt wird, ruft Athena die Lambda-Funktion auf und überträgt ihr die Aufgabe, die Teile der Abfrage auszuführen, die für die Quelle im Verbund spezifisch sind. Weitere Informationen finden Sie im Benutzerhandbuch zu Amazon Athena unter Nutzung von Amazon-Athena-Verbundabfrage.
F: Welche Datenquellen werden unterstützt?
Athena bietet integrierte Konnektoren zu mehr als 30 beliebten AWS-, On-Premises- und anderen Cloud-Datenspeichern, darunter Amazon Redshift, Amazon DynamoDB, Google BigQuery, Google Cloud Storage, Azure Synapse, Azure Data Lake Storage, Snowflake und SAP Hana. Mithilfe dieser Konnektoren können Sie SQL-Analyseanwendungen für strukturierte, halbstrukturierte, Objekt-, Diagramm-, Zeitreihen- und andere Datenspeichertypen nutzen. Eine vollständige Liste der unterstützten Datenquellen finden Sie unter Verwendung von Athena-Datenquellen-Connectors.
Außerdem können Sie das Athena-Datenkonnektor-SDK von Athena verwenden, um einen benutzerdefinierten Datenquellenkonnektor zu erstellen und diesen mit Athena abzufragen. Sehen Sie sich zum Einstieg die Dokumentation und das Beispiel für eine Konnektorimplementierung an.
Machine Learning
F: Welche Anwendungsfälle unterstützt Athena für eingebettete ML?
Athena-Anwendungsfälle für ML erstrecken sich über verschiedene Branchen wie in den folgenden Beispielen. Analysten von Finanzrisikodaten können Was-wäre-wenn-Analysen und Monte-Carlo-Simulationen durchführen. Geschäftsanalysten können lineare Regressions- oder Prognosemodelle durchführen, um zukünftige Werte vorherzusagen und so umfassendere und zukunftsorientierte Geschäfts-Dashboards zu erstellen, mit denen Umsatzprognosen durchgeführt werden können. Marketinganalysten können k-Means-Clustering-Modelle verwenden, um die verschiedenen Kundensegmente zu bestimmen. Sicherheitsanalysten können logistische Regressionsmodelle (bivariant und multivariant) verwenden, um Anomalien zu finden und Sicherheitsvorfälle aus verschiedenen Protokollen zu ermitteln.
F: Welche ML-Modelle können mit Athena verwendet werden?
Athena kann jedes ML-Modell aufrufen, das in SageMaker bereitgestellt wird. Sie haben die Flexibilität, Ihr eigenes Modell mithilfe Ihrer proprietären Daten zu trainieren oder ein Modell zu verwenden, das in SageMaker vortrainiert und bereitgestellt wurde. Beispielsweise wird die Clusteranalyse wahrscheinlich anhand Ihrer eigenen Daten trainiert, da Sie neue Datensätze in dieselben Kategorien einteilen möchten, die Sie für vorherige Datensätze verwendet haben. Alternativ könnten Sie für die Vorhersage realer Sportereignisse ein öffentlich verfügbares Modell verwenden, da die verwendeten Trainingsdaten bereits öffentlich zugänglich sind. In der Regel werden domänenspezifische oder branchenspezifische Vorhersagen in SageMaker anhand Ihrer eigenen Daten trainiert, während für undifferenzierte ML-Anforderungen externe Modelle verwendet werden können.
F: Kann ich mein ML-Modell mit Athena trainieren?
Sie können Ihre ML-Modelle mit Athena nicht in SageMaker trainieren und bereitstellen. Sie können Ihr ML-Modell trainieren oder ein vorhandenes, vortrainiertes Modell verwenden, das mit Athena in SageMaker bereitgestellt wird. Lesen Sie die Dokumentation mit detaillierten Trainingsschritten zu SageMaker.
F: Kann ich eine Inferenz auf Modellen ausführen, die in anderen Services wie Comprehend, Forecasting oder Models in meinem eigenen EC2-Cluster bereitgestellt wurden?
Athena unterstützt nur das Aufrufen von ML-Modellen, die in SageMaker bereitgestellt sind. Wir freuen uns über Feedback zu anderen Services, die Sie mit Athena nutzen möchten. Senden Sie uns Ihr Feedback per E-Mail an: athena-feedback@amazon.com.
F: Welche Auswirkungen hat die Verwendung von Athena-Abfragen für SageMaker-Inferenzen auf die Leistung?
Wir verbessern ständig die Betriebsleistung unserer Funktionen und Services. Um die Leistung Ihrer Athena ML-Abfragen zu verbessern, werden Zeilen in Batches verarbeitet, wenn Sie Ihr SageMaker-ML-Modell zur Inferenz aufrufen. Derzeit werden keine vom Benutzer angegebenen Überschreibungen der Batch-Größe unterstützt.
F: Welche Funktionen unterstützt Athena ML?
Athena bietet ML-Inferenz (Vorhersage)-Funktionen, die von einer SQL-Schnittstelle umschlossen sind. Sie können auch eine Athena-UDF aufrufen, um die Vor- oder Nachverarbeitungslogik für Ihre Ergebnismenge aufzurufen. Eingaben können jede Spalte, jeden Datensatz oder jede Tabelle enthalten, und mehrere Aufrufe können für eine höhere Skalierbarkeit zusammengefasst werden. Sie können die Inferenz in der Auswahlphase oder in der Filterphase ausführen. Weitere Informationen finden Sie im Benutzerhandbuch zu Amazon Athena unter Verwendung von Machine Learning (ML) mit Amazon Athena.
F: Welche ML-Modelle kann ich verwenden?
SageMaker unterstützt verschiedene ML-Algorithmen. Sie können auch Ihr proprietäres ML-Modell erstellen und in SageMaker bereitstellen. Beispielsweise wird die Clusteranalyse wahrscheinlich anhand Ihrer eigenen Daten trainiert, da Sie neue Datensätze in dieselben Kategorien einteilen möchten, die Sie für vorherige Datensätze verwendet haben. Alternativ könnten Sie für die Vorhersage realer Sportereignisse ein öffentlich verfügbares Modell verwenden, da die verwendeten Trainingsdaten öffentlich zugänglich sind.
Wir gehen davon aus, dass domänen- oder branchenspezifische Vorhersagen in der Regel in SageMaker an Ihren eigenen Daten trainiert werden, während undifferenzierte ML-Anforderungen wie maschinelle Übersetzung externe Modelle verwenden.
Sicherheit und Verfügbarkeit
F: Wie steuere ich den Zugriff auf meine Daten?
Amazon Athena unterstützt die präzise Zugriffskontrolle mit AWS Lake Formation. AWS Lake Formation ermöglicht die zentrale Verwaltung von Berechtigungen und Zugriffskontrolle für Datenkatalogressourcen in Ihrem S3-Data-Lake. Sie können in Athena-Abfragen für Daten, die in einem beliebigen unterstützten Dateiformat gespeichert sind, mithilfe von Tabellenformaten wie Apache Iceberg, Apache Hudi und Apache Hive fein abgestufte Zugriffskontrollrichtlinien durchsetzen. Sie erhalten die Flexibilität, das für Ihren Anwendungsfall am besten geeignete Tabellen- und Dateiformat zu wählen, und profitieren von der zentralisierten Datenverwaltung, die den Datenzugriff bei der Verwendung von Athena sichert. Sie können zum Beispiel das Iceberg-Tabellenformat verwenden, um Daten in Ihrem S3 Data Lake zu speichern, um zuverlässige Schreibtransaktionen in großem Umfang zu ermöglichen, zusammen mit Sicherheitsfiltern auf Zeilenebene in Lake Formation, so dass Datenanalysten, die in verschiedenen Ländern ansässig sind, nur auf die Daten von Kunden in ihrem eigenen Land zugreifen können, um die gesetzlichen Anforderungen zu erfüllen. Die neue, erweiterte Unterstützung für Tabellen- und Dateiformate erfordert keine Änderung der Art und Weise, wie Sie präzise Zugriffskontrollrichtlinien in Lake Formation einrichten, und benötigt die Athena-Engine-Version 3, die neue Funktionen und eine verbesserte Abfrageleistung bietet. Athena ermöglicht Ihnen die Steuerung des Datenzugriffs mithilfe von AWS Identity and Access Management (IAM)-Richtlinien, Zugriffssteuerungslisten (ACLs) und S3-Bucket-Richtlinien. Mit IAM-Richtlinien können Sie IAM-Benutzern eine differenzierte Kontrolle über Ihre S3-Buckets gewähren. Durch die Kontrolle des Zugriffs auf Daten in S3 können Sie die Abfrage der Daten durch Benutzer mithilfe von Athena einschränken.
F: Kann Athena verschlüsselte Daten in S3 abfragen?
Ja, Sie können Daten abfragen, die mit serverseitiger Verschlüsselung (SSE) mit von S3 verwalteten Verschlüsselungsschlüsseln, SSE mit von AWS Key Management Service (KMS) verwalteten Schlüsseln und clientseitiger Verschlüsselung (CSE) mit von AWS KMS verwalteten Schlüsseln verschlüsselt sind. Athena lässt sich auch mit AWS KMS integrieren und bietet Ihnen die Möglichkeit, Ihre Ergebnismengen zu verschlüsseln.
F: Ist Athena hoch verfügbar?
Ja. Athena ist hochverfügbar und führt Abfragen mithilfe der Rechenressourcen verschiedener Standorte aus. Sollte ein Standort nicht erreichbar sein, werden die Abfragen automatisch an den nächstgelegenen Standort weitergeleitet. Athena verwendet S3 als zugrunde liegenden Datenspeicher, wodurch Ihre Daten hoch verfügbar und nachhaltig sind. S3 bietet eine beständige Infrastruktur zum Speichern wichtiger Daten. Ihre Daten werden redundant an mehreren Standorten und auf mehreren Geräten an jedem Standort gespeichert.
F: Kann ich kontoübergreifenden Zugriff auf den S3-Bucket einer anderen Person anbieten?
Ja, Sie können kontoübergreifenden Zugriff auf S3 anbieten.
Preise und Abrechnung
F: Wie sind die Preise für Amazon Athena gestaltet?
Mit Athena können Sie wählen, ob Sie pro Abfrage auf der Grundlage der gescannten Daten oder auf der Grundlage der für Ihre Abfragen benötigten Rechenleistung bezahlen möchten. Der Preis pro Abfrage basiert auf der Menge der von der Abfrage gescannten Daten in Terabytes (TB). Sie können Daten in verschiedenen Formaten in S3 speichern. Wenn Sie Ihre Daten komprimieren, partitionieren oder in ein Spaltenformat umwandeln, entstehen weniger Kosten, da Sie weniger Daten abrufen. Die Umwandlung von Daten in ein Spaltenformat ermöglicht es Athena, nur die Spalten zu lesen, die zum Verarbeiten der Abfrage erforderlich sind. Mit Provisioned Capacity zahlen Sie einen Stundenpreis für die Abfrageverarbeitungskapazität, nicht für gescannte Daten. Sie können die Abrechnung pro Abfrage und die rechnergestützte Abrechnung innerhalb desselben Kontos verwenden. Weitere Details finden Sie auf der Seite Preise für Amazon Athena.
F: Warum entstehen mir weniger Kosten, wenn ich ein Spaltenformat verwende?
Bei der Abrechnung pro Anfrage berechnet Athena die pro Anfrage gescannte Datenmenge. Durch Komprimierung Ihrer Daten verringern Sie die Menge der von Athena durchsuchten Daten. Wenn Sie Ihre Daten in ein Spaltenformat umwandeln, kann Athena sich auf die Spalten beschränken, die zum Verarbeiten der Daten erforderlich sind. Wenn Sie Ihre Daten in Partitionen aufteilen, kann Athena ebenfalls die Menge der abgerufenen Daten einschränken. Dies führt zu Kosteneinsparungen und besserer Leistung. Weitere Details finden Sie auf der Seite Amazon Athena – Preise.
F: Wie kann ich meine Kosten senken?
Sie können 30 bis 90 % Ihrer Abfragekosten einsparen und eine bessere Leistung erhalten, indem Sie Ihre Daten komprimieren, partitionieren oder in ein Spaltenformat umwandeln. Jeder dieser Vorgänge reduziert die Menge der gescannten Daten und den Zeitaufwand für die Ausführung. Diese Vorgänge werden auch empfohlen, wenn Sie Provisioned Capacity verwenden, da sie häufig die Zeit reduzieren, die eine Abfrage für die Ausführung benötigt.
F: Stellt Athena mir Kosten für fehlgeschlagene Abfragen in Rechnung?
Bei der Preisgestaltung pro Abfrage werden Ihnen keine Gebühren für fehlgeschlagene Abfragen berechnet.
F: Stellt Athena mir Kosten für abgebrochene Abfragen in Rechnung?
Ja. Wenn Sie eine Abfrage manuell abbrechen, wird Ihnen die Menge der Daten in Rechnung gestellt, die bis zum Abbruch der Abfrage abgerufen wurden.
F: Entstehen zusätzliche Kosten in Verbindung mit Athena?
Athena fragt Daten direkt aus S3 ab. Daher werden Ihre Quelldaten zu S3-Gebühren in Rechnung gestellt. Wenn Athena eine Abfrage ausführt, werden die Ergebnisse in einem S3-Bucket Ihrer Wahl gespeichert. Diese Ergebnisse werden Ihnen dann zum S3-Standardtarif in Rechnung gestellt. Es wird empfohlen, diese Buckets zu überwachen und Lebenszyklusrichtlinien verwenden, um zu steuern, wie viele Daten aufbewahrt werden.
F: Ist die Nutzung des Datenkatalogs kostenpflichtig?
Ja. Die Nutzung des Datenkatalogs wird separat berechnet. Weitere Informationen zu Datenkatalogpreisen finden Sie auf der Seite AWS Glue – Preise.
Amazon Athena für Apache Spark
F: Was ist Amazon Athena für Apache Spark?
Athena unterstützt das Apache-Spark-Framework, um den Datenanalysten und Dateningenieuren ein interaktives, vollständig verwaltetes Erlebnis von Athena zu bieten. Apache Spark ist ein beliebtes, verteiltes Open-Source-Verarbeitungssystem, das für schnelle Analyse-Workloads für Daten beliebiger Größe optimiert wurde und ein reichhaltiges System von Open-Source-Bibliotheken bietet. Sie können jetzt Spark-Anwendungen in ausdrucksstarken Sprachen wie Python über ein vereinfachtes Notebook in der Athena-Konsole oder über Athena-APIs erstellen. Sie können Daten aus verschiedenen Quellen abfragen, mehrere Berechnungen miteinander verknüpfen und die Ergebnisse ihrer Analysen visualisieren. Bei interaktiven Spark-Anwendungen verbringen Sie weniger Zeit mit Warten und sind produktiver, da Athena die Anwendungen in weniger als einer Sekunde ausführt. Kunden erhalten eine vereinfachte und zweckmäßige Spark-Umgebung, die den Aufwand für Versions-Upgrades, Leistungsoptimierung und Integration mit anderen AWS-Services minimiert.
F: Warum sollte ich Athena für Apache Spark verwenden?
Verwenden Sie Athena für Apache Spark, wenn Sie eine interaktive, vollständig verwaltete Analyseumgebung und eine enge Integration mit AWS-Services benötigen. Sie können mit Spark-Analysen in Athena durchführen und dabei vertraute, ausdrucksstarke Sprachen wie Python und die wachsende Umgebung der Spark-Pakete verwenden. Sie können ihre Spark-Anwendungen auch über die Athena-APIs oder in vereinfachte Notebooks in der Athena-Konsole eingeben und Spark-Anwendungen innerhalb einer Sekunde ausführen, ohne die zugrunde liegende Infrastruktur einrichten und abstimmen zu müssen. Wie die SQL-Abfragefunktionen von Athena bietet auch Athena eine vollständig verwaltete Spark-Umgebung und kümmert sich automatisch um Leistungsoptimierung, Maschinenkonfigurationen und Software-Patches, sodass Sie sich nicht über Versions-Upgrades auf dem Laufenden halten müssen. Außerdem ist Athena eng mit anderen Analyseservices im AWS-System wie dem Datenkatalog integriert. Daher können Sie Spark-Anwendungen für Daten in S3-Data-Lakes erstellen, indem Sie auf Tabellen in Ihrem Datenkatalog verweisen.
F: Wie beginne ich mit der Verwendung von Athena für Apache Spark?
Für den Einstieg in Athena für Apache Spark können Sie ein Notebook in der Athena-Konsole starten oder eine Sitzung über die AWS-Befehlszeilenschnittstelle (CLI) oder die Athena-API starten. In Ihrem Notebook können Sie Spark-Anwendungen mit Python starten und beenden. Athena lässt sich auch in den Datenkatalog integrieren, sodass Sie mit jeder Datenquelle arbeiten können, auf die im Katalog verwiesen wird, einschließlich Daten direkt in S3-Data-Lakes. Mit Notebooks können Sie jetzt Daten aus verschiedenen Quellen abfragen, mehrere Berechnungen miteinander verknüpfen und die Ergebnisse ihrer Analysen visualisieren. Bei Ihren Spark-Anwendungen können Sie in der Athena-Konsole den Ausführungsstatus überprüfen und Protokolle und den Ausführungsverlauf einsehen.
F: Auf welcher Spark-Version basiert Athena?
Athena für Apache Spark basiert auf der stabilen Spark-Version 3.2. Als vollständig verwaltete Engine stellt Athena einen benutzerdefinierten Build von Spark bereit und verarbeitet die meisten Spark-Versionsaktualisierungen automatisch und abwärtskompatibel, ohne dass Sie sich darum kümmern müssen.
F: Wie lautet die Preisgestaltung von Athena für Apache Spark?
Sie zahlen nur für die Zeit, die Ihre Apache-Spark-Anwendung zur Ausführung benötigt. Sie zahlen einen Stundenpreis auf der Basis der Zahl von Data Processing Units (oder DPUs), die zum Ausführen Ihrer Apache-Spark-Anwendung genutzt werden. Eine einzelne DPU bietet 4 vCPU und 16 GB Arbeitsspeicher. Sie bezahlen in Schritten von 1 Sekunde, aufgerundet auf die nächste Minute.
Wenn Sie eine Spark-Sitzung starten, indem Sie entweder ein Notebook in der Athena-Konsole starten oder Athena-API verwenden, werden zwei Knoten für die Anwendung bereitgestellt: ein Notebook-Knoten, der als Server für die Benutzeroberfläche des Notebooks fungiert, und ein Spark-Treiberknoten, der die Spark-Anwendung koordiniert hat und mit allen Spark-Worker-Knoten kommuniziert. Athena berechnet Ihnen für Treiber- und Worker-Knoten eine Gebühr für die Dauer der Sitzung. Amazon Athena bietet Notebooks zur Konsole als Benutzerschnittstelle zur Erstellung, zum Einreichen und Ausführen von Apache-Spark-Anwendungen und bietet Ihnen diese ohne Zusatzkosten an. Athena berechnet für die Notebook-Knoten, die während der Spark-Sitzung verwendet werden, keine Gebühren.
Wann sollte Athena statt anderer Big-Data-Services verwendet werden?
Amazon Athena und Amazon Redshift Serverless adressieren unterschiedliche Anforderungen und Anwendungsfälle, auch wenn beide Services Serverless sind und SQL-Benutzer ermöglichen.
EMR Serverless ist der einfachste Weg, Spark- und Hive-Anwendungen in der Cloud auszuführen und ist die einzige Serverless-Hive-Lösung in der Branche. Mit EMR Serverless können Sie die betriebliche Überlastung des Optimierens, des Anpassens, der Sicherung, des Patchings und der Verwaltung von Clustern beseitigen und nur die Ressourcen bezahlen, die Ihre Anwendungen tatsächlich nutzen. Mit EMRs leistungsoptimierter Laufzeit erhalten Sie eine doppelt so schnelle Leistung als Standard-Open-Source. Ihre Anwendungen laufen also schneller und senken Ihre Rechenkosten. EMRs leistungsoptimierte Laufzeit ist zu 100 % mit der API kompatibel mit der Standard-Open-Source. Sie müssen also Ihre Anwendungen nicht neu schreiben, um Sie auf EMR ausführen zu können. Sie müssen auch über keine tiefen Spark-Fachkenntnisse verfügen, um sie einzuschalten, da diese standardmäßig eingeschaltet werden. EMR bietet die Möglichkeit, Anwendungen auf EMR-Clustern, EKS-Clustern, oder EMR Serverless auszuführen. EMR-Cluster eignen sich für Kunden, die maximale Kontrolle und Flexibilität über die Ausführung ihrer Anwendung benötigen. Mit EMR-Clustern können Kunden den Typ der EC2-Instance auswählen, um, die Amazon-Linux-Image-AMI anzupassen, die EC2-Instance-Konfiguration anzupassen, Open-Source-Frameworks anzupassen und zu erweitern und um zusätzliche benutzerdefinierte Software auf Cluster-Instances zu installieren. EMR auf EKS eignet sich für Kunden, die die EKS standardisieren möchten, um Cluster bei allen Anwendungen zu verwalten oder die verschiedenen Versionen eines Open-Source-Frameworks auf dem gleichen Cluster zu verwenden. EMR Serverless eignet sich für Kunden, die die Verwaltung und den Betrieb von Clustern vermeiden möchten und, Anwendungen einfach mit Open-Source-Frameworks ausführen möchten.
Athena SQL-Abfragen können ML-Modelle aufrufen, die in Amazon SageMaker bereitgestellt wurden. Sie können den S3-Speicherort angeben, an dem die Ergebnisse dieser Athena-SQL-Abfragen gespeichert werden sollen.

Erkunden Sie alle Preisoptionen, die von Amazon Athena angeboten werden.

Sie erhalten sofort Zugriff auf das kostenlose AWS-Kontingent.

Beginnen Sie mit dem Erstellen von Amazon Athena auf der AWS-Managementkonsole.