Allgemeines

F: Was ist Amazon Athena?
Amazon Athena ist ein interaktiver Abfrageservice, der die Analyse von Daten in Amazon S3 mit Standard-SQL erleichtert. Athena ist serverlos, sodass keine Infrastruktur eingerichtet oder verwaltet werden muss und Sie sofort mit dem Analysieren von Daten beginnen können. Sie müssen nicht einmal Daten in Athena übertragen. Athena arbeitet direkt mit den in S3 gespeicherten Daten. Um zu beginnen, melden Sie sich einfach bei der Athena-Verwaltungskonsole an, definieren Ihr Schema und beginnen mit dem Abfragen. Amazon Athena verwendet Presto mit vollständigem Support für Standard-SQL und arbeitet mit einer Vielzahl von Standard-Datenformaten wie beispielsweise CSV, JSON, ORC, Apache Parquet und Avro zusammen. Während Amazon Athena ideal für schnelle Adhoc-Abfragen geeignet ist und in Amazon QuickSight integriert werden kann, um einfache Visualisierungen durchzuführen, kann es auch komplexe Analysen einschließlich großer Joins, Fensterfunktionen und Arrays erstellen.
 
F: Was kann ich mit Amazon Athena tun?
Amazon Athena unterstützt Sie beim Analysieren von Daten, die in Amazon S3 gespeichert sind. Sie können Athena verwenden, um Adhoc-Anfragen mit ANSI SQL auszuführen, ohne dass Sie die Daten in Athena aggregieren oder laden müssen. Amazon Athena kann unstrukturierte, semi-strukturierte und strukturierte Datensätze verarbeiten. Dazu gehören CSV-, JSON- und Avro-Daten sowie Daten im Spaltenformat wie beispielsweise Apache Parquet und Apache ORC. Amazon Athena kann in Amazon QuickSight integriert werden, um eine einfache Visualisierung zu erreichen. Darüber hinaus können Sie Amazon Athena verwenden, um Berichte zu erstellen oder Daten mit Business Intelligence-Tools oder SQL-Clients, die über einen ODBC- oder  JDBC-Treiber verbunden sind, zu untersuchen.
 
F: Welches sind die ersten Schritte bei einem Einstieg in Amazon Athena?
Um mit Amazon Athena zu beginnen, melden Sie sich einfach bei der AWS Management Console für Athena an und erstellen Ihr Schema, indem Sie DDL-Anweisungen auf der Konsole schreiben oder indem Sie einen Assistenten zur Tabellenerstellung verwenden. Sie können dann mit der Abfrage von Daten beginnen, indem Sie einen integrierten Abfrage-Editor verwenden. Athena fragt Daten direkt von Amazon S3 ab, sodass kein Laden erforderlich ist.
 
F: Wie kann ich auf Amazon Athena zugreifen?
Auf Amazon Athena können Sie über die AWS-Managementkonsole, eine API oder über einen ODBC- oder JDBC-Treiber zugreifen. Sie können programmgesteuerte Abfragen durchführen sowie Tabellen oder Partitionen mithilfe des ODBC- oder  JDBC-Treibers hinzufügen. 
 
F: Welche Service-Limits gibt es in Verbindung mit Amazon Athena?
Klicken Sie hier, um mehr über die Service-Limits zu erfahren.
 
F: Welche Technologie bildet die Basis für Amazon Athena?
Amazon Athena verwendet Presto mit vollständigem Support für Standard-SQL und arbeitet mit einer Vielzahl von Standard-Datenformaten wie beispielsweise CSV, JSON, ORC, Avro und Parquet zusammen. Amazon Athena kann komplexe Analysen einschließlich großer Joins, Fensterfunktionen und Arrays erstellen. Da Amazon Athena Amazon S3 als zugrunde liegenden Datenspeicher verwendet, ist es hochgradig verfügbar und dauerhaft, wobei die Daten redundant in mehreren Speicherzentren und in jedem Speicherzentrum auf mehreren Geräten gespeichert werden. Weitere Informationen über Presto finden Sie hier.
 
F: Wie speichert Amazon Athena Tabellendefinitionen und Schemata?
Amazon Athena speichert Informationen und Schemata zu den Datenbanken und Tabellen, die Sie für Ihre in Amazon S3 gespeicherten Daten erstellen, in einem verwalteten Datenkatalog. In Regionen, in denen AWS Glue verfügbar ist, können Sie ein Upgrade ausführen, um den AWS Glue-Datenkatalog mit Amazon Athena zu verwenden. In Regionen, in denen AWS Glue nicht verfügbar ist, verwendet Athena einen internen Katalog.
Sie können den Katalog mithilfe von DDL-Anweisungen oder über die AWS Management Console bearbeiten. Alle von Ihnen definierten Schemata werden automatisch gespeichert, es sei denn, Sie löschen sie ausdrücklich. Athena verwendet die Schema-on-Read-Technologie. Dies bedeutet, dass Ihre Tabellendefinitionen auf ihre Daten in S3 angewendet werden, wenn Abfragen ausgeführt werden. Es müssen keine Daten geladen werden und es sind keine Transformationen erforderlich. Sie können Tabellendefinitionen und Schemata löschen, ohne dass dies Auswirkungen auf die zugrunde liegenden Daten hat, die in Amazon S3 gespeichert sind.
 
F: Warum sollte ich ein Upgrade auf den AWS Glue-Datenkatalog durchführen?
AWS Glue ist ein vollständig verwalteter ETL-Service. Glue umfasst drei Hauptkomponenten: 1) einen Crawler, der automatisch Ihre Datenquellen scannt, Datenformate identifiziert und Schemata ableitet, 2) einen vollständig verwalteten ETL-Service, mit dem Sie Daten transformieren und an verschiedene Ziele verschieben können, sowie 3) einen Datenkatalog zum Speichern von Datenbank- und Tabellen-Metadaten, die in S3 oder einem ODBC- oder JDBC-kompatiblen Datenspeicher gespeichert werden. Um die Vorteile von Glue nutzen zu können, ist ein Upgrade vom internen Athena-Datenkatalog auf den Glue-Datenkatalog erforderlich.
Das Upgrade auf den Glue-Datenkatalog bietet folgende Vorteile:
  1. Einheitliches Metadaten-Repository: AWS Glue lässt sich in zahlreiche AWS-Services integrieren. AWS Glue unterstützt gespeicherte Daten in Amazon Aurora, Amazon RDS MySQL, Amazon RDS PostreSQL, Amazon Redshift und Amazon S3 sowie MySQL- und PostgreSQL-Datenbanken in Ihrer Virtual Private Cloud (Amazon VPC), die auf Amazon EC2 ausgeführt wird. AWS Glue ermöglicht die vorkonfigurierte Integration in Amazon Athena, Amazon EMR, Amazon Redshift Spectrum sowie jegliche mit Apache Hive Metastore kompatiblen Anwendungen.
  2. Automatische Schema- und Partitionserkennung: AWS Glue scannt automatisch Ihre Datenquellen, identifiziert Datenformate und schlägt Schemata und Transformationen vor. Crawler können die Automatisierung der Tabellenerstellung sowie das automatische Laden von Partitionen erleichtern.
  3. Einfach zu erstellende Pipelines: Das ETL-Modul von AWS Glue generiert benutzerdefinierbaren Python-Code, der wiederverwendet und portiert werden kann. Erstellen Sie den Code mit Ihrer bevorzugten IDE oder einem Notizbuch, und nutzen Sie ihn über GitHub gemeinsam mit anderen Anwendern. Sobald Ihr ETL-Auftrag bereit ist, können Sie dessen Ausführung innerhalb der vollständig verwalteten, skalierten Spark-Infrastruktur von AWS Glue planen. AWS Glue ist serverlos und verwaltet die Bereitstellung, Konfiguration und Skalierung der zum Ausführen Ihrer ETL-Jobs erforderlichen Ressourcen. ETL ist dadurch eng in Ihren Workflow integrierbar.
Klicken Sie hier, um mehr über den AWS Glue-Datenkatalog zu erfahren.
 
F: Gibt es eine Schritt-für-Schritt-Anleitung für das Upgrade auf den AWS-Datenkatalog?
Ja. Eine Schritt-für-Schritt-Anleitung finden Sie hier.
 
F: In welchen AWS-Regionen ist Amazon Athena verfügbar?
Weitere Informationen zur Verfügbarkeit von Amazon Athena-Services nach Regionen finden Sie unter Regionale Produkte und Services.
 

Vorschaufunktionen

F: Welche Vorschaufunktionen sind in Athena verfügbar? [Vorversion]
Sie können jetzt Ihre SageMaker-Modelle für Machine Learning (ML) in einer Athena SQL-Abfrage aufrufen, um eine Inferenz auszuführen. Durch die Möglichkeit, ML-Modelle in SQL-Abfragen zu verwenden, werden komplexe Aufgaben wie die Erkennung von Anomalien, die Analyse von Kundenkohorten und Umsatzprognosen so einfach wie das Schreiben einer SQL-Abfrage. Weitere Informationen.
 
Mit einer Verbundabfrage können Sie jetzt Daten analysieren, die in einer Vielzahl von Datenspeichern in derselben Abfrage gespeichert sind, entweder lokal oder in AWS gehostet. Athena unterstützt Verbundabfragen in relationalen, nicht relationalen, Objekt- oder benutzerdefinierten Datenquellen. Sie können mit unserem Abfrageverbund-SDK auch Ihren eigenen Datenquellenkonnektor schreiben. Weitere Informationen.
 
Mit benutzerdefinierten Funktionen (UDFs) können Sie jetzt Ihre eigenen Funktionen in Java schreiben und diese in Ihrer Athena SQL-Abfrage aufrufen. Weitere Informationen.
 
Sie können Athena mit Ihrem externen Apache Hive Metastore verbinden. Wenn Ihr Dataset in Amazon S3 gespeichert ist, können Sie zusätzlich zur Verwendung des AWS Glue-Datenkatalogs als Metadatenspeicher Athena mithilfe eines AWS Lambda-basierten Datenquellenkonnektors mit Ihrem Hive-Metastore verbinden. Weitere Informationen.
 
F: Wie teste ich die Vorschaufunktionen?
Alle Athena-Abfragen, die aus der Arbeitsgruppe AmazonAthenaPreviewFunctionality stammen, werden als Vorschau-Testabfragen betrachtet. Sie können eine neue Arbeitsgruppe AmazonAthenaPreviewFunctionality mit Athena APIs oder Athena UX erstellen und einrichten. Führen Sie die folgenden Schritte aus, um die neue Arbeitsgruppe zu erstellen.
 
Die folgenden Hinweise sind für die Verwendung der Vorschaufunktionen wichtig. Bitte bearbeiten Sie den Namen der Arbeitsgruppe nicht. Sie können die Eigenschaften anderer Arbeitsgruppen bearbeiten, und z. B. CloudWatch-Metriken aktivieren oder Zahlungen durch Anforderer aktivieren. Sie können die Athena Console, JDBC/ODBC-Treiber oder APIs verwenden, um Ihre Testabfragen zu senden. Stellen Sie sicher, dass Sie Arbeitsgruppe: AmazonAthenaPreviewFunctionality angeben, wenn Sie Testabfragen senden. Die Vorschaufunktion ist nur in der Region us-east-1 verfügbar. Wenn Sie Athena in einer anderen Region verwenden und Abfragen mit Workgroup: AmazonAthenaPreviewFunctionality senden, schlägt Ihre Abfrage fehl. AWS-Regionen-übergreifende Aufrufe werden im Vorschaumodus nicht unterstützt.
 
F: Ist es sicher, die Athena-Vorschaufunktionen in meinem Produktionskonto zu verwenden?
Wir empfehlen, Ihre Produktions-Verarbeitungslast nicht in die Vorschau-Arbeitsgruppe AmazonAthenaPreviewFunctionality zu integrieren. Die Abfrageleistung kann zwischen der Vorschau-Arbeitsgruppe und den anderen Arbeitsgruppen in Ihrem Konto variieren. Außerdem können wir der Vorschau-Arbeitsgruppe neue Funktionen und Fehlerbehebungen hinzufügen, die möglicherweise nicht abwärtskompatibel sind.
 
F: Wie kann ich meine Anfragen absenden?
Sie können Ihre Abfragen über die Athena-Konsole, die Athena-APIs oder über den Athena-Vorschau-JDBC-Treiber mit handelsüblichen Abfrage- und Ergebnisvisualisierungstools wie SQL WorkBench senden.
 
F: Wie kann ich Feedback zur Funktionsweise von Vorschaufunktionen geben?
Ihr Feedback ist uns wichtig. Bitte senden Sie uns Ihr Feedback per E-Mail an athena-feedback@amazon.com.
 
F: Fallen für das Testen der Vorschaufunktionen Gebühren an?
Während der Vorschau werden Ihnen keine Gebühren für die aus verbundenen Datenquellen gescannten Daten berechnet. Für Daten, die mit Amazon S3 gescannt wurden, werden Ihnen jedoch die Standardtarife von Athena berechnet. Darüber hinaus werden Ihnen für die AWS-Services, die Sie mit Athena verwenden, Standardraten berechnet, z. B. für Amazon S3, AWS Lambda, AWS Glue, Amazon SageMaker und AWS Serverless Application Repository. Beispielsweise werden Ihnen S3-Gebühren für Speicherung, Anforderungen und die regionenübergreifende Datenübertragung berechnet. Die Abfrageergebnisse werden standardmäßig in einem S3-Bucket Ihrer Wahl gespeichert, der ebenfalls zu den Standardtarifen von Amazon S3 berechnet wird. Wenn Sie AWS Lambda verwenden, wird Ihnen die Anzahl der Anforderungen für Ihre Funktionen sowie die Dauer (Zeit bis zur Ausführung des Codes) berechnet.
 
F: Was passiert, wenn die Vorschau endet?
Alle mit Arbeitsgruppe AmazonAthenaPreviewFunctionality übermittelten Abfragen schlagen fehl. Sie können weiterhin Abfragen aus anderen Arbeitsgruppen senden. Wenn Sie keine Arbeitsgruppe angeben, wird die Abfrage automatisch unter Verwendung der primären Standardarbeitsgruppe ausgeführt. Bitte beachten Sie, dass die Vorschau einer Funktion jederzeit enden kann.

Wann sollte Athena statt anderer Big Data-Services verwendet werden?

F: Was ist der Unterschied zwischen Amazon Athena, Amazon EMR und Amazon Redshift?
Abfrageservices wie Amazon Athena, Data Warehouses wie Amazon Redshift und hoch entwickelte Datenverarbeitungs-Frameworks wie Amazon EMR sind für unterschiedliche Anforderungen und Anwendungsfälle konzipiert. Sie müssen lediglich das richtige Tool für den Job auswählen. Amazon Redshift bietet die schnellste Abfrageleistung für Unternehmensberichte und Business Intelligence-Arbeitslasten, besonders wenn es sich um extrem komplexe SQL-Abfragen mit mehreren Joins und Unterabfragen handelt. Mit Amazon EMR ist es im Vergleich zu Vor-Ort-Bereitstellungen einfach und kostengünstig, hochgradig verteilte Verarbeitungs-Frameworks wie beispielsweise Hadoop, Spark und Presto auszuführen. Amazon EMR ist flexibel: Sie können benutzerdefinierte Anwendungen und Code ausführen sowie spezielle Parameter für Computing, Speicher und Anwendungen definieren, um Ihre Analyseanforderungen zu optimieren. Amazon Athena bietet die einfachste Möglichkeit zum Ausführen von Adhoc-Abfragen auf Daten in S3, ohne dass Server eingerichtet oder verwaltet werden müssen.
 
F: Wann sollten Sie ein voll funktionsfähiges Data Warehouse für Unternehmen wie beispielsweise Amazon Redshift statt eines Abfrageservice wie beispielsweise Amazon Athena verwenden?
Ein Data Warehouse wie beispielsweise Amazon Redshift ist Ihre beste Wahl, wenn Sie Daten aus vielen unterschiedlichen Quellen wie Lagerbestandssystemen, Finanzsystemen und Einzelhandelssystemen in einem einheitlichen Format zusammenführen und langfristig speichern müssen, um ausgefeilte Unternehmensberichte aus älteren Daten zu erstellen. In solchen Fällen ist Amazon Redshift Ihre beste Wahl.
 
Data Warehouses sammeln Daten aus allen Bereichen eines Unternehmens und bilden eine "zentrale Quelle der Wahrheit" für Berichterstellung und Analyse. Data Warehouses führen Daten aus vielen Quellen zusammen. Sie formatieren, organisieren und speichern die Daten und unterstützen komplexe Hochgeschwindigkeitsabfragen, aus denen Unternehmensberichte erstellt werden. Das Abfragemodul in Amazon Redshift wurde so optimiert, dass es eine besonders gute Leistung bringt, wenn Sie komplexe Abfragen mit Verknüpfungen großer Zahlen aus sehr großen Datenbanktabellen ausführen. TPC-DS ist ein Standard-Vergleichstest zum Replizieren dieses Anwendungsfalls und Redshift führt diese Abfragen bis zu 20-mal schneller aus als Abfrageservices, die für unstrukturierte Daten optimiert sind. Wenn Sie Abfragen auf hochgradig strukturierte Daten mit vielen Joins von sehr großen Tabellen ausführen müssen, sollten Sie sich für Amazon Redshift entscheiden.
 
Im Vergleich dazu machen es Services wie beispielsweise Amazon Athena einfach, interaktive Abfragen auf Daten direkt in Amazon S3 auszuführen, ohne sich mit dem Formatieren von Daten oder dem Verwalten von Infrastruktur befassen zu müssen. Athena ist zum Beispiel großartig, wenn Sie nur eine schnelle Abfrage einiger Weblogs ausführen müssen, um ein Leistungsproblem Ihrer Website zu beheben. Mit Abfrage-Services können Sie schnell beginnen. Sie definieren einfach eine Tabelle für Ihre Daten und beginnen Ihre Abfragen mit Standard-SQL.
 
Sie können auch beide Services zusammen verwenden. Wenn Sie Ihre Daten vor dem Laden in Amazon Redshift in Amazon S3 bereitstellen, können diese Daten auch für Amazon Athena registriert und davon abgefragt werden.
 
F: Wann sollte ich sollte ich Amazon EMR nutzen statt Amazon Athena?
Amazon EMR bietet viel mehr als nur SQL-Abfragen. Mit EMR können Sie eine Vielzahl von Datenverarbeitungsaufgaben mit horizontaler Skalierung für Anwendungen ausführen wie beispielsweise Machine Learning, Grafikanalysen, Datentransformationen, Daten-Streaming und praktisch alles, was sie codieren können. Sie sollten Amazon EMR verwenden, wenn Sie benutzerdefinierten Code zum Verarbeiten und Analysieren extrem großer Datensätze mit den neuesten Frameworks für Big Data-Bearbeitungen wie beispielsweise Spark, Hadoop, Presto oder Hbase einsetzen. Amazon EMR gibt Ihnen die volle Kontrolle über die Konfiguration Ihrer Cluster und der darauf installierten Software.
 
Sie sollten Amazon Athena verwenden, wenn Sie interaktive Adhoc-SQL-Abfragen in Amazon S3 ausführen. Dabei ist es nicht erforderlich, Infrastruktur oder Cluster zu verwalten.
 
F: Kann ich Amazon Athena zum Abfragen von Daten verwenden, die ich mit Amazon EMR verarbeitete?
Ja, Amazon Athena unterstützt viele der gleichen Datenformate wie Amazon EMR. Der Datenkatalog von Athena ist kompatibel mit Hive Metastore. Wenn Sie EMR verwenden und bereits einen Hive Metastore haben, führen Sie Ihre DDL-Anweisungen einfach in Amazon Athena aus. Sie können dann sofort mit der Abfrage Ihrer Daten beginnen, ohne dass dies Auswirkungen auf Ihre Amazon EMR-Jobs hat.
 
F: In welcher Beziehung steht die Verbundabfrage in Athena zu anderen AWS-Diensten? [Vorversion]
Mit der Verbundabfrage in Athena können Sie SQL-Abfragen für eine Vielzahl von relationalen, nicht relationalen und benutzerdefinierten Datenquellen ausführen. Sie erhalten eine einheitliche Möglichkeit, SQL-Abfragen in verschiedenen Datenspeichern auszuführen.
 
F: Welche Beziehung besteht zwischen Machine Learning in Athena und anderen AWS-Diensten? [Vorversion]
Athena SQL-Abfragen können ML-Modelle aufrufen, die in Amazon SageMaker bereitgestellt wurden. Sie können den Amazon S3-Speicherort angeben, an dem die Ergebnisse dieser Athena SQL-Abfragen gespeichert werden sollen.
 
 

Tabellen, Datenformate und Partitionen erstellen

F: Wie kann ich Tabellen und Schemata für meine Daten in Amazon S3 erstellen?
Amazon Athena verwendet Apache Hive DDL zum Definieren von Tabellen. Sie können DDL-Anweisungen über die Athena-Konsole, einen ODBC- oder JDBC-Treiber oder die API ausführen oder den Assistenten zur Tabellenerstellung von Athena verwenden. Wenn sie den AWS Glue-Datenkatalog mit Athena verwenden, können Sie Schemas und Partitionen auch automatisch mit Glue-Crawlern ableiten. AWS Glue-Crawler werden mit einem Datenspeicher verbunden und durchsuchen eine priorisierte Liste mit Klassifizierungen, um das Schema für Ihre Daten sowie weitere Statistiken zu extrahieren. Diese Metadaten werden anschließend in den Glue-Datenkatalog übertragen. Crawler können regelmäßig ausgeführt werden, um neu verfügbare Daten sowie Änderungen an bestehenden Daten einschließlich Änderungen an Tabellendefinitionen zu ermitteln. Mit Crawlern werden automatisch neue Tabellen sowie Partitionen zu bestehenden Tabellen und neue Versionen von Tabellendefinitionen hinzugefügt. Sie können AWS Glue-Crawler auch anpassen, um Ihre eigenen Dateintypen zu klassifizieren.
 
Wenn Sie in Amazon Athena ein neues Tabellenschema erstellen, wird dieses im Datenkatalog gespeichert und zum Ausführen von Abfragen verwendet. Ihre Daten in S3 bleiben dabei unverändert. Athena verwendet eine Methode, die als Schema-on-Read bezeichnet wird und die es Ihnen ermöglicht, Ihr Schema zur Ausführungszeit einer Abfrage auf Ihre Daten anzuwenden. Dadurch müssen die Daten nicht mehr geladen oder transformiert werden. Weitere Informationen zum Erstellen von Tabellen.
 
F: Welche Datenformate unterstützt Amazon Athena?
Amazon Athena unterstützt eine Vielzahl von Datenformaten wie beispielsweise CSV, TSV, JSON oder Textdateien. Außerdem werden Open Source-Spaltenformate wie Apache ORC und Apache Parquet unterstützt. Darüber hinaus unterstützt Athena komprimierte Daten in den Formaten Snappy, Zlib, LZO und GZIP. Durch Komprimieren, Partitionieren und das Verwenden von Spaltenformaten können Sie die Leistung verbessern und Ihre Kosten reduzieren.
 
F: Welche Arten von Datentypen unterstützt Amazon Athena?
Amazon Athena unterstützt sowohl einfache Datentypen wie INTEGER, DOUBLE und VARCHAR als auch komplexe Datentypen wie MAPS, ARRAY und STRUCT.  
 
F: Kann ich in Athena beliebige Hive-Abfragen verwenden?
Amazon Athena verwendet Hive nur für DDL (Data Definition Language) und zum Erstellen, Modifizieren und Löschen von Tabellen und/oder Partitionen. Eine vollständige Liste der unterstützten Anweisungen finden Sie hier. Athena verwendet Presto, wenn Sie Ihre SQL-Abfrage in Amazon S3 ausführen. Sie können ANSI-kompatible SQL SELECT-Anweisungen ausführen, um Ihre Daten in Amazon S3 abzufragen.
 
F: Was ist ein SerDe?
SerDe steht für Serializer/Deserializer, bei denen es sich um Bibliotheken handelt, die Hive Anweisungen zum Interpretieren von Datenformaten geben. Hive DLL-Anweisungen setzen voraus, dass Sie einen SerDe angeben, damit das System weiß, wie die Daten zu interpretieren sind, auf die Sie verweisen. Amazon Athena verwendet SerDes, um die aus Amazon S3 gelesenen Daten zu interpretieren. Das Konzept von SerDes in Athena ist das gleiche wie das Konzept, das in Hive verwendet wird. Amazon Athena unterstützt die folgenden SerDes:
  1. Apache Weblogs: "org.apache.hadoop.hive.serde2.RegexSerDe"
  2. CSV: "org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe"
  3. TSV: "org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe"
  4. Benutzerdefinierte Trennzeichen: "org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe"
  5. Parquet: "org.apache.hadoop.hive.ql.io.parquet.serde.ParquetHiveSerDe"
  6. Orc: "org.apache.hadoop.hive.ql.io.orc.OrcSerde"
  7. JSON: "org.apache.hive.hcatalog.data.JsonSerDe" ODER org.openx.data.jsonserde.JsonSerDe
 
F: Kann ich meinen eigenen SerDe (Serializer/Deserializer) zu Amazon Athena hinzufügen?
Zur Zeit können Sie Ihren eigenen SerDe nicht zu Amazon Athena hinzufügen. Wir begrüßen ihr Feedback und wenn es SerDes gibt, die Sie hinzugefügt haben möchten, wenden Sie sich bitte unter Athena-feedback@amazon.com an das Athena-Team.
 
F: Ich habe Parquet-/ORC-Dateien mithilfe von Spark/Hive erstellt. Kann ich sie über Athena abfragen?
Ja, Parquet- und ORC-Dateien, die mithilfe von Spark erstellt wurden, können in Athena gelesen werden.
 
F: Ich erhalte Daten von Kinesis Firehose. Wie kann ich sie mithilfe von Athena abfragen?
Wenn Ihre Kinesis Firehose-Daten in Amazon S3 gespeichert sind, können Sie sie mithilfe von Amazon Athena abfragen. Erstellen Sie in Athena einfach ein Schema für Ihre Daten und beginnen Sie mit der Abfrage. Wir empfehlen Ihnen, dass Sie die Daten in Partitionen organisieren, um die Leistung zu optimieren. Sie können Partitionen, die von Kinesis Firehose erstellt wurden, mithilfe von ALTER TABLE DDL-Anweisungen hinzufügen. Weitere Informationen über Partitionen.
 
F: Unterstützt Amazon Athena die Datenpartitionierung?
Ja. Amazon Athena ermöglicht Ihnen, Ihre Daten nach beliebigen Spalten zu partitionieren. Mit Partitionen kann die Menge der bei einer Abfrage berücksichtigten Daten eingeschränkt werden, was zu Kosteneinsparungen und schnellerer Ausführung führt. Sie können Ihr Partitionierungsschema mit der Klausel PARTITIONED BY in der Anweisung CREATE TABLE festlegen. Weitere Informationen über die Partitionierung von Daten.
 
F: Wie kann ich einer vorhandenen Tabelle in Amazon Athena neue Daten hinzufügen?
Wenn Ihre Daten partitioniert sind, müssen Sie eine Metadatenabfrage (ALTER TABLE ADD PARTITION) ausführen, um die Partition zu Athena hinzuzufügen, wenn in Amazon S3 neue Daten verfügbar werden. Wenn Ihre Daten nicht partitioniert sind, werden neue Daten automatisch zu Athena hinzugefügt, wenn die Daten oder Dateien dem vorhandenen Präfix hinzugefügt werden. Weitere Informationen über die Partitionierung von Daten.
 
F: Ich habe bereits große Mengen von Protokolldaten in Amazon S3. Kann ich Amazon Athena verwenden, um diese Daten abzufragen?
Ja, mit Amazon Athena ist es sehr einfach, SQL-Standardabfragen auf Ihren vorhandenen Protokolldaten auszuführen. Athena fragt Daten direkt von Amazon S3 ab, sodass kein Verschieben oder Laden erforderlich ist. Sie definieren Ihr Schema einfach mit DDL-Anweisungen und beginnen sofort mit der Abfrage Ihrer Daten.

Abfragen und Datenformate

F: Welche Arten von Abfragen unterstützt Amazon Athena?
Amazon Athena unterstützt ANSI SQL-Abfragen. Amazon Athena verwendet Presto, ein speicherresidentes, verteiltes Open Source-SQL-Modul, und kann komplexe Analysen einschließlich großer Joins, Fensterfunktionen und Arrays erstellen.

F: Kann ich Amazon QuickSight mit Amazon Athena verwenden?
Ja. Amazon Athena wird mit Amazon QuickSight integriert, was Ihnen eine einfache Visualisierung Ihrer in Amazon S3 gespeicherten Daten ermöglicht.

F: Unterstützt Athena andere BI-Tools und SQL-Clients?
Ja. Amazon Athena wird mit einem ODBC- und einem JDBC-Treiber ausgeliefert, durch die auch andere Business Intelligence-Tools und SQL-Clients verwendet werden können. Weitere Informationen zur Verwendung eines ODBC- oder  JDBC-Treibers mit Athena.

F: Wie kann ich auf die Funktionen zugreifen, die von Amazon Athena unterstützt werden?
Klicken Sie hier, um weitere Informationen über die von Amazon Athena unterstützten Funktionen zu erhalten.
 
F: Wie kann ich die Leistung meiner Abfrage verbessern?
Sie können die Leistung Ihrer Abfrage verbessern, indem Sie Ihre Daten komprimieren, partitionieren oder in Spaltenformate umwandeln. Amazon Athena unterstützt Open Source-Spaltenformate für Daten wie beispielsweise Apache Parquet und Apache ORC. Das Umwandeln Ihrer Daten in ein komprimiertes Format oder ein Spaltenformat senkt Ihre Kosten und verbessert die Abfrageleistung, da Athena in die Lage versetzt wird, beim Ausführen Ihrer Abfrage weniger Daten von S3 abzurufen.
 
F: Unterstützt Athena benutzerdefinierte Funktionen (UDFs)? [Vorversion]
Amazon Athena unterstützt jetzt benutzerdefinierte Funktionen (UDFs), mit denen Sie benutzerdefinierte Skalarfunktionen schreiben und diese in SQL-Abfragen aufrufen können. Während Athena integrierte Funktionen bietet, können Sie mit UDFs benutzerdefinierte Vorgänge ausführen, z. B. das Komprimieren und Dekomprimieren von Daten, das Entfernen vertraulicher Daten oder das Anwenden einer benutzerdefinierten Entschlüsselung.

Sie können ihre UDFs in Java mit dem Athena Abfrageverbund-SDK schreiben. Wenn eine UDF in einer an Athena übermittelten SQL-Abfrage verwendet wird, wird sie auf AWS Lambda aufgerufen und ausgeführt. UDFs können sowohl in SELECT- als auch in FILTER-Klauseln einer SQL-Abfrage verwendet werden. Sie können mehrere UDFs in derselben Abfrage aufrufen.
 
F: Wie ist die Benutzererfahrung beim Schreiben einer UDF? [Vorversion]
Sie können das Athena Abfrageverbund-SDK zum Schreiben Ihrer UDF verwenden. UDF-Beispiele finden Sie hier. Sie können Ihre Funktion zu AWS Lambda hochladen und sie dann in Ihrer Athena-Abfrage aufrufen. Klicken Sie hier, um zu starten.
 
Athena ruft Ihre UDF für einen Stapel von Datensatzzeilen auf, um die Leistung zu optimieren.

Verbundabfrage [in Vorversion]

F: Warum sollte man Verbundabfragen in Athena verwenden? [Vorversion]
Entwickler wählen häufig relationale, Schlüsselwert-, Dokument-, In-Memory-, Such-, Grafik-, Zeitreihen- und Hauptbuchdatenbanken aus und speichern ihre Daten in S3 ab. Das Ausführen von Analysen für Daten, die über eine Vielzahl von Datenquellen verteilt sind, kann komplex und zeitaufwendig sein. Analysten müssen häufig neue Programmiersprachen und Datenbankkonstruktionen erlernen und komplexe Pipelines erstellen, in denen Daten extrahiert, transformiert und kopiert werden, bevor sie sie analysieren können. In ähnlicher Weise müssen Datenwissenschaftler häufig Daten aus mehreren Datenquellen extrahieren, um einen Datensatz zu erstellen, der für die Extraktion und das Training von Features geeignet ist. Dieser Vorgang ist zeitaufwendig und verhindert den Aufbau von Self-Service-Plattformen, auf denen Analysten und Datenwissenschaftler problemlos Pipelines erstellen können, mit denen Daten aus mehreren Quellen extrahiert werden können. Analysten müssen sich in der Regel auf Data Engineering-Teams verlassen, um solche Pipelines zu erstellen, was zu Verzögerungen und Komplexität führt. Eine Verbundabfrage eliminiert diese Komplexität, indem ein einfach zu verwendender serverloser Pay-per-Query-Service bereitstellt wird, mit dem Sie SQL-Abfragen in einer Vielzahl solcher Datenspeicher ausführen können. Sie können bekannte SQL-Konstrukte verwenden, um Daten für eine schnelle Analyse über mehrere Datenquellen hinweg abzufragen, oder geplante SQL-Abfragen verwenden, um Daten aus mehreren Datenquellen zu extrahieren und zu transformieren und sie für die weitere Analyse in S3 zu speichern.
 
Darüber hinaus verfügen Sie möglicherweise auch über proprietäre oder benutzerdefinierte Datenbanken und Kataloge. Verbundabfragen von Athena sind erweiterbar, da Sie damit Ihre selbst geschriebenen oder von der Community entwickelten Konnektoren verwenden können, um SQL-Abfragen für eine beliebige Datenquelle oder einen benutzerdefinierten Katalog Ihrer Wahl auszuführen. Es gibt Open-Source-Referenzimplementierungen für mehrere solcher Datenquellen, die als Basis für die Entwicklung von neuen verwendet werden können.
 
F: Welche Anwendungsfälle werden von Athena-Verbundabfragen unterstützt? [Vorversion]
Verbundabfragen von Athena unterstützen eine Vielzahl von Anwendungsfällen. Ein Beispiel ist die Ad-hoc-Analyse, bei der häufig Daten in verschiedenen Datenspeichern gespeichert werden. Stellen Sie sich ein E-Commerce-Unternehmen vor, das Amazon ElasticCache Redis zum Speichern aktiver Bestellungen verwendet, Amazon DocumentDB oder MongoDB zum Speichern kundenspezifischer Informationen wie E-Mail-Adresse oder Lieferadresse sowie Amazon CloudWatch-Protokolle (z. B. vom benutzerdefinierten Datenspeicher) zum Speichern von Anwendungsprotokollereignissen für die Auftragsverarbeitung. Möglicherweise möchten Sie wissen, was mit einer bestimmten Bestellung geschehen ist, die als verspätet gemeldet wurde. Mithilfe einer einfachen Abfrage können Sie Daten in mehreren Datenspeichern zusammenführen, um eine schnelle Analyse durchzuführen.
 
Ein weiteres Beispiel ist ETL aus mehreren Datenquellen. Für die Ausführung von Analysen müssen häufig Daten aus mehreren Datenquellen zusammengestellt werden, damit sie in einem Data Warehouse weiter veröffentlicht oder mithilfe von Engines wie Athena, Apache Spark oder Apache Presto abgefragt werden können. Für einen solchen Aufbau müssen Daten-Pipelines erstellt werden, mit denen Daten aus mehreren Quellen nach einem Zeitplan extrahiert und transformiert werden können. Das Erstellen von Daten-Pipelines erfordert häufig das Erlernen neuer Programmiersprachen wie Python und Java oder die Verwendung von verteilten Großsystemen wie Apache Spark. Analysten müssen sich häufig auf Data-Engineering-Teams verlassen, um solche Pipelines zu erstellen. Mit Verbundabfragen von Athena kann jeder seine Pipelines als SQL-Anweisungen ausdrücken und deren termingerechte Ausführung planen.
 
Ein drittes Beispiel sind Machine-Learning-Extrakte: Datenwissenschaftler müssen häufig Daten aus mehreren Datenquellen extrahieren, um einen Datensatz zu erstellen, der für die Extraktion und das Training von Features geeignet ist. Dieser Vorgang ist zeitaufwendig und verhindert den Aufbau von Self-Service-Plattformen.
 
F: Wie funktionieren Athena-Datenquellenkonnektoren? [Vorversion]
Sie können SQL-Abfragen für neue Datenspeicher ausführen, indem Sie den Datenspeicher bei Athena registrieren. Um eine Datenquelle zu registrieren, verwenden Sie einen für die Datenquelle spezifischen Athena-Datenquellenkonnektor. Ein Konnektor kann verwendet werden, um die Abfragemöglichkeiten von Athena auf neue Datenquellen auszudehnen. Sie können von AWS bereitgestellte Open-Source-Konnektoren verwenden, eigene Konnektoren erstellen oder zu vorhandenen Konnektoren beitragen sowie von der Community oder auf dem Markt erstellte Konnektoren verwenden. Abhängig vom Typ der Datenquelle verwaltet ein Konnektor Metadateninformationen, identifiziert bestimmte Teile der Tabellen, die gescannt, gelesen oder gefiltert werden müssen, und verwaltet die Parallelität.
 
Konnektoren werden als AWS Lambda-Funktionen im Kundenkonto ausgeführt. Jeder Konnektor besteht aus zwei Lambda-Funktionen, die für eine Datenquelle spezifisch sind – eine für Metadaten und eine für das Lesen von Datensätzen. Sie können Lambda-Funktionen mithilfe von Code im Github-Repository bereitstellen oder vorab bereitgestellte Lambda-Funktionen aus dem AWS Serverless Application Repository verwenden. Sobald die Lambda-Funktionen implementiert sind, erstellen sie einen eindeutigen Amazon-Ressourcennamen oder eine eindeutige ARN. Sie müssen diese ARNs mit Athena registrieren. Durch das Registrieren eines ARN kann Athena nachvollziehen, mit welcher Lambda-Funktion während der Ausführung der Abfrage kommuniziert werden soll. Sobald beide ARN registriert sind, können Sie die registrierte Datenquelle abfragen. Der Vorgang muss für jede Datenquelle wiederholt werden.
 
Wenn eine Abfrage für eine verbundene Datenquelle ausgeführt wird, fächert Athena die Lambda-Aufrufe auf, in denen Metadaten und Daten parallel gelesen werden. Die Anzahl der parallelen Aufrufe hängt von den Lambda-Gleichzeitigkeitsbeschränkungen in Ihrem Konto ab. Wenn Sie beispielsweise ein Limit von 300 gleichzeitigen Lambda-Aufrufen haben, kann Athena 300 parallele Lambda-Funktionen zum Lesen von Datensätzen aufrufen. Bei zwei parallel laufenden Abfragen ruft Athena die doppelte Anzahl gleichzeitiger Ausführungen auf. Sie können ein eigenes Limit definieren, mit dem die Kosten und der Durchsatz zur Datenquelle gesteuert werden können.
 
F: Welche Konnektoren stehen für eine Verbundabfrage von Athena zur Verfügung? [Vorversion]
Athena verfügt über Open-Source-Datenquellenkonnektoren für Apache HBase, Amazon DocumentDB, Amazon DynamoDB sowie Amazon CloudWatch Logs und CloudWatch-Metriken. Athena verfügt außerdem über einen generischen JDBC-Connector, der eine Verbindung zu einer beliebigen JDBC-kompatiblen Datenquelle herstellt, sowie einen CMDB-Connector (AWS Configuration Management Database), mit dem Kunden Abfragen zu AWS-Ressourcenmetadaten ausführen können.
 
F: Wie verwende ich das Abfrageverbund-SDK? [Vorversion]
Mit dem Abfrageverbund-SDK können Sie Ihren eigenen Connector erstellen, der beim Abfragen einer Datenquelle mit Athena verwendet wird. Vorlagenimplementierungen werden für jeden Konnektor bereitgestellt. Sie können die Vorlagen als Basis verwenden. Informationen zu den ersten Schritten finden Sie in unserer Dokumentation.
 
F: Kann ich verbundene Abfragekapazitäten für ETL verwenden? Was ist der Workflow? [Vorversion]
Alle Athena-Abfrageergebnisse werden an einem von Ihnen festgelegten Amazon S3-Speicherort gespeichert. Mithilfe der verbundenen Abfragekapazitäten von Athena können Sie eine Abfrage ausführen, die von Ihnen ausgewählte Datenquellen durchsucht und das Ergebnis in S3 in einer SQL-Abfrage speichert. Gängige SQL-Konstrukte wie JOINs, Filterklauseln usw. werden unterstützt. Darüber hinaus können Sie mithilfe der UDF-Funktionalität von Athena Ihre eigenen Funktionen definieren, um Ihren Ergebnisdatensatz vor oder nach der Verarbeitung zu bearbeiten.
 
F: Wird die SDK-Unterstützung für andere Programmiersprachen als JAVA veröffentlicht? [Vorversion]
Bitte teilen Sie uns mit, für welche Programmiersprachen Sie Unterstützung benötigen, indem Sie eine E-Mail an athena-feedback@amazon.com senden
 
F: Was sind die bekannten Einschränkungen des Abfrageverbund-SDK? [Vorversion]
Beim Start der Vorschau unterstützt das Abfrageverbund-SDK nur Lesevorgänge und JAVA-basierte Lambda-Funktionen.

Machine Learning [in Vorversion]

F: Welche Anwendungsfälle unterstützt Athena für eingebettete ML? [Vorversion]
Athena-Anwendungsfälle für ML erstrecken sich über verschiedene Branchen wie in den folgenden Beispielen. Analysten von Finanzrisikodaten können Was-wäre-wenn-Analysen und Monte-Carlo-Simulationen durchführen. Geschäftsanalysten führen möglicherweise lineare Regressions- oder Prognosemodelle durch, um zukünftige Werte vorherzusagen und so umfassendere und zukunftsorientierte Geschäfts-Dashboards zu erstellen, mit denen Umsatzprognosen durchgeführt werden können. Marketinganalysten könnten k-Means-Clustering-Modelle verwenden, um die verschiedenen Kundensegmente zu bestimmen. Sicherheitsanalysten könnten logistische Regressionsmodelle (bivariant und multivariant) verwenden, um Anomalien zu finden und Sicherheitsvorfälle aus verschiedenen Protokollen zu ermitteln.
 
F: Welche ML-Modelle können mit Athena verwendet werden? [Vorversion]
Athena kann jedes ML-Modell aufrufen, das auf Amazon SageMaker bereitgestellt wird. Sie haben die Flexibilität, Ihr eigenes Modell mithilfe Ihrer proprietären Daten zu trainieren oder ein Modell zu verwenden, das in SageMaker vortrainiert und bereitgestellt wurde. Beispielsweise wird die Clusteranalyse wahrscheinlich anhand Ihrer eigenen Daten trainiert, da Sie neue Datensätze in dieselben Kategorien einteilen möchten, die Sie für vorherige Datensätze verwendet haben. Andererseits könnten Sie zur Vorhersage von Sportereignissen in der realen Welt ein öffentlich verfügbares Modell verwenden, da die verwendeten Trainingsdaten bereits jedermann zugänglich sind. In der Regel werden domänenspezifische oder branchenspezifische Vorhersagen in SageMaker anhand Ihrer eigenen Daten geschult, während für undifferenzierte ML-Anforderungen möglicherweise externe Modelle verwendet werden.
 
F: Kann ich mein ML-Modell mit Athena trainieren? [Vorversion]
Sie können Ihre ML-Modelle mit Athena nicht auf SageMaker trainieren und bereitstellen. Sie können Ihr ML-Modell trainieren oder ein vorhandenes, vortrainiertes Modell verwenden, das mit Athena auf SageMaker bereitgestellt wird. Dokumentation mit detaillierten Schulungsschritten zu SageMaker finden Sie hier.
 
F: Kann ich eine Inferenz auf Modellen ausführen, die in anderen Services wie Comprehend, Forecasting oder Models in meinem eigenen EC2-Cluster bereitgestellt wurden? [Vorversion]
Athena unterstützt nur das Aufrufen von ML-Modellen, die in SageMaker implementiert sind. Wir freuen uns über Feedback zu den anderen Diensten, die Sie mit Athena nutzen möchten. Bitte senden Sie uns Ihr Feedback per E-Mail an: athena-feedback@amazon.com.
 
F: Welche Auswirkungen hat die Verwendung von Athena-Abfragen für SageMaker-Inferenzen auf die Leistung? [Vorversion]
Wir verbessern ständig die Betriebsleistung unserer Funktionen und Services. Um die Leistung Ihrer Athena ML-Abfragen zu optimieren, stapeln wir Zeilen, wenn Sie Ihr SageMaker ML-Modell zur Inferenz aufrufen. Derzeit unterstützen wir keine vom Benutzer angegebenen Überschreibungen der Batch-Größe.
 
F: Welche Funktionen unterstützt Athena ML? [Vorversion]
Athena bietet ML-Inferenz (Vorhersage)-Funktionen, die von einer SQL-Schnittstelle umschlossen sind. Sie können auch eine benutzerdefinierte Athena-Funktion (UDFs, auch in der Vorschau enthalten) aufrufen, um die Vor- oder Nachverarbeitungslogik für Ihre Ergebnismenge aufzurufen. Eingaben können jede Spalte, jeden Datensatz oder jede Tabelle enthalten, und mehrere Aufrufe können für eine höhere Skalierbarkeit zusammengefasst werden. Sie können die Inferenz in der Auswahlphase oder in der Filterphase ausführen. Weitere Informationen finden Sie in unserer Dokumentation.
 
F: Welche ML-Modelle kann ich verwenden? [Vorversion]
Amazon SageMaker unterstützt eine Vielzahl von ML-Algorithmen. Sie können auch Ihr proprietäres ML-Modell erstellen und auf Amazon SageMaker bereitstellen. Beispielsweise wird die Clusteranalyse wahrscheinlich anhand Ihrer eigenen Daten trainiert, da Sie neue Datensätze in dieselben Kategorien einteilen möchten, die Sie für vorherige Datensätze verwendet haben. Andererseits könnten Sie zur Vorhersage von Sportereignissen in der realen Welt ein öffentlich verfügbares Modell verwenden, da die verwendeten Trainingsdaten jedermann zugänglich sind.
 
Wir gehen davon aus, dass domänenspezifische oder branchenspezifische Vorhersagen in der Regel in SageMaker an Ihren eigenen Daten trainiert werden, während undifferenzierte ML-Anforderungen wie maschinelle Übersetzung externe Modelle verwenden.

Sicherheit und Verfügbarkeit

F: Wie steuere ich den Zugriff auf meine Daten?
Amazon Athena ermöglicht es Ihnen, den Zugriff auf Ihre Daten zu steuern, indem Sie IAM-Richtlinien (AWS Identity and Access Management), Zugriffssteuerungslisten und Amazon S3-Bucket-Richtlinien verwenden. In IAM-Richtlinien können Sie Ihren IAM-Benutzern differenzierte Kontrollen über Ihre S3-Buckets einrichten. Durch die Kontrolle des Zugriffs auf Daten in S3 können Sie die Abfrage der Daten durch Benutzer mithilfe von Athena einschränken.
 
Kann Athena verschlüsselte Daten in Amazon S3 abfragen?
Ja. Sie können Daten abfragen, die über eine serverseitige Verschlüsselung mit Amazon S3-Managed Encryption Keys, eine serverseitige Verschlüsselung mit durch AWS Key Management Service (KMS) verwalteten Schlüsseln und über eine clientseitige Verschlüsselung mit durch KMS verwalteten Schlüsseln verschlüsselt wurden. Darüber hinaus kann Amazon Athena in KMS integriert werden und bietet Ihnen eine Option für die Verschlüsselung Ihrer Ergebnismengen.
 
F: Ist Athena hoch verfügbar?
Ja. Amazon Athena ist hochverfügbar und führt Abfragen mithilfe der Rechenressourcen verschiedener Standorte aus. Sollte ein Standort nicht erreichbar sein, werden die Abfragen automatisch an den nächstgelegenen Standort weitergeleitet. Athena verwendet Amazon S3 als zu Grunde liegenden Datenspeicher und macht ihre Daten hoch verfügbar und dauerhaft. Amazon S3 bietet eine beständige Infrastruktur zum Speichern wichtiger Daten und ist für eine Beständigkeit von 99,999999999 % der Objekte konzipiert. Ihre Daten werden redundant an mehreren Standorten und auf mehreren Geräten an jedem Standort gespeichert.
 
F: Kann ich kontenübergreifenden Zugriff auf den S3-Bucket einer anderen Person anbieten?
Ja, Sie können kontenübergreifenden Zugriff auf Amazon S3 anbieten.

Preise und Abrechnung

F: Wie sind die Preise für Amazon Athena gestaltet?
Die Preise für Amazon Athena werden pro Abfrage berechnet und beruhen auf der Menge der Daten, die von der Abfrage abgerufen wird. In Amazon S3 können Sie Daten in einer Vielzahl von Formaten speichern. Wenn Sie Ihre Daten komprimieren, partitionieren oder in ein Spaltenformat umwandeln, entstehen weniger Kosten, da Sie weniger Daten abrufen. Die Umwandlung von Daten in ein Spaltenformat ermöglicht es Athena, nur die Spalten zu lesen, die zum Verarbeiten der Abfrage erforderlich sind. Weitere Informationen finden Sie auf der Seite mit den Preisangaben für Athena.
 
F: Warum entstehen mir weniger Kosten, wenn ich ein Spaltenformat verwende?
Amazon Athena stellt Ihnen die Menge der Daten in Rechnung, die pro Abfrage abgerufen werden. Wenn Sie Ihre Daten komprimieren, liest Amazon Athena weniger Daten ein. Wenn Sie Ihre Daten in ein Spaltenformat umwandeln, kann Athena sich auf die Spalten beschränken, die zum Verarbeiten der Daten erforderlich sind. Wenn Sie Ihre Daten in Partitionen aufteilen, kann Athena ebenfalls die Menge der abgerufenen Daten einschränken. Dies führt zu Kosteneinsparungen und besserer Leistung. Details finden Sie in den Preisbeispielen.
 
F: Wie kann ich meine Kosten senken?
Sie können 30 % bis 90 % Ihrer Abfragekosten einsparen und eine bessere Leistung erhalten, indem Sie Ihre Daten komprimieren, partitionieren oder in ein Spaltenformat umwandeln. Jede dieser Maßnahmen reduziert die Menge der Daten, die Amazon Athena abrufen muss, um eine Abfrage auszuführen. Amazon Athena unterstützt Apache Parquet und ORC, zwei der beliebtesten Open Source-Spaltenformate. Auf der Athena-Konsole können Sie die Menge der Daten sehen, die für die einzelnen Abfragen abgerufen wurden.
 
F: Stellt Amazon Athena mir Kosten für fehlgeschlagene Abfragen in Rechnung?
Nein, fehlgeschlagene Abfragen werden Ihnen nicht in Rechnung gestellt.
 
F: Stellt Amazon Athena mir abgebrochene Abfragen in Rechnung?
Ja, wenn Sie eine Abfrage manuell abbrechen, wird Ihnen die Menge der Daten in Rechnung gestellt, die bis zum Abbruch der Abfrage abgerufen wurden.
 
F: Entstehen zusätzliche Kosten in Verbindung mit Amazon Athena?
Amazon Athena fragt Daten direkt aus Amazon S3 ab. Daher werden Ihre Quelldaten zu S3-Gebühren in Rechnung gestellt. Wenn Amazon Athena eine Abfrage ausführt, werden die Ergebnisse in einem S3-Bucket Ihrer Wahl gespeichert und für diese Ergebnissätze werden Ihnen die S3-Standardpreise in Rechnung gestellt. Wir empfehlen, dass Sie diese Buckets überwachen und Lebenszyklusrichtlinien verwenden, um zu steuern, wie viele Daten aufbewahrt werden.
 
F: Ist die Nutzung des AWS Glue-Datenkatalogs kostenpflichtig?
Ja, die Nutzung des AWS Glue-Datenkatalogs wird separat berechnet. Klicken Sie hier, um mehr über die Preise für den Glue-Datenkatalog zu erfahren.
Bild von Webseite
Zur Seite mit den Preisen

Preisoptionen ansehen.

Weitere Informationen 
Account-signup image
Für ein kostenloses Konto registrieren

Sie erhalten sofort Zugriff auf das kostenlose AWS-Kontingent. 

Registrieren 
Toolbox image
Beginnen Sie mit der Erstellen auf der Konsole

Beginnen Sie mit dem Erstellen von Amazon Athena auf der AWS-Managementkonsole.

Anmeldung