跳至主要内容

Amazon Athena 文档

Amazon Athena 是一种交互式查询服务,旨在使用标准 SQL 直接分析 Amazon S3 中的数据。客户可将 Athena 指向自己在 S3 中存储的数据,然后开始使用标准 SQL 执行临时查询并获取结果。Athena 属于无服务器服务,因此您无需设置或管理基础设施。您可以使用 Athena 处理日志、执行即席分析以及运行交互式查询。Athena 旨在自动扩展并执行并行查询,因此可快速获取结果,对于大型数据集和复杂查询也不例外。

无服务器

Amazon Athena 属于无服务器服务,因此您无需管理基础设施。您无需担心配置、软件更新和故障问题,也无需担心随着数据集和用户量的增长而扩展基础设施的问题。Athena 旨在自动处理这些问题,因此您可以专注于数据而非基础设施。

轻松入门

要开始使用,请登录 Athena 控制台,使用控制台向导或输入 DDL 语句以定义您的架构,然后使用内置查询编辑器进行查询。您还可以使用 AWS Glue 抓取数据来源以便发现数据,并使用新的和修改过的表与分区定义以填充数据目录。结果会立即显示在控制台中,并会自动写入您在 S3 中选择的位置。您可以将结果下载到您的桌面。使用 Athena,无需执行复杂的 ETL 作业来为数据分析做准备。 

只需使用标准 SQL 即可轻松查询

Amazon Athena 使用的是 Presto,一种针对低延迟、即席分析进行了优化的分布式开源 SQL 查询引擎。这意味着您可以使用 ANSI SQL 针对 Amazon S3 中的大型数据集执行查询,并且完全支持大型连接、窗口函数和数组。Athena 支持多种数据格式,例如 CSV、JSON、ORC、Avro 或 Parquet。您还可以使用 Athena 的 JDBC 驱动程序从多种 BI 工具连接到 Athena。

性能

使用 Amazon Athena,您无需管理或调整集群即可实现性能。Athena 专为优化 Amazon S3 的性能而设计。Athena 旨在自动执行并行查询,因此您可以快速获取查询结果,即使查询大型数据集也不例外。  

高度可用且具有持久性

Amazon Athena 旨在实现高可用性,利用跨多个设施的计算资源执行查询,如果特定设施无法访问,可适当地自动路由查询。Athena 使用 Amazon S3 作为其基础数据存储,使您的数据具有高可用性和持久性。您的数据将跨多个设施和在各个设施的多个设备间冗余存储。

安全

Amazon Athena 的设计允许您通过使用 AWS Identity and Access Management(IAM)策略、访问控制列表(ACL)和 Amazon S3 存储桶策略,控制对数据的访问。通过 IAM 策略,您可以授予 IAM 用户对 S3 存储桶的细化控制权。通过控制对 S3 中数据的访问,您可以限制用户使用 Athena 对其进行查询。借助 Athena,您还能够查询存储在 Amazon S3 中的加密数据,还可以将加密后的结果写回 S3 存储桶。Athena 同时支持服务器端加密和客户端加密。

集成

Amazon Athena 的设计可与 AWS Glue 集成。借助 Glue 数据目录,您可以跨各种服务创建统一的元数据存储库、抓取数据来源以便发现数据、使用新的和修改过的表和分区定义来填充数据目录,还可以保持架构版本控制。您还可以使用 Glue 托管的 ETL 功能,转换数据或将其转化为分列格式,以便优化查询性能。

联合查询

通过 Athena,您可以对存储在关系数据源、非关系数据源、对象数据源和自定义数据源中的数据运行 SQL 查询。您可以使用熟悉的 SQL 构造跨多个数据源联接数据以进行快速分析,并将结果存储在 Amazon S3 中以备随后使用。Athena 使用在 AWS Lambda 上运行的 Athena 数据源连接器执行联合查询。AWS 具有适用于 Amazon DynamoDB、Apache HBase、Amazon DocumentDB、Amazon Redshift、AWS CloudWatch、AWS CloudWatch 指标以及与 JDBC 兼容的关系数据库(例如 MySQL 和 PostgreSQL)的开源数据源连接器。您可以使用这些连接器在 Athena 中运行联合 SQL 查询。此外,使用 Athena Query Federation SDK,您可以构建其他数据来源的连接器。

机器学习

您可以在 Athena SQL 查询中调用 SageMaker 机器学习模型来运行推理。您能够在 SQL 查询中使用机器学习模型,这可能使得复杂的任务(例如异常检测、客户群分析和销售预测)变得像编写 SQL 查询一样简单。Athena 可帮助任何具有 SQL 经验的人员运行部署在 Amazon SageMaker 上的机器学习模型。

Amazon Athena for Apache Spark

借助 Amazon Athena for Apache Spark,您可以在不到一秒钟的时间内,在 Apache Spark 上运行交互式分析。借助我们优化的 Spark 运行时,可以加快启动和运行交互式 Spark 应用程序。凭借简单的笔记本经验,即可在 Athena 控制台或通过 Athena API 使用 Python 的表现力构建 Spark 应用程序。

其他信息

有关服务控制、安全特征和功能的更多信息,包括有关存储、检索、修改、限制和删除数据的信息(如适用),请参阅 https://docs.aws.amazon.com/index.html。就 http://aws.amazon.com/agreement 上的 AWS 客户协议或您与 AWS 之间签订的管理您使用 AWS 服务的其他协议而言,这些附加信息不构成文档的一部分。