Amazon Athena 功能

为什么选择 Athena?

Amazon Athena 是一种交互式查询服务,可让您方便地使用标准 SQL 直接分析 Amazon S3 中的数据。Athena 是无服务器的,因此无需设置或管理基础设施,并且可以选择根据运行的查询或查询所需的计算进行付费。使用 Athena 处理日志、执行数据分析以及运行交互式查询。Athena 可自动扩展 (执行并行查询),因此可快速获取结果,即使大型数据集和复杂查询也不例外。  

Page Topics

主要优势

主要优势

Amazon Athena 没有服务器,因此没有需要管理的基础设施。您无需担心配置、软件更新和故障问题,也无需担心随着数据集和用户量的增长而扩展基础设施的问题。Athena 会自动处理这些问题,因此您可以专注于数据而非基础设施。

要开始使用,请登录 Athena 控制台,使用控制台向导或输入 DDL 语句来定义您的架构,然后立即使用内置查询编辑器进行查询。您还可以使用 AWS Glue 自动抓取数据来源以便发现数据,并使用新的和修改过的表与分区定义来填充数据目录。结果会在数秒内显示在控制台中,并会自动写入您在 S3 中选择的位置。您可以将结果下载到您的桌面。使用 Athena,无需执行复杂的 ETL 作业来为数据分析做准备。这样一来,具备 SQL 技能的任何人都可以简单快速地分析大规模数据集。

Amazon Athena 基于 Trino 和 Presto,是一款针对低延迟交互式数据分析进行优化的分布式开源 SQL 引擎。这意味着您可以使用 ANSI SQL 针对 Amazon S3 中的大型数据集执行查询,并且完全支持大型连接、窗口函数和数组。Athena 支持多种数据格式,如 CSV、JSON、ORC、Avro 或 Parquet。使用 Athena 的联合数据源连接器,您可以查询其他数据存储,并将该数据与 Amazon S3 中存储的数据联接。您可以通过 Athena 的 JDBC 和 ODBC 驱动程序从 Athena 控制台、API、CLI、AWS 开发工具包和支持的业务智能和 SQL 开发应用程序访问 Athena 并运行查询。

Amazon Athena 提供两种灵活的定价模式。默认情况下,根据每次查询扫描的数据(TB)进行查询计费。这样,您无需提前规划计算即可提交查询。如果您希望根据查询使用的计算量付费,或者想要控制并发性并确定工作负载的优先级,请使用以预置容量提供的基于容量的定价。为了增加灵活性,您可以在同一个账户中同时使用按查询计费和基于容量的定价。

使用 Amazon Athena,您无需管理或调整集群即可实现快速性能。Athena 针对快速性能通过 Amazon S3 进行了优化。Athena 会自动执行并行查询,因此,您可以在数秒内获取查询结果,即使大型数据集不例外。 

Amazon Athena 具有高可用性,能够利用多个设施上的计算资源执行查询,如果特定设施无法访问,它会正确地自动路由查询。Athena 使用 Amazon S3 作为基础数据存储,可确保您的数据具有高可用性和高持久性。Amazon S3 提供耐久的基础设施存储重要数据,其设计旨在为对象提供 99.999999999% 的耐久性。您的数据将跨多个设施和在各个设施的多个设备间冗余存储。

Amazon Athena 让您能够通过 AWS Identity and Access Management (IAM) 策略、访问控制列表 (ACL) 和 Amazon S3 存储桶策略控制对数据的访问权限。通过 IAM 策略,您可以授予 IAM 用户对 S3 存储桶的精细控制权。通过控制对 S3 中数据的访问,您可以限制用户使用 Athena 对其进行查询。借助 Athena,您还能够查询存储在 Amazon S3 中的加密数据,还可以将加密后的结果写回 S3 存储桶。Athena 同时支持服务器端加密和客户端加密。

Amazon Athena 与 AWS Glue 集成,开箱即用。借助 Glue 数据目录,您可以跨各种服务创建统一的元数据存储库、抓取数据源以便发现数据、使用新的和修改过的表和分区定义来填充数据目录,还可以保持架构版本控制。您还可以使用 Glue 完全托管的 ETL 功能来转换数据或将其转化为分列格式,以便优化查询性能并降低成本。了解有关 AWS Glue 的更多信息。

Athena 为 AWS、本地存储和其他云端 30 个热门数据存储提供内置连接器,这些数据存储包括 Amazon Redshift、Amazon DynamoDB、Google BigQuery、Google Cloud Storage、Azure Synapse、Azure Data Lake Storage、Redis、Snowflake 和 SAP Hana。通过使用 Athena 数据来源连接器,您可以使用 Athena SQL 语法从多个数据来源生成见解,而无需移动或转换数据。数据连接器作为 AWS Lambda 函数运行,可以为跨账户存取启用,从而将 SQL 查询扩展到数百个最终用户。有关受支持来源的列表,请参阅可用的数据来源连接器。要了解如何构建自定义数据来源连接器,请参阅 Athena 连接器 SDK。

您可以在 Athena SQL 查询中调用 SageMaker 机器学习模型来运行推理。您能够在 SQL 查询中使用 ML 模型,这使得复杂的任务(例如异常检测、客户群分析和销售预测)变得像编写 SQL 查询一样简单。通过 Athena,任何具有 SQL 经验的人都可以简单地运行部署在 Amazon SageMaker 上的 ML 模型。