Amazon Athena 功能
为什么选择 Athena?
Amazon Athena 是一种交互式查询服务,可让您方便地使用标准 SQL 直接分析 Amazon S3 中的数据。Athena 是无服务器的,因此无需设置或管理基础设施,并且可以选择根据运行的查询或查询所需的计算进行付费。使用 Athena 处理日志、执行数据分析以及运行交互式查询。Athena 可自动扩展 (执行并行查询),因此可快速获取结果,即使大型数据集和复杂查询也不例外。
Amazon Athena 是一种交互式查询服务,可让您方便地使用标准 SQL 直接分析 Amazon S3 中的数据。Athena 是无服务器的,因此无需设置或管理基础设施,并且可以选择根据运行的查询或查询所需的计算进行付费。使用 Athena 处理日志、执行数据分析以及运行交互式查询。Athena 可自动扩展 (执行并行查询),因此可快速获取结果,即使大型数据集和复杂查询也不例外。
Amazon Athena 没有服务器,因此没有需要管理的基础设施。您无需担心配置、软件更新和故障问题,也无需担心随着数据集和用户量的增长而扩展基础设施的问题。Athena 会自动处理这些问题,因此您可以专注于数据而非基础设施。
要开始使用,请登录 Athena 控制台,使用控制台向导或输入 DDL 语句来定义您的架构,然后立即使用内置查询编辑器进行查询。您还可以使用 AWS Glue 自动抓取数据来源以便发现数据,并使用新的和修改过的表与分区定义来填充数据目录。结果会在数秒内显示在控制台中,并会自动写入您在 S3 中选择的位置。您可以将结果下载到您的桌面。使用 Athena,无需执行复杂的 ETL 作业来为数据分析做准备。这样一来,具备 SQL 技能的任何人都可以简单快速地分析大规模数据集。
Amazon Athena 基于 Trino 和 Presto,是一款针对低延迟交互式数据分析进行优化的分布式开源 SQL 引擎。这意味着您可以使用 ANSI SQL 针对 Amazon S3 中的大型数据集执行查询,并且完全支持大型连接、窗口函数和数组。Athena 支持多种数据格式,如 CSV、JSON、ORC、Avro 或 Parquet。使用 Athena 的联合数据源连接器,您可以查询其他数据存储,并将该数据与 Amazon S3 中存储的数据联接。您可以通过 Athena 的 JDBC 和 ODBC 驱动程序从 Athena 控制台、API、CLI、AWS 开发工具包和支持的业务智能和 SQL 开发应用程序访问 Athena 并运行查询。
Amazon Athena 提供两种灵活的定价模式。默认情况下,根据每次查询扫描的数据(TB)进行查询计费。这样,您无需提前规划计算即可提交查询。如果您希望根据查询使用的计算量付费,或者想要控制并发性并确定工作负载的优先级,请使用以预置容量提供的基于容量的定价。为了增加灵活性,您可以在同一个账户中同时使用按查询计费和基于容量的定价。
使用 Amazon Athena,您无需管理或调整集群即可实现快速性能。Athena 针对快速性能通过 Amazon S3 进行了优化。Athena 会自动执行并行查询,因此,您可以在数秒内获取查询结果,即使大型数据集不例外。
Amazon Athena 具有高可用性,能够利用多个设施上的计算资源执行查询,如果特定设施无法访问,它会正确地自动路由查询。Athena 使用 Amazon S3 作为基础数据存储,可确保您的数据具有高可用性和高持久性。Amazon S3 提供耐久的基础设施存储重要数据,其设计旨在为对象提供 99.999999999% 的耐久性。您的数据将跨多个设施和在各个设施的多个设备间冗余存储。
Amazon Athena 让您能够通过 AWS Identity and Access Management (IAM) 策略、访问控制列表 (ACL) 和 Amazon S3 存储桶策略控制对数据的访问权限。通过 IAM 策略,您可以授予 IAM 用户对 S3 存储桶的精细控制权。通过控制对 S3 中数据的访问,您可以限制用户使用 Athena 对其进行查询。借助 Athena,您还能够查询存储在 Amazon S3 中的加密数据,还可以将加密后的结果写回 S3 存储桶。Athena 同时支持服务器端加密和客户端加密。
Amazon Athena 与 AWS Glue 集成,开箱即用。借助 Glue 数据目录,您可以跨各种服务创建统一的元数据存储库、抓取数据源以便发现数据、使用新的和修改过的表和分区定义来填充数据目录,还可以保持架构版本控制。您还可以使用 Glue 完全托管的 ETL 功能来转换数据或将其转化为分列格式,以便优化查询性能并降低成本。了解有关 AWS Glue 的更多信息。
Athena 为 AWS、本地存储和其他云端 30 个热门数据存储提供内置连接器,这些数据存储包括 Amazon Redshift、Amazon DynamoDB、Google BigQuery、Google Cloud Storage、Azure Synapse、Azure Data Lake Storage、Redis、Snowflake 和 SAP Hana。通过使用 Athena 数据来源连接器,您可以使用 Athena SQL 语法从多个数据来源生成见解,而无需移动或转换数据。数据连接器作为 AWS Lambda 函数运行,可以为跨账户存取启用,从而将 SQL 查询扩展到数百个最终用户。有关受支持来源的列表,请参阅可用的数据来源连接器。要了解如何构建自定义数据来源连接器,请参阅 Athena 连接器 SDK。
您可以在 Athena SQL 查询中调用 SageMaker 机器学习模型来运行推理。您能够在 SQL 查询中使用 ML 模型,这使得复杂的任务(例如异常检测、客户群分析和销售预测)变得像编写 SQL 查询一样简单。通过 Athena,任何具有 SQL 经验的人都可以简单地运行部署在 Amazon SageMaker 上的 ML 模型。