Amazon Kinesis Data Analytics 是实时分析流数据的最简单方法。借助模板和内置运算符,您可以轻松快速地构建查询以及先进的实时应用程序。Amazon Kinesis Data Analytics 设置运行应用程序所需的资源并自动扩展以处理任何数量的传入数据。
无服务器
您不需要设置和管理复杂的基础设施以实现高可用性和有状态处理。Amazon Kinesis Data Analytics 属于无服务器产品,将负责持续运行应用程序所需的一切工作。这包括自动预置基础设施以持续处理流数据。
自动化弹性扩展,按使用量付费
Amazon Kinesis Data Analytics 会弹性扩展应用程序,以满足传入数据流中任何数据量的需求。您仅需为运行您的流式处理应用程序所使用的资源付费,无需担心预置基础设施,也无需为空闲容量付费。
亚秒级处理延迟
Amazon Kinesis Data Analytics 提供亚秒级处理延迟,让您可以方便地生成实时提醒、控制面板和实用的见解。
适用于使用 Apache Flink 的复杂应用程序
开源
Amazon Kinesis Data Analytics 包括开源库,如 Apache Flink、Apache Beam、AWS 开发工具包和 AWS 服务集成。 Apache Flink 是一种开源框架和引擎,用于构建高度可用且准确的流式处理应用程序,并支持 Java、Python 和 Scala。Apache Beam 是开源统一模型,用于定义可以跨多个执行引擎执行的流和批数据处理应用程序。AWS 开发工具包以您的首选语言提供了 API,无需对许多 AWS 服务进行复杂的代码编写,同时还包含 AWS 库、示例代码和文档。
灵活的 API
提供了灵活的 API,专门用于不同的使用案例,包括有状态事件处理、流式 ETL 和实时分析。预构建的运算符和分析功能可让您在几小时内完成 Apache Flink 流式处理应用程序的构建,无需花费数月时间。Amazon Kinesis Data Analytics 库可以扩展,可在各种使用案例中实现实时处理。
与 AWS 服务集成
您只需极少的代码即可设置和集成数据源或目标。您可以使用 Amazon Kinesis Data Analytics 库与 Amazon S3、Amazon Managed Streaming for Apache Kafka (Amazon MSK)、Amazon Elasticsearch Service、Amazon DynamoDB、Amazon Kinesis Data Streams、Amazon Kinesis Data Firehose、Amazon CloudWatch 和 AWS Glue Schema Registry 集成。
高级集成功能
除 AWS 集成外,Amazon Kinesis Data Analytics 库还包含了十多种来自 Apache Flink 的连接器,并且可以构建自定义集成。只需几行代码,您即可通过高级功能修改各项集成的行为方式。此外,您还可以使用一系列 Apache Flink 原语来构建自定义集成,这将允许您读取和写入可通过互联网访问的文件、目录或其他资源。
与 AWS Glue Schema Registry 兼容
适用于 Apache Flink 的 Amazon Kinesis Data Analytics 与 AWS Glue Schema Registry 兼容,后者是 AWS Glue 的一项无服务器功能,让您可以使用注册的 Apache Avro 模式来验证和控制流数据的演变,无需支付额外费用。Schema Registry 可帮助您在作为源或接收器连接到 Apache Kafka、Amazon Managed Streaming for Apache Kafka (MSK) 或 Amazon Kinesis Data Streams 的适用于 Apache Flink 的 Amazon Kinesis Data Analytics 工作负载上管理您的 Schema。当数据流处理应用程序与 Schema Registry 集成时,您可以改善数据质量并使用管辖 Schema 发展的兼容性检查来防止出现意外更改。
恰好一次处理
您可以使用 Amazon Kinesis Data Analytics 中的 Apache Flink 构建处理后的记录对结果只有一次影响的应用程序,这种方法也称为恰好一次处理。这意味着即使发生应用程序中断的情况(例如内部服务维护或用户发起的应用程序更新),服务也将确保所有数据都得到处理,不会存在重复的数据。
有状态处理
此服务会在运行中的应用程序存储中存储以前和进行中的计算,也就是状态。这让您可以比较任何时间周期的实时结果和历史结果,在发生应用程序中断时快速恢复。状态始终进行加密,并以增量的方式保存在运行中的应用程序存储中。
持久应用程序备份
您可以通过简单的 API 调用创建和删除持久性的应用程序备份。您可以在发生中断后立即从最新的备份还原应用程序,或者将应用程序还原至较早的版本。
适用于交互式 SQL 应用程序
支持标准 SQL
Amazon Kinesis Data Analytics 支持标准 ANSI SQL,因此您只需熟悉 SQL 即可。
集成输入和输出
Amazon Kinesis Data Analytics 已与 Amazon Kinesis Data Streams 和 Amazon Kinesis Data Firehose 集成,让您可以随时提取流数据。在输入流中只需指定 Amazon Kinesis Data Analytics,它会自动读取和解析数据并使其处于可处理状态。您可以通过 Amazon Kinesis Data Firehose 将处理结果发送至包括 Amazon S3、Amazon Redshift 和 Amazon Elasticsearch Service 在内的其他 AWS 服务。您还可以将输出数据发送到 Amazon Kinesis Data Streams 以构建高级流处理管道。
交互式 SQL 编辑器
这为您提供了一种交互式编辑器,用于使用流数据操作(如滑动时间范围平均值)构建 SQL 查询。您还可以使用实时数据查看流处理结果和错误,以交互方式调试或进一步优化脚本。
易于使用的 schema 编辑器
Amazon Kinesis Data Analytics 提供易于使用的 schema 编辑器以发现和编辑输入数据的结构。向导会自动识别 JSON 和 CSV 等标准的数据格式。它会推导输入数据的结构以创建基准架构,从而让您可以使用架构编辑器进一步细化。
预构建的 SQL 模板
交互式 SQL 编辑器捆绑了一系列 SQL 模板,这些模板为最常见的操作类型(如聚合、每个事件转换和筛选)提供基准 SQL 代码。您仅需选择适合您分析任务的模板,然后使用 SQL 编辑器编辑提供的代码,以针对具体使用案例对其进行定制。
高级流处理功能
Amazon Kinesis Data Analytics 提供了已针对流处理进行优化的功能,使您可以轻松执行高级分析,如流数据异常检测和 Top-K 分析。
Amazon Kinesis Data Analytics 入门

通过分步指南了解如何使用 Amazon Kinesis Data Analytics for SQL 和 Amazon Kinesis Data Analytics for Apache Flink。