流处理 — 适用于 Apache Flink 的亚马逊托管服务的功能

适用于 Apache Flink 的亚马逊托管服务让您可以更轻松地使用 Apache Flink 构建和运行实时流处理应用程序。适用于 Apache Flink 的亚马逊托管服务可预置和配置您的 Flink 集群，并编排 Flink 作业管理。它可以设置监控和警报，提供自动扩缩功能，并且专为高可用性（包括可用区失效转移）而设计。该服务提供对 Apache Flink 富有表现力的 API 的访问权限，通过适用于 Apache Flink Studio 的亚马逊托管服务，您只需几个步骤即可以交互方式查询数据流或启动有状态的应用程序。使用此托管服务，您可以开始使用 Apache Flink，并快速部署和操作您的数据流处理应用程序。

借助适用于 Apache Flink 的亚马逊托管服务，您可以使用 Apache Flink 一系列业界领先的功能，包括低延迟和高吞吐量数据处理、恰好一次处理和持久的应用程序状态。借助适用于 Apache Flink 的亚马逊托管服务，您可以部署安全、合规且高度可用的应用程序。适用于 Apache Flink 的亚马逊托管服务可以轻松跨多个可用区复制数据和工作负载，从而确保不间断的性能和可靠性，且无需为额外容量付费。

适用于 Apache Flink 的亚马逊托管服务可以简化应用程序开发，因为该服务支持 Flink 在 Java、Scala、Python 和 SQL 中灵活的 API。适用于 Apache Flink 的亚马逊托管服务与数百个数据来源和目标集成，例如 Amazon Managed Streaming for Apache Kafka（Amazon MSK）、Amazon Kinesis Data Streams、Amazon Kinesis Data Firehose、Amazon Simple Storage Service（Amazon S3）、Amazon DynamoDB、JDBC 连接器和自定义连接器。

使用 Apache Flink 的流处理应用程序

开源

适用于 Apache Flink 的亚马逊托管服务包括开源库，如 Apache Flink、Apache Beam、Apache Zeppelin、Amazon 开发工具包和 AWS 服务集成。Apache Flink 是用于构建高可用性和高准确性的串流应用程序的框架和引擎。Apache Beam 是一个统一模型，用于定义在多个运行时系统引擎上运行的串流和批处理数据处理应用程序。AWS 开发工具包以您的首选语言提供 API，无需对许多 AWS 服务进行复杂的代码编写，同时还包含 AWS 库、示例代码和文档。

灵活的 API

适用于 Apache Flink 的亚马逊托管服务 Flink 支持 Java、Scala、Python 和 SQL 语言的灵活 API，这些 API 专门用于不同的应用场景，包括有状态事件处理、流式传输 ETL（提取、转换和加载）和实时分析。借助预先构建的运算符和分析功能，无需几个月，只需几小时即可构建 Apache Flink 串流应用程序，而且这些库是可扩展的，因此您可以对各种应用场景执行实时处理。

AWS 服务集成

您只需极少的代码即可设置和集成数据来源或目标。使用适用于 Apache Flink 的亚马逊托管服务库与以下 AWS 服务集成：

高级集成功能

除 AWS 集成外，适用于 Apache Flink 的亚马逊托管服务库还包含超过 40 种 Apache Flink 连接器，并且可以构建自定义集成。只需几行代码，即可通过高级功能修改各项集成的行为方式。您可以使用一系列 Apache Flink 原语类型来构建自定义集成，这使您可以读取和写入通过互联网访问的文件、目录、套接字或其他资源。

一次处理

使用适用于 Apache Flink 的亚马逊托管服务，可以构建处理后的记录对结果只有一次影响的应用程序，这种方法也称为恰好一次处理。即使发生应用程序中断的情况（例如内部服务维护或用户发起的应用程序更新），该服务也将确保所有数据都得到处理，不会存在重复的数据。

有状态处理

此服务会在运行中的应用程序存储中存储以前和进行中的计算，也就是状态。比较任何时间周期的实时结果和历史结果，在发生应用程序中断时实现快速恢复。状态始终进行加密，并以增量的方式保存在运行中的应用程序存储中。

持久应用程序备份

通过简单的 API 调用创建和删除持久性的应用程序备份。在发生中断后立即从最新的备份还原应用程序，或者将应用程序还原至较早的版本。

ML 集成

适用于 Apache Flink 的亚马逊托管服务支持机器学习（ML）算法。您可以为分类、聚类、评估、特征工程建议、回归和统计创建实时应用程序。

AWS Glue Schema Registry 兼容性

适用于 Apache Flink 的亚马逊托管服务与 AWS Glue Schema Registry 兼容。Schema Registry 可帮助您在作为源连接器或接收器连接器连接到 Apache Kafka、Amazon MSK 或 Amazon Kinesis Data Streams 的适用于 Apache Flink 的亚马逊托管服务工作负载上改善数据质量，并使用管理架构发展的兼容性检查来防止出现意外更改。

Amazon Kinesis Data Analytics Studio

流检查与可视化

Kinesis Data Analytics Studio 支持使用内置可视化功能实现亚秒级查询。您可以执行临时查询以在数秒内迅速检查您的数据流并查看结果。

简易的搭建并运行环境

Studio 笔记本能够为开发、调试代码和运行流处理应用程序提供单一界面的开发体验。

使用 SQL、Python 或 Scala 进行处理

Kinesis Data Analytics Studio 可在同一开发环境中支持 SQL、Python 和 Scala。Syntax 突出显示、验证和上下文相关建议将在笔记本中指引您使用内置的支持特定 Apache Flink 功能与数据交互。

快速的无服务器流处理应用程序开发

无需预置管理或扩展服务器。只需编写代码并为您的应用程序使用的资源付费。您可以简便地在笔记本中部署代码，以自动伸缩和持久性状态持续运行流处理应用程序。

开源

Kinesis Data Analytics Studio 依靠生产使用中的 Apache Flink 应用程序运行，与此同时，Apache Zeppelin 笔记本还将采用您所选择的语言为编写流应用程序提供熟悉、便捷的使用体验。

与 AWS Glue 数据目录集成

Amazon Glue 数据目录是一种永久元数据存储，内含表格定义，能够用作中心存储库。您可以使用 AWS Glue 数据目录跨多个 AWS 数据集快速发现和搜索数据。Kinesis Data Analytics Studio 与 AWS Glue Data Catalog 兼容，您可以为您的元数据和目标位置表格定义架构。

Amazon Kinesis Data Analytics 入门

计算成本

访问 Amazon Kinesis Data Analytics 定价页面。

查看入门指南

通过分步指南了解如何使用 Amazon Kinesis Data Analytics for SQL 和 Amazon Kinesis Data Analytics for Apache Flink。

开始构建流式处理应用程序

从 Amazon Kinesis Data Analytics 控制台构建流应用程序。

适用于 Apache Flink 的亚马逊托管服务的功能