- Amazon Kinesis›
- 数据流›
- 开始使用
Amazon Kinesis Data Streams 入门
开始使用
Amazon Kinesis Data Streams 是一种可大规模扩展、高度持久的数据摄取和处理服务,针对流式传输数据进行了优化。您可以配置数以万计的数据创建器,连续不断地将数据传输到 Kinesis 数据流。数据将在几毫秒内提供给您的 Amazon Kinesis 应用程序,这些应用程序将按其生成顺序接收数据记录。
Amazon Kinesis Data Streams 与多项 AWS 服务集成,其中包括以近乎实时的方式转换流数据并将其传输到 Amazon S3 等数据湖的 Amazon Kinesis Data Firehose、用于托管流处理的适用于 Apache Flink 的亚马逊托管服务、用于事件或记录处理的 AWS Lambda、用于私有连接的 AWS PrivateLink、用于指标和日志处理的 Amazon Cloudwatch 以及用于服务器端加密的 AWS KMS。
Amazon Kinesis Data Streams 被用作大数据解决方案的网关。不同来源中的数据被传输到 Amazon Kinesis 流中,然后流中的数据再被不同的 Amazon Kinesis 应用程序使用。在此示例中,一个应用程序(显示为黄色)正在对流数据运行实时控制面板。另一个应用程序(显示为红色)执行简单的聚合并将处理后的数据发给 Amazon S3。Amazon S3 中的数据将获得进一步处理并储存在 Amazon Redshift 中,以便进行复杂分析。第三个应用程序(显示为绿色)将原始数据传送到 Amazon S3,之后这些数据还会存档到 Amazon Glacier,以实现低成本的长期存储。请注意,全部三条数据处理管道是同时并行工作的。
Amazon Kinesis Data Streams 入门
视频
使用 Kinesis Data Streams
注册 Amazon Web Services 后,可按以下步骤使用 Amazon Kinesis Data Streams:
- 通过亚马逊 Kinesis 管理控制台或亚马逊 Kinesis CreateStream API 创建 Amazon Kinesis 数据流。
- 配置您的数据创建器,将数据持续传输到 Amazon Kinesis 数据流。
- 构建您的亚马逊 Kinesis 应用程序以读取和处理来自亚马逊 Kinesis 数据流的数据。
重要概念
全部打开分区是 Amazon Kinesis 数据流的基本吞吐量单位。
- 分区是一种仅附加日志和流功能的单位。分区包含按到达时间排序的有序记录序列。
- 一个分区每秒可以提取多达 1000 个数据记录,或每秒可以提取 1MB 数据。添加更多分区可以提高提取能力。
- 使用 AWS 控制台、 UpdateShardCount API、通过 AWS Lambd a 触发自动扩展或使用自动扩展实用程序,在数据吞吐量发生变化时动态添加或删除数据流中的分片。
- 当使用器使用增强型扇出时,一个分区可以为每个注册使用增强型扇出的数据使用器提供每秒 1MB 的数据输入和每秒 2MB 的数据输出。
- 当使用器不使用增强型扇出时,分区提供每秒 1MB 的输入和每秒 2MB 的数据输出,并且这些使用器将与不使用增强型扇出的任何使用器共享此输出。
- 创建流时,您需要指定所需的分区数量,您可以随时更改该数量。例如,您可以创建具有两个分区的流。如果您有 5 个使用增强型扇出的数据使用器,此流可提供每秒高达 20MB 的总数据输出(2 个分区 x 2MB/秒 x 5 个数据使用器)。如果数据使用器没有使用增强型扇出,此流的吞吐量为每秒 2MB 的数据输入和每秒 4MB 的数据输出。在所有情况下,此流允许每秒最多 2000 个 PUT 记录或每秒 2MB 的数据摄入(以先达到的限制为准)。
- 您可以监控 Amazon Kinesis Data Streams 中的分区级指标。
将数据传输到流中
全部打开运行应用程序或自行构建应用程序
全部打开管理流
全部打开教程
全部打开本教程将带您一步步学习如何创建 Amazon Kinesis 数据流,向流中发送模拟股票交易数据,以及编写应用程序处理数据流中的数据。
精选演示文稿
全部打开想要增加您关于 AWS 大数据 Web 服务的知识,并在云上启动您的首款大数据应用程序吗? 我们将带您了解如何将大数据处理简化为数据总线形式 (包含摄取、存储、处理和虚拟化)。您可以使用 Amazon Athena、Amazon Kinesis、Amazon DynamoDB 和 Amazon S3 等 AWS 托管服务构建大数据应用程序。同时,我们将了解大数据应用程序的架构设计模式,并授予您访问课后练习用实验的权限,以便您可以自己重建和自定义应用程序。您应该带上自己的笔记本电脑,并熟悉 AWS 产品,以充分利用本次研讨会。
在最近几年,连接设备和实时数据源的数量呈爆炸式增长。因此,数据不断地生成,而且生成速度也在加快。企业无需再等数小时或数天才能使用该数据。要获取最有价值的见解,他们必须立即使用该数据,以便对新信息做出迅速响应。在本次研讨会中,您将了解如何利用流数据源以近乎实时的方式进行分析和做出响应。您会看到真实流数据场景的几个要求,并负责制定能够通过 Amazon Kinesis、AWS Lambda 和 Amazon SNS 等服务成功满足要求的解决方案。
对于所有使用批处理数据分析工具探索流分析优势的企业和客户来说,缩短通过数据获取可行性见解所需的时间至关重要。了解最佳实践,将您的架构从数据仓库和数据库扩展到实时解决方案。了解如何使用 Amazon Kinesis 获取实时数据见解并将其与 Amazon Aurora、Amazon RDS、Amazon Redshift 和 Amazon S3 集成。Amazon Flex 团队描述了他们如何在 Amazon Flex 移动应用程序中使用流分析,Amazon Delivery Driver 使用该应用程序每月按时交付数百万个软件包。他们讨论了能够克服将现有批处理数据迁移到流处理数据所面临的挑战并进而实现从批处理系统向实时系统迁移的架构,还讨论了如何从实时分析中获益。