亚马逊AWS官方博客

Category: Analytics

Amazon Kinesis Data Streams 推出增强扇出功能和 HTTP/2 数据检索 API功能

几周前,我们为 Amazon Kinesis Data Streams (KDS) 推出了两项重要的性能加强功能:增强扇出功能和 HTTP/2 数据检索 API。增强的扇出功能允许开发人员通过为每个数据流消费者提供其自己的读取吞吐量来扩增数据流消费者的数量(应用程序实时从数据流中读取数据)。与此同时,在常见情况下,HTTP/2 数据检索 API 允许在 70 毫秒或更短的时间内(提升了 65%)将数据从生产者传送给消费者。这些新功能可让开发人员依托 Kinesis Data Streams,构建速度更快、反应更灵敏、高度并行化且对延迟敏感的应用程序。

Read More

AWS 常见问题汇总

大家在使用 AWS 过程中总会遇到一些问题。在此以 Q&A 形式,总结一些常见的架构和故障排查问题,希望有所帮助。如果有中国(北京和宁夏区域)特有的问题,会特别注明。

Read More

使用 CloudWatch Logs,Kinesis Firehose,Athena 和 Quicksight 实时分析 Amazon Aurora 数据库审计日志

关系数据库管理系统支撑着最重要的联机交易类应用,存放着最重要的数据资产,所以在用户IT系统里占据着非常核心的位置。现实情况往往是审计功能虽然使用并不复杂的统的商业数据库管理系统,但是鲜见有用户打开审计功能。Amazon Aurora MySQL全新发布,高级审计功能强劲在哪,本期大咖专栏带你一探究竟。

Read More

使用 AWS Glue 和 Amazon Athena 实现无服务器的自主型机器学习

您是否遇到过需要根据某些属性划分数据集的情况?K-means 是用于划分数据的最常见的机器学习算法之一。该算法能够将数据分成不同的组 (称为集群)。每个样本都被分配到一个集群,这样,相比分配到其他集群中的样本,分配到同一集群中的样本彼此之间更相似。 在这篇博客文章中,我将介绍使用 AWS Glue 提取位于 Amazon S3 上有关出租车行驶情况的数据集,并使用 K-means 根据行车坐标将数据分成 100 个不同的集群。然后,我会使用 Amazon Athena 查询行驶次数和每个集群的大概区域。最后,我会使用 Amazon Athena 来计算行驶次数最多的四个区域的坐标。使用 AWS Glue 和 Amazon Athena 都可以执行这些任务,无需预置或管理服务器。 解决方案概述 我将使用在以前的博客文章中用过的纽约市出租车数据集:使用 AWS Glue、Amazon Athena 和 Amazon QuickSight 协调、查询和可视化各个提供商的数据。我将使用 2016 年 1 月份包含绿色出租车行驶数据的表。 我将向您展示 AWS Glue 作业脚本,该脚本使用 Spark 机器学习 K-means 集群库,基于坐标划分数据集。该脚本通过加载绿色出租车数据并添加指示每一行被分配到哪个集群的列来执行作业。该脚本采用 parquet 格式将表保存到 Amazon s3 存储桶 (目标文件)。可以使用 Amazon Athena […]

Read More

AWS Glue 全托管 ETL 服务使用指南

作者:蒋华, AWS合作伙伴解决方案架构师 目  录 第1章 Glue概述 1.1 Glue介绍 1.2 Glue主要特征 1.3 Glue定价与计费 第2章 Glue入门 2.1 数据准备 2.2 在线演示 2.2.1 增加IAM Role 2.2.2 配置Data Catalog 第1章  Glue概述 1.1  Glue介绍 AWS Glue 是一项完全托管的提取、转换和加载 (ETL) 服务,让客户能够轻松准备和加载数据进行分析。您只需在 AWS 管理控制台中单击几次,即可创建并运行 ETL 作业。您只需将 AWS Glue 指向存储在 AWS 上的数据,AWS Glue 便会发现您的数据,并将关联的元数据 (例如表定义和架构) 存储在 AWS Glue 数据目录中。存入目录后,您的数据可立即供 ETL 搜索、查询和使用。AWS Glue 可生成代码执行数据转换和数据加载流程。 AWS Glue […]

Read More