亚马逊AWS官方博客
Category: Analytics
使用Fluent Bit与Amazon OpenSearch Service构建日志系统
本文将展示如何通过开源工具Fluent Bit结合Amazon Kinesis Streams、Amazon Lambda、Amazon OpenSearch Service搭建日志系统,以满足日常运维的需求。
使用 Amazon Glue DataBrew 对数据进行预处理
使用 Amazon Glue DataBrew 对数据进行预处理
基于 VPC Flow Logs 的 NAT Gateway 网络流量分析与可视化方案
本解决方案提供了一种对流经NAT Gateway的流量进行分析与可视化的方案。通过亚马逊云科技提供的网络流量分析工具VPC Flow Logs,以及Serverless的数据分析工具Amazon Athena、Amazon Glue与Amazon QuickSight,建立了一套方便网络运维人员日常观测网络流量,或查询与诊断经NAT的网络问题的解决方案。
Amazon Kinesis Data Streams 按需模式 – 无需管理容量即可大规模流式传输数据
我们已推出 Amazon Kinesis Data Streams 按需模式,这是一种新的容量模式。这种容量模 […]
快速搭建 AWS Glue ETL 开发环境
本文将展示如何自建Glue ETL的开发环境,以满足快速开发和调试的需求。
将 Amazon DynamoDB 数据流式传输到集中式数据湖
本文演示了使用 Amazon Kinesis Data Streams、Amazon Lambda 和 Amazon Kinesis Data Firehose 通过同一 AWS region中的 VPC 终端节点将 DynamoDB 表流式传输到 Amazon Simple Storage Service (Amazon S3) 存储桶的两个常见案例。
Amazon EC2 Spot 实例在AWS EMR 集群中的成本优化应用实践
业务数据的处理和分析通常需要比较大规模的EMR集群和更多的节点数来处理,本文介绍如何通过合理配置和使用Spot 实例类型来大幅降低EMR集群成本,特别对于跑特定任务的瞬时集群来说,Spot 实例的使用是特定的应用场景,如何选型和配置更是成本优化的关键之处。
通过使用 Amazon Graviton2 提升 EMR 的性价比
通过使用Graviton2实例,能更好的提升EMR集群的性能,降低总体拥有成本,提升EMR平台的性价比。
在Amazon Athena 上使用 Partition Projection 与 Glue Partition Indexes 效能比较
Amazon Athena 分区投影相关的功能,透过分区投影中的值做匹配计算,得出位置,减少分区元数据检索方面受到限制的查询的运行时间。随着时间的推移,Glue 也推出了分区索引相关的功能,可以方便客户与其他服务,如EMR、Glue ETL、Redshift Specturm… 等等,做元数据的储存与查询。许多人会有一个疑问是,Athena分区投影 与 Glue分区索引效能再一定的分区数量时的比较,也是这篇部落格会探讨的议题。
远程调度 EMR 集群的常见方式总结
亚马逊云科技上的 EMR 大数据平台提供了计算存储分离的弹性架构(计算在虚拟机上,存储在s3上),基于此,常见的如流式处理,即时查询等作业可以单独运行在一个长期开启的EMR集群之中;而对于定时,跑批等业务可以运行在动态启停的EMR集群之中。对于后者来讲,由于其动态启停的特性,我们往往需要外置任务调度器于EMR集群之外。在上述的背景之下,我们会在接下来的文章之中对于当调度器外置之后,常见的远程调度EMR集群的方式,相应的优缺点,相关的例子等方面进行探讨