亚马逊AWS官方博客
Category: Analytics
探索ClickHouse与Amazon S3结合使用的三种方法
本文首先简单介绍了ClickHouse及其特性和使用场景,然后介绍了通过与Amazon S3存储的结合,可以为数据分析系统带来的优势:成本优化以及数据湖的应用。接下来,我们又介绍了ClickHouse和S3集成的三种方案,并通过具体示例来展示了各方案的具体实现方法和优劣势。
在 AWS Glue 的 Python Shell 作业中部署 AWS Data Wrangler 进行 ETL 数据处理
本文首先介绍了AWS Glue以及该服务的功能和使用场景,然后介绍了AWS Glue 中的Python Shell作业,可以基于Python完成一些基础的ETL操作。接下来,我们又介绍了Pandas on AWS – AWS Data Wrangler这款在AWS上进行数据分析的利器,并通过一个示例场景(CSV转换Parquet)来介绍了如何在Python Shell作业引入AWS Data Wrangler来简化在AWS平台上的无服务器化的ETL任务。
在 AWS Graviton2 Arm 架构上编译构建 ClickHouse
本文首先简单介绍了ClickHouse及其特性和使用场景,然后介绍了AWS Graviton2 Arm架构的优势,并演示了如何在AWS Graviton2的EC2实例上进行编译安装。接着,对AWS Graviton2和x86架构的EC2实例上的ClickHouse进行了性能比对,通过结果可以看到,AWS Graviton2不仅增强了数据分析的成本优势,还给客户带来了更丰富的计算架构选项。
使用 Amazon Kinesis 和 Amazon EMR 构建数据批处理分析架构
使用Amazon Kinesis和Amazon EMR构建数据批处理分析架构,并和流式处理汇总到Redshift做集中数仓查询.
使用 AWS DMS 将数据从 Amazon S3 流式传输至 Amazon Kinesis Data
本文介绍了如何使用AWS DMS,将批处理方案转换为近实时解决方案。这套解决方案大大简化了将记录由Amazon S3迁移至Kinesis并加以分析的过程。Kinesis作为AWS DMS指定的目标,可为多种其他系统提供数据资源。这样一条近实时管道将帮助您快速了解系统内的各类变化,最终提升组织的实际决策能力。
配置和优化 Amazon Athena 联合 Amazon Redshift 查询性能
在本文中,我们探讨了如何使用Lambda配置并使用Athena联合AmazonRedshift功能。现在,您无需等待从Amazon Redshift数据仓库到Amazon S3的数据转移流程,也不再需要负担查询的日常维护工作。
Cookpad 如何在扩展 Amazon Redshift 集群规模的同时,通过限制资源用量有效控制成本
Amazon Redshift已经成为Cookpad公司为员工提供自助服务分析的关键基础。正如前文所述,我们使用AWS提供的种种新功能对集群容量进行了扩展,且全程未添加任何节点。
使用 Glue 和 Athena 分析 AWS 服务日志
本文以VPC流日志为例,指导如何使用Glue爬网程序构建VPC流日志的数据目录,并使用GLUE ETL 作业把源数据进行分区并转换成Parquet格式,加速Athena查询VPC流日志的速度并减少扫描量以降低分析的成本。
使用 Amazon EKS 轻松运行 Flink 作业
本文介绍如何在 Amazon EKS 上部署和运行 FLink 作业。 Kubernetes 是目前最流行的用于自动部署,扩展和管理容器化应用程序的开源系统。我们看到越来越多的用户开始使用 Kubernetes 来作为企业容器应用部署平台。Amazon Elastic Kubernetes Service (Amazon EKS) 是一项完全托管的 Kubernetes 服务。
Delhivery 公司最佳实践剖析:从 Apache Kafka 迁移至 Amazon MSK
Amazon MSK能够降低基础设施的维护强度,简化问题的识别与解决,缩短代理维护时间,最终将生产力提升至新的层面。它在后台承担起Apache Kafka的维护工作,结合实际需求为我们提供监控级别选择,让我们的团队能够腾出更多精力改善业务应用程序并为客户提供价值回报