亚马逊AWS官方博客
Category: Analytics
利用 Apache Celeborn 减少 AWS EMR 集群中 Spot 实例回收导致的重算成本
Celeborn 是一个开源的实现 Remote Shuffle 的工具。通过为 EMR 部署 Celeborn 服务,可以将 Spark 计算的中间结果从采用 Spot 实例的 EMR 集群节点中分离存储,实现 shuffle 数据的存算分离,有效减少了 Spot 实例回收导致的重算成本。
利用 Amazon Elastic Kubernetes Service(Amazon EKS)打造弹性 StarRocks 集群
介绍如何利用 Elastic Kubernetes Service(EKS)打造弹性 StarRocks 集群,以及 StarRorks 在亚马逊云上的部署优势。
基于亚马逊云科技托管 Flink 的开发系列 — 写入 Amazon S3 篇
1. 概述 上文讲述了如何建立 Apache Flink(以下简称 Flink)的本地开发环境,完成了从 Am […]
基于亚马逊云科技托管 Flink 的开发系列 — 本地开发环境篇
1. 概述 随着 2023 年 8 月亚马逊云科技把原来 Amazon Kinesis Data Analyt […]
字节跳动 ByteHouse 云原生之路(二)– 基于 AWS 的高性能日志分析 SaaS 服务
本文将深入探讨字节跳动 ByteHouse 云原生之路上的持续优化。通过充分利用 AWS 的强大基础设施,ByteHouse 可以帮助用户成功地打造一款高性能的日志分析 SaaS 服务,成为企业实时处理和分析日志数据的强大工具。
利用 Amazon QuickSight 实现对账单多维度精细化分析
随着组织对云使⽤成熟度上的成⻓,云数据/资源的使⽤越来越深⼊和复杂,组织需要对产⽣的成本进⾏更好的管理、分析、预测、预警,以便及时进⾏调整和优化,从⽽更好的控制成本;同时各个组织/部门在使⽤云的过程中,也需要基于更多的维度更加清晰直观的了解所使⽤资源的成本消耗情况,费⽤占⽐,以及是否超预期等。这篇 Blog 中,我们会分别介绍标准⽅案和⾃定义⽅案实现方案部署⽅式,满⾜客户不同的账单分析需求。
Zero-ETL 在支付业务离线数据上的实践
人工智能和大数据技术的日渐火爆,越来越多的客户打算构建自己的数据仓库来实现对数据的分析。然而对于部分大数据技术处于起步阶段或者不打算在大数据方面投入过多人力成本的客户来说,复杂的数据重建和高昂的维护成本对他们来说是巨大的挑战。Zero-ETL 功能正是在此时推出来帮助客户解决此类问题。
Cisco 使用 Apache DolphinScheduler 在 AWS 构建大数据系统实践
在 Cisco 的数据团队构建数据业务时,选取并使用 Apache DolphinScheduler 进行搭建大数据调度平台已经有近三年时间。其中大部分的数据任务都需要提交部署到 AWS 平台上,在团队进行系统架构和开发期间经历了一系列的挑战。
跨 AWS Region 建立 Amazon MSK 私有连接
本方案结合 MSK Managed VPC connection 和 VPC Peering 为用户提供跨 Region 的私有访问方式,既满足网络安全隔离的要求,也能实现跨 Region 的 MSK 访问。
EMR on EKS 与 Apache Kyuubi 的数据驱动之旅
背景 Data on Kubernetes 在现代化数据策略的推动下,我们看到越来越多的客户将大数据工作负载从 […]