亚马逊AWS官方博客
Category: Analytics
Amazon MWAA 实战分享 – Glue Job 任务调度
Amazon MWAA 实战分享
基于 AWS 无服务器架构的大语言模型应用构建 (理论篇)
基于 AWS 无服务器架构的大语言模型应用构建,分为上下篇两部分,此为上篇(理论篇),重点介绍在此应用构建时涉及到的技术背景和理论知识。在下篇(工程篇)中,我们会继续从工程实现角度介绍如何借助 AWS 无服务器架构实现构建知识问答机器人场景。
使用 Amazon Redshift 流式摄取、Amazon Kinesis 数据流和 Amazon Redshift ML 进行近实时的欺诈检测
本文介绍如何使用 Amazon Redshift 流式摄取、Amazon Kinesis 数据流和 Amazon Redshift ML 进行近实时的欺诈检测。
深入探讨 RedBus 的数据平台以及他们如何利用 Amazon QuickSight 加速业务洞察
本文介绍 redBus 如何利用 Amazon QuickSight 加速业务洞察,并深入探讨了他们的数据平台。
Convoy 利用 Amazon QuickSight 通过数据驱动的决策帮助承运商和运输公司提高效率和节省费用
本文介绍 Convoy(一家由 Y Combinator 投资的卡车物流公司) 如何利用 Amazon QuickSight 通过数据驱动的决策帮助承运商和运输公司提高效率和节省费用。
AWS Glue + AWS Glue Data Catalog + S3 实现 RDS 到 Redshift 的全表增量同步
本文将以实际的案例讲解通过 AWS Glue + AWS Glue Data Catalog + S3 来实现基于时间戳的 RDS 到 Redshift 的灵活增量同步方案。
使用 DolphinScheduler 进行 EMR 任务调度
此篇文章将介绍 DolphinScheduler 安装部署,以及在 DolphinScheduler 中进行作业编排,以使用 python 脚本的方式执行 EMR 的任务调度,包括创建集群、集群状态检查、提交 EMR Step 作业、EMR Step 作业状态检查,所有作业完成后终止集群。
SHAREit 大数据平台 DataCake 在 Spark on EKS 的实践
SHAREit 自研一站式、自助化大数据平台 DataCake,采用 Spark on EKS 调度 Spot 实例来进行数据 Batch 计算。我们通过自研的 Spark PVC Reuse 方案,最大限度地降低 Spot 回收的影响,任务平均执行时间下降 41%,整体成本降低了 39%。
使用 Amazon EMR Studio 探索 Apache Hudi 核心概念 (4) – Clustering
本系列文章使用 Amazon EMR Notebook 对 Apache Hudi 核心概念展开深入的探索和介绍,利用 Notebook 提供的统一环境和上下文,我们可以非常生动地观察到 Hudi 的运行机制,并深刻体会到其背后的控制原理,这也正是本系列文章的写作灵感:我们希望借助 Notebook“探索,发现,思考,领悟”的思维模式,带领大家开启一段 Hudi 核心概念的探索之旅。
使用 Amazon EMR Studio 探索 Apache Hudi 核心概念 (3) – Compaction
本系列文章使用 Amazon EMR Notebook 对 Apache Hudi 核心概念展开深入的探索和介绍,利用 Notebook 提供的统一环境和上下文,我们可以非常生动地观察到 Hudi 的运行机制,并深刻体会到其背后的控制原理,这也正是本系列文章的写作灵感:我们希望借助 Notebook“探索,发现,思考,领悟”的思维模式,带领大家开启一段 Hudi 核心概念的探索之旅。