亚马逊AWS官方博客
Category: AWS Big Data
使用 EMR Hue 整合 Apache Kyuubi 提升 Spark SQL 开发效率
Amazon EMR 是一种全托管的云端数据平台,用于处理和分析大数据集。它基于开源的 Apache Hadoop 和 Apache Spark 等大数据技术栈,提供了一系列易于使用的工具,可帮助用户在云端快速构建和管理大规模的数据处理和分析应用程序。本文通过介绍在 EMR 中安装、集成 Apache Kyuubi,帮助提升在 EMR 平台上使用 Hue 进行 Spark SQL 开发的效率。
使用 Amazon EMR Studio 探索 Apache Hudi 核心概念 (1) – File Layouts
本系列文章使用 Amazon EMR Notebook 对 Apache Hudi 核心概念展开深入的探索和介绍,利用 Notebook 提供的统一环境和上下文,我们可以非常生动地观察到 Hudi 的运行机制,并深刻体会到其背后的控制原理,这也正是本系列文章的写作灵感:我们希望借助 Notebook “探索,发现,思考,领悟”的思维模式,带领大家开启一段 Hudi 核心概念的探索之旅。
Amazon EMR HBase on S3 之二级索引、Thrift 和性能评测
Amazon EMR 从5.2.0版本开始,就支持把HBase根目录和元数据直接存储到Amazon S3. 本文从实战的角度,解释一下客户在选择使用HBase on S3的时候比较关心的两个问题,一个是如何把已有的HBase on HDFS迁移到HBase on S3,并包含二级索引的迁移;另一个是HBase on S3的性能问题。
基于AWS云端数据质量治理解决方案
这篇博客介绍了基于AWS的全面数据质量解决方案DQ Key,此方案基于数据治理自上而下质量治理模型以及数据质量治理流程,从业务以及技术层面为客户提供数据质量从发现到治理的一整套完整解决方案。
Key Messages as Tag
基于Amazon CloudWatch 和Grafana 的云上资源监控与报警解决方案
本文将展现一种以Amazon CloudWatch监控的指标为数据源,Amazon EventBridge和AWS Lambda作为运维事件监控和行动触发的组件,Amazon SNS和Amazon SQS作为摄取云上运维事件的消息队列,Grafana作为运维主看板的轻量级解决方案。
从 Kudu 迁移到 Hudi
在构建本地数据中心的时候,出于Kudu良好的性能和兼备OLTP和OLAP的特性,以及对Impala SQL和Spark的支持,很多用户会选择Impala/Spark + Kudu的技术栈。但是由于Kudu对本地存储的依赖,导致无法支持的数据高可用和弹性扩缩容,以及社区的逐渐不活跃,越来越多的用户,开始迁移到云上的Trino/Spark + Hudi 技术栈,本文通过一个实际的例子,来看一下迁移过程中发生的代码的重构和数据的迁移。
使用AWS Glue在Amazon S3上构建数据湖实战
此文整体采用无服务器的架构,利用AWS Glue加载并转换应用日志和JDBC数据源,并以目标格式写到以S3构建的数据湖中,该技术可以有效的打通因为不同摄入/获取数据方式形成的数据孤岛,以数据为基石更好的帮助业务部门做业务决策。
利用自动实体化视图优化您的 Amazon Redshift 查询性能
Amazon Redshift 是一个快速、完全托管式云数据仓库数据库,可使通过标准 SQL 和商业智能工具对 […]
使用新的 AWS Glue DynamoDB Export 连接器加速 AWS Glue 作业中的 Amazon DynamoDB 数据访问评论源
现代数据架构鼓励数据湖、数据仓库和专用数据存储的集成,从而实现统一治理和轻松数据移动。借助 AWS 上的现代数 […]
机器学习多步时间序列预测解决方案
AWS ProServe GCR 利用机器学习进行多步时间序列预测解决方案。