亚马逊AWS官方博客

Category: AWS Big Data

使用 Serverless 架构快速构建基于 Iceberg 的事务型实时数据湖

目前大部分使用数据湖技术的场景,需要托管大规模的大数据集群,例如 Kafka 集群,Hadoop 集群等等,但是,由于集群的运维复杂度和资源弹性管理需要投入大量的人力。并且如果需要实现从数据库到数据湖的实时同步,需要对数据库事务性的数据变更进行单独的处理,才能够使得数据库与数据湖之间数据保持一致性。因此,本文提出基于 AWS 中相关的 Serverless 服务来构建数据湖,该方案主要利用 AWS 中 MSK Connect,MSK Serverless,Glue,Athena 来构建无服务的数据湖方案。

AWS EMR HBase 例行灾备方案:快照备份与还原演练

该方案是为某用户定制的 HBase 灾备方案,方案本身具有很好的适用性,可以复用于常规 HBase 灾备场景。用户每周对 HBase 进行一次全量备份,将快照上传至 S3 保存,同时,在其他系统中保存着两周以内的增量数据,当 HBase 宕机时,会先还原快照将数据库恢复至一周内某一时刻的全量状态,然后再从其他系统读取一周内的增量数据进行补录。本文将重点讨论 HBase 基于快照的例行备份和灾后恢复操作,并给出详细的解释和操作脚本。

AWS EMR HBase 超大表迁移、备份、还原、同步演练手册:全量快照 + 实时同步(Snapshot + Replication)不停机迁移方案

本文介绍的演练操作源于某真实案例,用户有一个 80 TB 的 HBase 数据库,其中有一张超大表,数据量约为 50 TB,在一次迁移任务中,用户需要将该 HBase 数据库迁移到 Amazon EMR 上。 本文将讨论并演示:将一个 50 TB HBase 单表不停机迁移数据到一个 HBase on S3 集群上,过程中会给出详细的步骤说明和操作脚本。

在多主节点的 Amazon EMR 集群中实现用户身份认证与细粒度访问控制(二)Yarn 队列控制与 HBase Simple 认证

目前随着用户越来越重视数据的安全合规,当基于 Amazon EMR 做为最重要的组件之一来构建数据湖时,如何对 Amazon EMR 的数据访问控制是非常重要的。本博客提供的解决方案提供一个全面的 Amazon EMR 数据访问控制和权限管理框架,帮助有数据细粒度权限管控要求的 Amazon EMR 用户,实现多种组件的身份认证以及数据访问控制。

在多主节点的 Amazon EMR 集群中实现用户身份认证与细粒度访问控制(一)Open LDAP 身份认证与基于 Hive MetaStore 的访问控制

目前随着用户越来越重视数据的安全合规,当基于 Amazon EMR 做为最重要的组件之一来构建数据湖时,如何对 Amazon EMR 的数据访问控制是非常重要的。本博客提供的解决方案提供一个全面的 Amazon EMR 数据访问控制和权限管理框架,帮助有数据细粒度权限管控要求的 Amazon EMR 用户,实现多种组件的身份认证以及数据访问控制。

Stable Diffusion Quick Kit 动手实践 – 在 SageMaker Training Job 上进行 SDXL Dreambooth 训练并推理

本文是 Stable Diffusion Quick Kit 系列博客的一部分,介绍如何在 SageMaker Training Job 中加载进行 Stable Diffusion XL(以下简称SDXL)的 Dreambooth 微调训练,及训练完成后使用 Stable Diffusion WebUI 开源框架进行模型部署和即时推理,实现训推一体的整体 pipeline 及业务流程。

Amazon MSK 基于 S3 的数据导出、导入、备份、还原、迁移方案

Amazon MSK 集群的数据导出、导入、备份、还原多采用 Kafka MirrorMaker,但是,在某些场景中,受环境限制,两个于 Kafka 集群之间的网络可能无法连通,或者两个 AWS 账号相互隔离,亦或是需要将 Kafka 的数据沉淀为文件存储以备他用。此时,基于 Kafka Connect S3 Source / Sink Connector 的方案会是一种较为合适的选择,本文就将介绍一下这一方案的具体实现。

利用 Amazon MSK,Amazon Redshift 和 Amazon Quicksight 搭建简易实时数仓

很多客户有快速搭建简易实时数仓的需求,例如内控审计平台,希望从公司各业务线实时收集要监控的数据,并不需要复杂的 ETL 处理,而进到数仓后,希望既支持近实时的多维度查询,又支持后续的离线分析。那么,利用 Amazon MSK, Amazon Redshift 和 Amazon Quicksight 搭建简易实时数仓,是一个很好的选择,能实现项目的快速落地。