亚马逊AWS官方博客

使用 Apache Atlas on Amazon EMR 进行元数据分类、沿袭和发现

随着数据在当今世界中的作用不断发展演变,数据治理已然成为有效数据管理的重要环节。许多组织使用数据湖作为单个存储库,存储属于组织中某个业务实体的各种格式的数据。使用元数据、分类和数据沿袭是有效利用数据湖的关键。
这篇文章将指导您了解安装在 Amazon EMR 上的 Apache Atlas 如何提供此功能。您可以使用此设置来动态分类数据并查看数据在各种过程中移动期间的数据沿袭。在此过程中,您可以在 Atlas 中使用领域专用语言 (DSL) 来搜索元数据。

使用 WorkSpaces Cost Optimizer 自动优化 WorkSpaces 使用成本

Amazon WorkSpaces是在AWS上运行的完全托管、安全的桌面即服务(DaaS)解决方案。借助Amazon WorkSpaces,您可以为团队成员轻松配置云桌面,使他们可以随时随地访问所需的文档、应用程序和资源。为了帮助不便预测WorkSpace使用模式的客户监控WorkSpaces使用情况并优化成本,AWS提供了Amazon WorkSpaces Cost Optimizer,来分析您所有WorkSpace的使用情况数据,并自动将WorkSpace转换为最具成本效益的计费选项(每小时或每月一次)。本文将向您介绍如何在AWS中国区部署WorkSpaces成本优化方案,以及这个方案的工作原理。

使用 Palo Alto Networks 的 Prisma Cloud 计算版本扫描 AWS 镜像仓库ECR  

目前企业容器的使用越来越普遍,根据Gartner的统计,目前已经有一半的企业已经使用了容器部署。而且这个增长的趋势也会越来越快。其中容器的镜像仓库为存储和分发应用镜像提供了便捷、集中化的来源。当今我们的企业和组织可以很方便地将数以万计的镜像存储在镜像仓库中,比如说我们AWS的镜像仓库ECR (Elastic Container Registry)。

AWS Glue 扩展 Apache Spark 作业以及数据分区的最佳实践

本博文讨论管理数据处理作业扩展的两项关键的 AWS Glue 功能,还将介绍在 AWS Glue中,针对采用 Amazon Kinesis Data Firehose 的流应用程序中提取的大量小文件,如何来扩展 Apache Spark 应用程序。此外,文章将介绍对 AWS Glue 作业如何利用在 Amazon S3 上大型数据集的分区结构,来缩短 Apache Spark 应用程序的执行时间。