亚马逊AWS官方博客

Category: AWS Big Data

基于 Amazon DynamoDB 流对 Amazon DynamoDB 表进行跨区复制实践

目前在中国境内区域(北京区域和宁夏区域),Amazon DynamoDB 暂不支持全局表。因此无法通过较便捷的方法实现 DynamoDB 表的跨区复制。另一方面,在许多应用场景以及客户具体实践中,对数据跨区复制的需求是旺盛和迫切的。最直观的一个好处是,跨区复制可以有效提高数据的高可用性,使得当某一区域隔离或者降级时,可以及时快速切换至备份区域,确保系统平稳运行,把干扰降至最低。因此至少在全局表功能推出以前,本文探索的复制技术可以在某种程度上弥补缺失。

5分钟快速上手 – 通过EMR引导脚本部署Alluxio并运行Spark任务

Apache Hadoop和Spark给大数据计算带来了重大革新,而AWS EMR为按需运行集群以处理计算工作负载提供了很好的选择,它管理各种Hadoop服务的部署,并提供挂钩对这些服务进行自定义开发。Alluxio是一个开源的基于内存的分布式存储系统,现在成为开源社区中成长最快的大数据开源项目之一。Alluxio可以运行在EMR上,在EMRFS之上当前提供功能特性。 除了缓存带来的性能优势之外,Alluxio还使用户能够针对on-premise存储或甚至不同的云提供商存储运行计算工作负载。在本文中,我们将通过AWS CLI快速通过Alluxio引导EMR,并运行PySpark进行文档内容筛选。

入门:Big Data on AWS 培训资源 | AWS 大数据博客

尝试新事物往往是一项艰巨的任务。要从哪里着手? 有哪些资源有助于引导您进入自己不熟悉的领域? 如需额外的帮助时,您可以向谁求助?
无论您是刚刚注册了第一个 AWS 账户,还是已使用我们的服务有段时间了,为了满足客户不断变化的需求,我们的服务也在不断发展,因此总会有一些新的内容需要学习。为了帮助您在使用 AWS 构建内容时准备充分以取得成功,我们在 AWS 站点上汇总了以下有关大数据培训的快速参考指南和资源。

在具有 750TB 数据的 Amazon Redshift 上运行 Amazon Payments 分析 | AWS 大数据博客

Amazon Payments 数据工程团队负责进行数据提取、转换和存储超过750TB的不断增长的数据集,该团队为全球超过 300 多个企业客户提供这些服务。这些客户包括产品经理、市场营销经理、项目经理、数据科学家、业务分析师和软件开发工程师。他们利用这些数据进行有计划的和即席查询,从而帮助他们做出正确的商业决策。这些数据还用于构建每周、每月和每季度的业务评估指标,供领导团队进行审核。

Amazon 将 50 PB 的分析数据从 Oracle 迁移至 AWS

Amazon 构建并运营了数千种微服务,为数百万客户提供服务。这些服务包括目录浏览、下单、交易处理、交付计划、视频服务和 Prime 注册。每项服务均向 Amazon 分析基础设施发布数据集,包括超过 50 PB 的数据和 75,000 个数据表,每天处理 600,000 次用户分析作业。发布数据的团队超过 1,800 个,并有超过 3,300 个数据使用者团队分析这些数据,以生成见解、发现机会、制作报告和评估业务绩效。

Amazon QuickSight 的新定价模式、新区域、及其他更多更新

Amazon QuickSight 是一款完全托管的云商务智能系统,可为您提供快速且易用的大数据商业分析。QuickSight 使业务分析可用于所有形态和规模的机构,能够访问各种数据,它们可以被储存在 Amazon Redshift 数据仓库、Amazon Relational Database Service (RDS) 关系数据库、S3 中的数据文件、以及(通过连接器访问)在本地 MySQL、PostgreSQL 和 SQL Server 数据库中。QuickSight可根据不同机构的需求扩展,使其适应数十、数百或数千个用户的使用场景。
如今,针对QuickSight,我们推出了新的基于会话的定价选项、新的支持地区、以及更多重要的功能。下面我们分别来看各个更新:

使用 AWS DMS 和 AWS Glue 持续加载数据湖更改

在 Amazon S3 上构建数据湖可让组织受益无穷。它允许您访问各种数据源,确定独特的关系,构建 AI/ML 模型来提供定制的客户体验,并加速新数据集的管理以供消费。但是,无论是在本地还是在 AWS 上,从运营数据存储中捕获不断变化的更新并将其加载到数据湖,都可能会非常耗时且难以管理。
下文演示了如何部署一个解决方案,将来自热门数据库源(如 Oracle、SQL Server、PostgreSQL 和 MySQL)的持续更改加载到您的数据湖中。该解决方案会将新数据和发生更改的数据流式传输到 Amazon S3。它还会创建和更新相应的数据湖对象,根据您配置的计划提供与数据源类似的数据视图。然后,AWS Glue Data Catalog 公开新更新和经过重复数据删除的数据,以供分析服务使用。

在 Amazon Elasticsearch Service 中设置警报

4 月 8 日,Amazon ES 推出了事件监控和警报支持。要使用此功能,您可以使用带有触发器(即您设置的特定触发条件,指示监视器何时发送警报)的监控 Monitor(即事先安排的作业)。警报是发生触发条件的通知。触发器触发时,监控 Monitor 将执行特定操作(向目标发送消息)。
本文使用模拟的物联网 Device Farm 生成数据并将数据发送到 Amazon ES。