亚马逊AWS官方博客

Category: AWS Big Data

Amazon QuickSight 的新定价模式、新区域、及其他更多更新

Amazon QuickSight 是一款完全托管的云商务智能系统,可为您提供快速且易用的大数据商业分析。QuickSight 使业务分析可用于所有形态和规模的机构,能够访问各种数据,它们可以被储存在 Amazon Redshift 数据仓库、Amazon Relational Database Service (RDS) 关系数据库、S3 中的数据文件、以及(通过连接器访问)在本地 MySQL、PostgreSQL 和 SQL Server 数据库中。QuickSight可根据不同机构的需求扩展,使其适应数十、数百或数千个用户的使用场景。
如今,针对QuickSight,我们推出了新的基于会话的定价选项、新的支持地区、以及更多重要的功能。下面我们分别来看各个更新:

Read More

使用 AWS DMS 和 AWS Glue 持续加载数据湖更改

在 Amazon S3 上构建数据湖可让组织受益无穷。它允许您访问各种数据源,确定独特的关系,构建 AI/ML 模型来提供定制的客户体验,并加速新数据集的管理以供消费。但是,无论是在本地还是在 AWS 上,从运营数据存储中捕获不断变化的更新并将其加载到数据湖,都可能会非常耗时且难以管理。
下文演示了如何部署一个解决方案,将来自热门数据库源(如 Oracle、SQL Server、PostgreSQL 和 MySQL)的持续更改加载到您的数据湖中。该解决方案会将新数据和发生更改的数据流式传输到 Amazon S3。它还会创建和更新相应的数据湖对象,根据您配置的计划提供与数据源类似的数据视图。然后,AWS Glue Data Catalog 公开新更新和经过重复数据删除的数据,以供分析服务使用。

Read More

在 Amazon Elasticsearch Service 中设置警报

4 月 8 日,Amazon ES 推出了事件监控和警报支持。要使用此功能,您可以使用带有触发器(即您设置的特定触发条件,指示监视器何时发送警报)的监控 Monitor(即事先安排的作业)。警报是发生触发条件的通知。触发器触发时,监控 Monitor 将执行特定操作(向目标发送消息)。
本文使用模拟的物联网 Device Farm 生成数据并将数据发送到 Amazon ES。

Read More

如何使用 AWS Step Functions 和 AWS Glue 将 Amazon DynamoDB 表导出至 Amazon S3

不愧是 AWS 的做派,我在 AWS 大数据博客上发表 How Goodreads offloads Amazon DynamoDB tables to Amazon S3 and queries them using Amazon Athena 之后不到一周,AWS Glue 团队就发布了 通过 AWS Glue 爬网程序和 AWS Glue ETL 作业原生读取 DynamoDB 表中数据的功能。我对此兴奋不已。写得代码越少意味着缺陷越少。最初的架构已经存在了至少 18 个月,只需稍加改进即可实现大幅简化。

Read More

在 Amazon EMR 上成功管理 Apache Spark 应用程序内存的最佳实践

在大数据领域,一个常见的用例是对来自各种数据源的大量数据执行提取、转换 (清洗转换) 和数据分析。然后,通常是分析数据以获取洞察。处理如此庞大的数据最常用的基于云的解决方案之一是 Amazon EMR。Amazon EMR 是一个托管集群平台,可简化在 AWS 上运行大数据框架的过程,如 Apache Hadoop 和 Apache Spark。Amazon EMR 使组织能够在几分钟内启动具有多个实例的集群。它还让您能够通过并行处理来处理各种数据工程和商业智能工作负载。这样做的话,您可以在很大程度上减少创建和扩展集群所涉及的数据处理时间、工作量和成本。本博文旨在通过详细介绍最佳实践来帮助您防范 Amazon EMR 上的 Apache Spark 出现内存相关的问题。

Read More

利用AWS Glue 自动触发数据目录和ETL job 构建自动化无服务器数据湖

如今,海量数据从四面八方纷涌而来,比如来自 IoT 传感器、应用程序日志和点击流等资源的非结构化数据,以及来自事务处理应用程序、关系数据库和电子表格的结构化数据。数据已成为每家企业的重要组成部分。为了快速获取数据中的价值,保持单一事实来源(single source of truth),并且自动执行从数据提取到转换和分析的整个pipeline的需求应运而生。

Read More

Amazon EMR 5.24 中的 Apache Spark 性能升级 — 性能比 Amazon EMR 5.16 最高提升 13 倍 | AWS 大数据博客

Amazon EMR 发行版 5.24.0 包含了多项 Spark 优化,提升了查询性能。为了评估性能的提升,我们使用了 3TB 级的 TPC-DS 基准查询,在一个 6 节点 c4.8xlarge EMR 集群上运行,数据存储在 Amazon S3 中。我们观察到,在以类似的配置运行时,EMR 5.24 上的查询性能要比 EMR 5.16 高 13 倍。

Read More