亚马逊AWS官方博客
Tag: Analytics
新功能 — Amazon QuickSight Q 回答了有关商业数据的自然语言问题
我们推出了 Amazon QuickSight,并将其用作第一个按会话付费定价的商业智能 (BI) 服务。今天,我们很高兴地宣布 Amazon QuickSight Q 的预览版,这是由机器学习 (ML) 提供支持的自然语言查询 (NLQ) 功能。借助于 Q,企业用户现在可以使用 QuickSight 使用日常语言提出有关其数据的问题,并在几秒钟内获得准确的答案。
Read More新增功能 – 在 Amazon S3 中将 Amazon DynamoDB 表数据导出到您的湖内数仓,无需编写代码
今天,我们将推出一项新功能,这项功能可使您将 DynamoDB 表数据导出 Amazon Simple Storage Service (S3)——无需编写代码。
它是 DynamoDB 的一项新的原生功能,可以以任何规模运行,无需管理服务器或集群,且该功能支持您跨 AWS 区域和账户以秒级粒度将数据导出到过去 35 天的任何时间点。此外,它不会影响生产表的读取容量或可用性。
宣布推出 AWS Glue DataBrew – 一种可帮助您更快地清理和标准化数据的可视化数据准备工具
因此,我很高兴地宣布 AWS Glue DataBrew 现已推出,该服务是一个可视化数据准备工具,可帮助您将清理和标准化数据的速度最高提高 80%,使您可以更加专注于您所能获得的商业价值。
Read More使用 Amazon Athena 的联合查询和由用户定义的函数简化 ETL 数据管道
Amazon Athena 最近在预览版中增加了对联合查询及由用户定义的函数 (UDF) 的支持。请参阅使用 Amazon Athena 的全新联合查询对任何数据源进行查询,以了解更多详细信息。Jornaya 帮助营销人员智能的与市场中购买大型生活用品(如房屋、抵押贷款、汽车、保险和教育等)的消费者建立联结。
Read More使用 AWS Step Functions 和 AWS Glue 编排基于 Amazon Redshift 的 ETL 工作流
在本文中,我将展示如何使用 AWS Step Functions 和 AWS Glue Python Shell 以完全无服务器的方式为那些基于Amazon Redshift 的 ETL 工作流编排任务。AWS Glue Python Shell 是一个 Python 运行时环境,用于运行中小型 ETL 任务,例如提交 SQL 查询和等待响应。Step Functions 可让您将多个 AWS 服务协调到工作流中,从而可以轻松运行和监视一系列 ETL 任务。AWS Glue Python Shell 和 Step Functions 均无服务器,允许自动运行和扩展它们以响应定义的事件,而无需配置、扩展和管理服务器。
Read More授予对 Amazon Redshift 管理控制台的细粒度访问权限
Amazon Redshift 是一项完全托管的服务,它的设计宗旨是易于设置和使用。在本博文中,我们将演示如何为某一运营组中的用户授予访问权限,以便他们仅在 Amazon Redshift 管理控制台中执行特定操作。如果您实施自定义 IAM 策略,则可以对其进行设置,以便这些用户可以监控和终止正在运行的查询。同时,您可以防止这些用户执行其他需要更多权限的操作,例如修改、重启或删除 Amazon Redshift 集群。
Read More在 Amazon EMR 上成功管理 Apache Spark 应用程序内存的最佳实践
根据数据和处理需求适当配置 Spark 应用程序以使其成功非常重要。使用默认设置时,Spark 可能不会使用集群的所有可用资源,最终可能会出现物理和/或虚拟内存问题。
本博文旨在通过详细介绍最佳实践来帮助您防范 Amazon EMR 上的 Apache Spark 出现内存相关的问题。
使用高级 Amazon CloudWatch 指标和 AWS Lambda 通过空闲检查和自动资源终止优化 Amazon EMR 成本
在这篇博文中,我们将提出一种解决方案来减少这方面的成本。我们实施了一个 bash 脚本,将其安装在 EMR 集群的主节点上,并将该脚本计划为每 5 分钟运行一次。该脚本可监控集群并每 5 分钟向 CloudWatch 发送一次自定义指标 EMR-INUSE(0=非活动;1=活动)。如果 CloudWatch 在一些预定义数据点收到 0(非活动),则将触发警报,然后执行终止集群的 AWS Lambda 函数。
Read More