亚马逊AWS官方博客

Tag: Analytics

新功能 — Amazon QuickSight Q 回答了有关商业数据的自然语言问题

我们推出了 Amazon QuickSight,并将其用作第一个按会话付费定价的商业智能 (BI) 服务。今天,我们很高兴地宣布 Amazon QuickSight Q 的预览版,这是由机器学习 (ML) 提供支持的自然语言查询 (NLQ) 功能。借助于 Q,企业用户现在可以使用 QuickSight 使用日常语言提出有关其数据的问题,并在几秒钟内获得准确的答案。

Read More

新增功能 – 在 Amazon S3 中将 Amazon DynamoDB 表数据导出到您的湖内数仓,无需编写代码

今天,我们将推出一项新功能,这项功能可使您将 DynamoDB 表数据导出 Amazon Simple Storage Service (S3)——无需编写代码。
它是 DynamoDB 的一项新的原生功能,可以以任何规模运行,无需管理服务器或集群,且该功能支持您跨 AWS 区域和账户以秒级粒度将数据导出到过去 35 天的任何时间点。此外,它不会影响生产表的读取容量或可用性。

Read More

使用 Amazon Athena 的联合查询和由用户定义的函数简化 ETL 数据管道

Amazon Athena 最近在预览版中增加了对联合查询及由用户定义的函数 (UDF) 的支持。请参阅使用 Amazon Athena 的全新联合查询对任何数据源进行查询,以了解更多详细信息。Jornaya 帮助营销人员智能的与市场中购买大型生活用品(如房屋、抵押贷款、汽车、保险和教育等)的消费者建立联结。

Read More

使用 AWS Step Functions 和 AWS Glue 编排基于 Amazon Redshift 的 ETL 工作流

在本文中,我将展示如何使用 AWS Step Functions 和 AWS Glue Python Shell 以完全无服务器的方式为那些基于Amazon Redshift 的 ETL 工作流编排任务。AWS Glue Python Shell 是一个 Python 运行时环境,用于运行中小型 ETL 任务,例如提交 SQL 查询和等待响应。Step Functions 可让您将多个 AWS 服务协调到工作流中,从而可以轻松运行和监视一系列 ETL 任务。AWS Glue Python Shell 和 Step Functions 均无服务器,允许自动运行和扩展它们以响应定义的事件,而无需配置、扩展和管理服务器。

Read More

授予对 Amazon Redshift 管理控制台的细粒度访问权限

Amazon Redshift 是一项完全托管的服务,它的设计宗旨是易于设置和使用。在本博文中,我们将演示如何为某一运营组中的用户授予访问权限,以便他们仅在 Amazon Redshift 管理控制台中执行特定操作。如果您实施自定义 IAM 策略,则可以对其进行设置,以便这些用户可以监控和终止正在运行的查询。同时,您可以防止这些用户执行其他需要更多权限的操作,例如修改、重启或删除 Amazon Redshift 集群。

Read More

在 Amazon EMR 上成功管理 Apache Spark 应用程序内存的最佳实践

根据数据和处理需求适当配置 Spark 应用程序以使其成功非常重要。使用默认设置时,Spark 可能不会使用集群的所有可用资源,最终可能会出现物理和/或虚拟内存问题。
本博文旨在通过详细介绍最佳实践来帮助您防范 Amazon EMR 上的 Apache Spark 出现内存相关的问题。

Read More

使用高级 Amazon CloudWatch 指标和 AWS Lambda 通过空闲检查和自动资源终止优化 Amazon EMR 成本

在这篇博文中,我们将提出一种解决方案来减少这方面的成本。我们实施了一个 bash 脚本,将其安装在 EMR 集群的主节点上,并将该脚本计划为每 5 分钟运行一次。该脚本可监控集群并每 5 分钟向 CloudWatch 发送一次自定义指标 EMR-INUSE(0=非活动;1=活动)。如果 CloudWatch 在一些预定义数据点收到 0(非活动),则将触发警报,然后执行终止集群的 AWS Lambda 函数。

Read More