亚马逊AWS官方博客
Category: Analytics
增强Amazon Athena对历史查询记录的统计分析功能
Amazon Athena 是一种交互式查询服务,让您能够轻松使用标准 SQL 分析 Amazon S3 中的数据。Athena 采用无服务器架构,因此您无需管理任何基础设施,且只需为您运行的查询付费。Athena 简单易用,只需指向您存储在 Amazon S3 中的数据,定义架构并使用标准 SQL 开始查询。
云原生编排数据分析管道初探
公有云是适合数据分析和大数据处理的天然平台。近年来,云服务和开源社区涌现出许多优秀的工作流编排工具,方便就数据分析中复杂的抽取转换加载 (ETL) 过程进行任务编排。要成功运行数据分析管道,需要至少两个必要准备,一是搭建好支持运行数据管道的基础设施。二是编排好数据管道的 ETL 任务顺序。前者涉及运维,后者事关业务。从数据分析的角度,则希望运维难度最小,业务易用度最大。本文从上述两个角度切入,就 Airflow 和状态机支持数据分析管道的情况进行分析,并初步探讨云原生编排数据管道的方法和意义。
在 Amazon Kinesis Data Analytics Studio 中尝试的十大 Flink SQL 查询
通过 Amazon Kinesis Data Analytics Studio,您可以轻松地实时分析流数据并使用标准 SQL、Python 和 Scala 构建流处理应用程序。只需在亚马逊云科技管理控制台上单击几下,就可以启动无服务器笔记本来查询数据流,只需几秒钟即可获得结果。
基于云的数据网格技术如何实现金融监管数据采集
实践证明,现代云技术可以通过汇集数据并使用数据仓库和大数据工具进行分析,以经济高效的方式实现有价值的见解。例如,使用 Amazon EMR 之类的大数据分析工具整合来自证券交易的数据,以实现增强风险管理。对监管机构来说,面临的挑战在于能够通过以受控、高度灵活且经济高效的方式分析各种大型数据集来获取见解和有价值的信息。随着市场的演变和经济风险的变化,监管机构和中央银行的需求也将发生变化,因此监管生态系统必须继续适应所有参与者并具有成本效益。
如何使用数据网格创建现代包装消费品 (CPG)行业数据架构
在本博客文章中,我们将深入探讨大规模管理数据的主题,并解释为什么 CPG 应考虑使用数据网格进行数据管理的新方法。
预处理日志以便在 Amazon ES 中进行异常检测
Amazon Elasticsearch Service(Amazon ES)支持实时的异常检测,它使用机器学习(ML)主动检测实时流数据中的异常情况。当分析应用程序日志时,它可以用来检测例如异常高的错误率或请求数量的突然变化等异常状况。例如,来自特定地区的食品配送订单数量的突增可能是由于天气变化或该地区用户遇到技术故障造成的。发现这种异常情况可以促进对事件的快速调查和补救。
使用 Simple Replay 实用程序简化 Amazon Redshift RA3 迁移评估
Amazon Redshift 是快速、广受欢迎的完全托管式云数据仓库,允许您使用标准 SQL 处理数据仓库、运营数据库和数据湖中的 EB 级数据。它提供不同的节点类型以适应各种工作负载;您可以根据需求从 RA3、DC2 和 DS2 中选择。RA3 是最新的实例类型,它允许您独立扩展计算和存储并支付其费用,还支持跨集群数据共享和跨可用区集群重新定位等高级功能。有关升级时节点计数和类型建议的更多信息,请参阅升级到 RA3 节点类型。
如何在亚马逊云科技数据湖内删除用户数据
在本文中,我们将介绍一套框架,帮忙清除您组织中的亚马逊云科技托管数据湖内的各特定用户数据。此外,我们还将共同了解一套由多种不同亚马逊云科技存储层构成的分析解决方案,以及针对Amazon S3的示例代码。
Amazon Redshift十大性能调优技巧综述
在 Amazon Redshift 的协助下,客户得以顺利完成一系列业务目标,例如从加速现有数据库环境,到提取网络日志以进行大数据分析等等。
Amazon EMR在FreeWheel的应用与实践
FreeWheel大数据团队在搭建数据仓库的过程中,在EMR的使用上积累了大量的实践和运维经验,本文将从EMR实践的角度出发,讲述FreeWheel Transformer团队在搭建ETL pipeline的过程中是如何玩转EMR的,以期抛砖引玉。