亚马逊AWS官方博客
Category: Analytics
使用 AWS Lake Formation 配合 Amazon EMR 控制数据访问与权限
数据的使用在数据格式和规模两个方面已经取得了快速的发展。对不同技术(关系数据库、NoSQL、图数据库、明文文件等)进行管理则会显著增加运营开销。随着竞争烈度的提升,数据规模也将随业务推进而飞速发展,带来更大的计算与存储资源压力。这一切,都迫使组织需求通往更高敏捷性与速度水平的道路。
使用运行在 Amazon EC2 G4 实例上的 Amazon EMR,提升 RAPIDS XGBoost 性能并降低运营成本
数据的使用在数据格式和规模两个方面已经取得了快速的发展。对不同技术(关系数据库、NoSQL、图数据库、明文文件等)进行管理则会显著增加运营开销。随着竞争烈度的提升,数据规模也将随业务推进而飞速发展,带来更大的计算与存储资源压力。这一切,都迫使组织需求通往更高敏捷性与速度水平的道路。
在 Amazon SageMaker Service 中使用 R 绘制统计过程控制图(SPC)实现流程稳定性预警
在实际的运营场景中,我们可以通过统计过程控制图(SPC:Statistical Process Control Chart)监控运营过程的稳定性,对过程存在的异常因素进行预警,以实现故障减少,用户体验提升和运营成本降低的目的。本文将介绍如何在Amazon SageMaker Service中,通过R语言来绘制统计过程控制图,从而可视化监控运营过程数据。
高盛如何通过 AWS PrivateLink 构建起接入 Amazon MSK 集群的跨账户连接体系
本文介绍了高盛集团旗下交易银行团队如何通过TxB微账户策略建立起应用程序隔离边界,又如何使用AWS PrivateLink对策略做出进一步补充。此外,本文还讨论了TxB团队如何跨各微账户建立起与MSK集群的网络连接,又如何通过Amazon MSK在满足核心安全要求的同时摆脱沉重的运营负担。在建立Amazon MSK环境时,大家不妨参考文章中介绍的构建方法。
Verizon Media Group 如何从本地 Apache Hadoop 与 Spark 迁移至 Amazon EMR
我们的大数据管道已经在Amazon EMR上运行超过一年,且所有数据都存储在S3当中。在特定时段中,我们实时处理管道的峰值速率高达每秒200多万个事件,而从事件出现到汇总结果更新,总体处理延迟仅为1分钟。Amazon EMR为我们带来出色的灵活性,帮助我们在几分钟之内快速完成集群的清理与重新创建。我们对Amazon EMR平台的整体稳定性非常满意,也将继续与AWS一道探索EMR的进一步改善之道。
使用 Route 53 解析器查询日志记录您的 VPC DNS 查询
Amazon Route 53 团队刚刚推出了一项名为 Route 53 解析器查询日志的新功能,该功能可让您记录由 Amazon Virtual Private Cloud 内的资源发出的所有 DNS 查询。无论是 Amazon Elastic Compute Cloud (EC2) 实例、AWS Lambda 函数还是容器,如果它位于您的 Virtual Private Cloud 中并进行 DNS 查询,则此功能将记录它;然后您可以探索并更好地了解应用程序的运行情况。
在 Amazon EMR 上监控 Spark Streaming 应用程序
如何监控和调优Spark Streaming实时应用程序是一项非常挑战的工作,您需要随时应对环境中发生的种种变化。另外,还需要监控源数据流和作业的输出,从而可以了解全面的情况。Spark是一套非常灵活并且丰富的框架,它能够提供多种方式来对任务进行监控。本文主要探讨了其中一种有效的方法,使用SparkListeners并将提取到的指标与CloudWatch指标相集成,从而实现监控Spark Streaming微批处理程序的性能。
使用应用程序负载均衡器在私有子网内安全访问 Amazon EMR Web 接口
现在,大家可以将应用程序负载均衡器(ALB)作为HTTPS代理使用,通过互联网访问EMR Web接口。通过这种方式,避免了使用堡垒机创建SSH隧道。这种方法极大简化了对EMR Web接口的访问。
在 Amazon EMR 上使用 Dr. Elephant 与 Sparklens 实现 Hadoop 与 Spark 性能调优
本文介绍了如何在Amazon EMR集群上启动Dr. Elephant与Sparklens工具,以及如何尝试针对计算与内存密集型作业做出优化与性能调整。Dr. Elephant与Sparklens可以帮助大家提高数据集并行性与计算节点利用率,借此加快作业执行速度并提高内存管理效率。凭借工作负载调优与集群并行性控制,这两款工具还能帮助大家克服Spark与Hive作业处理中常见的各类挑战。
如何使用 Apache Spark 与 Amazon EMR 改善 FRTB 的内部模型方法实现
随着金融机构积极拥抱FRTB,AWS提供的定性式解决方案将帮助更多组织满足愈发严苛的业务需求。凭借着AWS出色的弹性与速度表现,金融机构可以更快地响应新的、更复杂的法规要求。我们参考实例展示了金融机构如何实际使用AWS计算、存储以及其他服务资源。