亚马逊AWS官方博客

Category: AWS Big Data

从 ELK 堆栈到 EKK:使用 Amazon Elasticsearch Service、Amazon Kinesis 和 Kibana 聚合和分析 Apache 日志

在本文中,我们探索了流行的开源日志聚合解决方案的AWS对应解决方案,即 ELK 堆栈(Elasticsearch、Logstash 和 Kibana):EKK 堆栈(Amazon Elasticsearch Service、Amazon Kinesis 和 Kibana)。借助 EKK 解决方案,不再需要进行重复的繁重工作,对日志聚合解决方案进行部署、管理和扩展等。使用 EKK 堆栈,您可以专注于分析日志和调试应用程序,而不是管理和扩展聚合日志的系统平台本身。

Amazon S3 对象的 Amazon Kinesis Data Firehose 自定义前缀

2019 年 2月,Amazon Web Services (AWS) 宣布了 Amazon Kinesis Data Firehose 的一项称为“Amazon S3 对象自定义前缀”新功能。它允许客户为传输数据记录的 Amazon S3 对象的前缀指定自定义表达式。 之前,Kinesis Data Firehose 仅允许指定部分文字前缀。新支持的前缀可以与静态日期格式的前缀结合使用,以创建固定格式的输出文件夹。

Amazon Kinesis 更新& Amazon Elasticsearch Service 集成,分片级指标和基于时间的迭代器

Amazon Kinesis 让您在云中轻松实现流数据处理。Amazon Kinesis 平台由三种不同的服务组成:Kinesis Streams 允许开发人员构建自己的流处理应用程序;Kinesis Firehose 简化了将流数据加载到 AWS 以进行存储和分析的过程;Kinesis Analytics 支持分析人员使用标准 SQL 查询分析流数据。

3M Health Information Systems 如何使用 Amazon Redshift 构建医疗保健数据报告工具

3M HIS 正在进行一项计划,以将安装在本地或其他云托管提供商处的应用程序迁移到 Amazon Web Services (AWS) 中。3M HIS 已开始迁移到 AWS 中,以利用计算、存储和网络弹性。我们希望建立在一个坚实的基础上,从而帮助我们把更多的精力放在为客户创造价值上,同时也能进行扩展,以支持我们在未来几年预期的业务增长

基于 Amazon DynamoDB 流对 Amazon DynamoDB 表进行跨区复制实践

目前在中国境内区域(北京区域和宁夏区域),Amazon DynamoDB 暂不支持全局表。因此无法通过较便捷的方法实现 DynamoDB 表的跨区复制。另一方面,在许多应用场景以及客户具体实践中,对数据跨区复制的需求是旺盛和迫切的。最直观的一个好处是,跨区复制可以有效提高数据的高可用性,使得当某一区域隔离或者降级时,可以及时快速切换至备份区域,确保系统平稳运行,把干扰降至最低。因此至少在全局表功能推出以前,本文探索的复制技术可以在某种程度上弥补缺失。

5分钟快速上手 – 通过EMR引导脚本部署Alluxio并运行Spark任务

Apache Hadoop和Spark给大数据计算带来了重大革新,而AWS EMR为按需运行集群以处理计算工作负载提供了很好的选择,它管理各种Hadoop服务的部署,并提供挂钩对这些服务进行自定义开发。Alluxio是一个开源的基于内存的分布式存储系统,现在成为开源社区中成长最快的大数据开源项目之一。Alluxio可以运行在EMR上,在EMRFS之上当前提供功能特性。 除了缓存带来的性能优势之外,Alluxio还使用户能够针对on-premise存储或甚至不同的云提供商存储运行计算工作负载。在本文中,我们将通过AWS CLI快速通过Alluxio引导EMR,并运行PySpark进行文档内容筛选。

入门:Big Data on AWS 培训资源 | AWS 大数据博客

尝试新事物往往是一项艰巨的任务。要从哪里着手? 有哪些资源有助于引导您进入自己不熟悉的领域? 如需额外的帮助时,您可以向谁求助?
无论您是刚刚注册了第一个 AWS 账户,还是已使用我们的服务有段时间了,为了满足客户不断变化的需求,我们的服务也在不断发展,因此总会有一些新的内容需要学习。为了帮助您在使用 AWS 构建内容时准备充分以取得成功,我们在 AWS 站点上汇总了以下有关大数据培训的快速参考指南和资源。

在具有 750TB 数据的 Amazon Redshift 上运行 Amazon Payments 分析 | AWS 大数据博客

Amazon Payments 数据工程团队负责进行数据提取、转换和存储超过750TB的不断增长的数据集,该团队为全球超过 300 多个企业客户提供这些服务。这些客户包括产品经理、市场营销经理、项目经理、数据科学家、业务分析师和软件开发工程师。他们利用这些数据进行有计划的和即席查询,从而帮助他们做出正确的商业决策。这些数据还用于构建每周、每月和每季度的业务评估指标,供领导团队进行审核。