AWS Big Data | 亚马逊AWS官方博客

使用 Amazon Athena 分析 S3 中的数据

在本博文中，我们演示了如何使用 Athena 来处理来自 Elastic Load Balancer 的日志（预先定义好的文本格式）。我们将演示如何创建表，按照 Athena 使用的格式将数据分区，然后转换为 Parquet 并比较查询性能。

从 ELK 堆栈到 EKK：使用 Amazon Elasticsearch Service、Amazon Kinesis 和 Kibana 聚合和分析 Apache 日志

在本文中，我们探索了流行的开源日志聚合解决方案的AWS对应解决方案，即 ELK 堆栈（Elasticsearch、Logstash 和 Kibana）：EKK 堆栈（Amazon Elasticsearch Service、Amazon Kinesis 和 Kibana）。借助 EKK 解决方案，不再需要进行重复的繁重工作，对日志聚合解决方案进行部署、管理和扩展等。使用 EKK 堆栈，您可以专注于分析日志和调试应用程序，而不是管理和扩展聚合日志的系统平台本身。

Amazon S3 对象的 Amazon Kinesis Data Firehose 自定义前缀

2019 年 2月，Amazon Web Services (AWS) 宣布了 Amazon Kinesis Data Firehose 的一项称为“Amazon S3 对象自定义前缀”新功能。它允许客户为传输数据记录的 Amazon S3 对象的前缀指定自定义表达式。之前，Kinesis Data Firehose 仅允许指定部分文字前缀。新支持的前缀可以与静态日期格式的前缀结合使用，以创建固定格式的输出文件夹。

Amazon Kinesis 更新& Amazon Elasticsearch Service 集成，分片级指标和基于时间的迭代器

Amazon Kinesis 让您在云中轻松实现流数据处理。Amazon Kinesis 平台由三种不同的服务组成：Kinesis Streams 允许开发人员构建自己的流处理应用程序；Kinesis Firehose 简化了将流数据加载到 AWS 以进行存储和分析的过程；Kinesis Analytics 支持分析人员使用标准 SQL 查询分析流数据。

3M Health Information Systems 如何使用 Amazon Redshift 构建医疗保健数据报告工具

3M HIS 正在进行一项计划，以将安装在本地或其他云托管提供商处的应用程序迁移到 Amazon Web Services (AWS) 中。3M HIS 已开始迁移到 AWS 中，以利用计算、存储和网络弹性。我们希望建立在一个坚实的基础上，从而帮助我们把更多的精力放在为客户创造价值上，同时也能进行扩展，以支持我们在未来几年预期的业务增长

基于 Amazon DynamoDB 流对 Amazon DynamoDB 表进行跨区复制实践

目前在中国境内区域（北京区域和宁夏区域），Amazon DynamoDB 暂不支持全局表。因此无法通过较便捷的方法实现 DynamoDB 表的跨区复制。另一方面，在许多应用场景以及客户具体实践中，对数据跨区复制的需求是旺盛和迫切的。最直观的一个好处是，跨区复制可以有效提高数据的高可用性，使得当某一区域隔离或者降级时，可以及时快速切换至备份区域，确保系统平稳运行，把干扰降至最低。因此至少在全局表功能推出以前，本文探索的复制技术可以在某种程度上弥补缺失。

在 Amazon EMR 中利用 Alluxio 的分层存储架构

在本文中，我们将分享由于HDFS和S3的不同特点带来的挑战，基于对象存储的分析型工作负载的期望，以及Alluxio与EMR如何解决这些挑战，实现这些期望。

5分钟快速上手 – 通过EMR引导脚本部署Alluxio并运行Spark任务

Apache Hadoop和Spark给大数据计算带来了重大革新，而AWS EMR为按需运行集群以处理计算工作负载提供了很好的选择，它管理各种Hadoop服务的部署，并提供挂钩对这些服务进行自定义开发。Alluxio是一个开源的基于内存的分布式存储系统，现在成为开源社区中成长最快的大数据开源项目之一。Alluxio可以运行在EMR上，在EMRFS之上当前提供功能特性。除了缓存带来的性能优势之外，Alluxio还使用户能够针对on-premise存储或甚至不同的云提供商存储运行计算工作负载。在本文中，我们将通过AWS CLI快速通过Alluxio引导EMR，并运行PySpark进行文档内容筛选。

入门：Big Data on AWS 培训资源 | AWS 大数据博客

尝试新事物往往是一项艰巨的任务。要从哪里着手？有哪些资源有助于引导您进入自己不熟悉的领域？如需额外的帮助时，您可以向谁求助？
无论您是刚刚注册了第一个 AWS 账户，还是已使用我们的服务有段时间了，为了满足客户不断变化的需求，我们的服务也在不断发展，因此总会有一些新的内容需要学习。为了帮助您在使用 AWS 构建内容时准备充分以取得成功，我们在 AWS 站点上汇总了以下有关大数据培训的快速参考指南和资源。

在具有 750TB 数据的 Amazon Redshift 上运行 Amazon Payments 分析 | AWS 大数据博客

Amazon Payments 数据工程团队负责进行数据提取、转换和存储超过750TB的不断增长的数据集，该团队为全球超过 300 多个企业客户提供这些服务。这些客户包括产品经理、市场营销经理、项目经理、数据科学家、业务分析师和软件开发工程师。他们利用这些数据进行有计划的和即席查询，从而帮助他们做出正确的商业决策。这些数据还用于构建每周、每月和每季度的业务评估指标，供领导团队进行审核。

选择您的 Cookie 首选项

亚马逊AWS官方博客

Category: AWS Big Data