亚马逊AWS官方博客

Tag: Amazon Simple Storage Services (S3)

使用经 EMRFS S3 优化的提交器提高 Apache Spark 写入 Apache Parquet 格式文件的性能

经 EMRFS S3 优化的提交程序是一款新的输出提交程序,可用于 Amazon EMR 5.19.0 及更高版本的 Apache Spark 作业。此提交程序使用 EMR File System (EMRFS) 可提高将 Apache Parquet 文件写入 Amazon S3 时的性能。在本文中,我们将运行性能基准测试,将此经优化的新提交程序算法与现有提交程序算法(即 FileOutputCommitter 算法版本 1 和 2)进行比较。最后,我们会讨论新提交程序的当前限制,并在可能的情况下提供解决方法。

Read More

在 Amazon EMR 上使用 S3DistCp 在 HDFS 和 Amazon S3 之间高效迁移数据的七个技巧

对于 Amazon EMR 客户来说,尽管在 Amazon S3 中直接处理数据早已稀松平常,但有时您可能需要将数据从 S3 复制到 Amazon EMR 集群上的 Hadoop 分布式文件系统 (HDFS) 中。此外,您的某个使用案例还可能需要在存储桶或区域之间迁移大量数据。在这类使用案例中,简单的复制操作对大型数据集来说显然不适用。Amazon EMR 可以提供这方面的帮助。它提供了一个实用程序 S3distCp,用以帮助将数据从 S3 迁移到其他 S3 位置或集群上的 HDFS。

Read More

Amazon Kinesis 更新& Amazon Elasticsearch Service 集成,分片级指标和基于时间的迭代器

Amazon Kinesis 让您在云中轻松实现流数据处理。Amazon Kinesis 平台由三种不同的服务组成:Kinesis Streams 允许开发人员构建自己的流处理应用程序;Kinesis Firehose 简化了将流数据加载到 AWS 以进行存储和分析的过程;Kinesis Analytics 支持分析人员使用标准 SQL 查询分析流数据。

Read More

使用 Amazon CloudFront 交付应用程序的动态内容 — 入门模板

在本博文中,我们将演示如何使用 CloudFront 来通过单个分发同时交付静态内容和动态内容,满足动态和静态网站以及 Web 应用程序的需要。您将会学习如何通过 CloudFront 连接到自定义的动态内容源(在此例中为一个 Amazon EC2 Web 服务器)和用于静态内容的 Amazon S3 存储桶,从而实现这一目标。

Read More