亚马逊AWS官方博客

Tag: Amazon Simple Storage Services (S3)

从 HDFS 迁移到基于 Amazon S3 的 Apache HBase 的技巧

从 Amazon EMR 5.2.0 开始,您可以选择基于 Amazon S3 上的 Apache HBase。在 S3 上运行 HBase 可为您额外带来多项优势,包括降低成本、数据持久性和更轻松地进行扩展。
HBase 提供了多个可用于迁移和备份 HBase 表的选项。迁移到 S3 上的 HBase 的步骤与适用于 Apache Hadoop 分布式文件系统 (HDFS) 上的 HBase 的步骤类似。但是,如果您知道一些细微差别和一些“技巧”,则迁移会更容易。
在本文中,我将介绍如何使用一些常用的 HBase 迁移选项开始使用 S3 上的 HBase。

Read More

使用经 EMRFS S3 优化的提交器提高 Apache Spark 写入 Apache Parquet 格式文件的性能

经 EMRFS S3 优化的提交程序是一款新的输出提交程序,可用于 Amazon EMR 5.19.0 及更高版本的 Apache Spark 作业。此提交程序使用 EMR File System (EMRFS) 可提高将 Apache Parquet 文件写入 Amazon S3 时的性能。在本文中,我们将运行性能基准测试,将此经优化的新提交程序算法与现有提交程序算法(即 FileOutputCommitter 算法版本 1 和 2)进行比较。最后,我们会讨论新提交程序的当前限制,并在可能的情况下提供解决方法。

Read More

在 Amazon EMR 上使用 S3DistCp 在 HDFS 和 Amazon S3 之间高效迁移数据的七个技巧

对于 Amazon EMR 客户来说,尽管在 Amazon S3 中直接处理数据早已稀松平常,但有时您可能需要将数据从 S3 复制到 Amazon EMR 集群上的 Hadoop 分布式文件系统 (HDFS) 中。此外,您的某个使用案例还可能需要在存储桶或区域之间迁移大量数据。在这类使用案例中,简单的复制操作对大型数据集来说显然不适用。Amazon EMR 可以提供这方面的帮助。它提供了一个实用程序 S3distCp,用以帮助将数据从 S3 迁移到其他 S3 位置或集群上的 HDFS。

Read More

Amazon Kinesis 更新& Amazon Elasticsearch Service 集成,分片级指标和基于时间的迭代器

Amazon Kinesis 让您在云中轻松实现流数据处理。Amazon Kinesis 平台由三种不同的服务组成:Kinesis Streams 允许开发人员构建自己的流处理应用程序;Kinesis Firehose 简化了将流数据加载到 AWS 以进行存储和分析的过程;Kinesis Analytics 支持分析人员使用标准 SQL 查询分析流数据。

Read More

使用 Amazon CloudFront 交付应用程序的动态内容 — 入门模板

在本博文中,我们将演示如何使用 CloudFront 来通过单个分发同时交付静态内容和动态内容,满足动态和静态网站以及 Web 应用程序的需要。您将会学习如何通过 CloudFront 连接到自定义的动态内容源(在此例中为一个 Amazon EC2 Web 服务器)和用于静态内容的 Amazon S3 存储桶,从而实现这一目标。

Read More