AWS Big Data | 亚马逊AWS官方博客

通过 EMR Notebooks 在运行的集群上安装 Python 库

本博文将讨论如何通过 EMR Notebook 直接在正在运行的集群上安装笔记本范围的Python库。在此功能推出之前，您必须依赖Bootstrap引导操作或使用自定义 AMI 来安装预置 EMR AMI 没有预先打包的其他库。接下来，博文还将讨论如何使用 EMR Notebooks 中本地可用的预安装 Python 库来分析结果并绘制图表。此功能在您无法访问 PyPI 存储库但需要分析和可视化数据集的情况下非常有用。

EMR Notebooks: 基于 Jupyter Notebook 的托管分析环境

EMR Notebooks 旨在帮助您轻松使用 Apache Spark 试验和构建应用程序。在本博文中，我将先介绍 EMR Notebooks 具备的一些优势。然后，我将介绍它的一些功能，例如将笔记本分离并附加到不同的 EMR 集群、从笔记本内部监控 Spark 活动、使用标签控制用户权限，以及设置用户模拟来跟踪笔记本用户及其操作。要了解如何创建和使用 EMR Notebooks，您可以访问使用 Amazon EMR Notebooks 或观看 AWS 在线技术讲座网络研讨会。

使用 AWS Glue 对非原生 JDBC 数据源运行 ETL 作业

AWS Glue 是一项完全托管的ETL(提取、转换和加载) 服务，可以帮助您更轻松地准备和加载数据以进行分析。在 AWS 管理控制台上，简单点击几下，就可以创建和运行 ETL 作业。只需要将 AWS Glue 指向您的数据源，AWS Glue 就可以发现您的数据，并将相关的元数据（例如，表定义和结构）存储在 AWS Glue的数据目录中。

使用 AWS Glue 提取 Salesforce.com 中的数据并使用 Amazon Athena 进行分析

在本文中，我将向您展示如何使用 AWS Glue 提取您 Salesforce.com 账户里的数据，并将其保存到 Amazon S3。然后，将来自 Salesforce.com 的账户数据与来自单独的订单管理系统的订单数据结合起来，并使用 Amazon Athena 来生成报告。

使用 AWS Glue 和 Amazon S3 构建数据湖基础

数据湖是一种越来越受欢迎的数据存储和分析方法，可解决处理海量异构数据的难题。数据湖可让组织将所有结构化和非结构化数据存储在一个集中式存储库中。由于数据可以按原样存储，因此无需将其转换为预先定义的数据结构（区别于传统关系型数据仓库）。

使用经 EMRFS S3 优化的提交器提高 Apache Spark 写入 Apache Parquet 格式文件的性能

经 EMRFS S3 优化的提交程序是一款新的输出提交程序，可用于 Amazon EMR 5.19.0 及更高版本的 Apache Spark 作业。此提交程序使用 EMR File System (EMRFS) 可提高将 Apache Parquet 文件写入 Amazon S3 时的性能。在本文中，我们将运行性能基准测试，将此经优化的新提交程序算法与现有提交程序算法（即 FileOutputCommitter 算法版本 1 和 2）进行比较。最后，我们会讨论新提交程序的当前限制，并在可能的情况下提供解决方法。

亚马逊AWS官方博客

Category: AWS Big Data

通过 EMR Notebooks 在运行的集群上安装 Python 库

EMR Notebooks: 基于 Jupyter Notebook 的托管分析环境

使用 AWS Glue 对非原生 JDBC 数据源运行 ETL 作业

使用 AWS Glue 提取 Salesforce.com 中的数据并使用 Amazon Athena 进行分析

使用 AWS Glue 和 Amazon S3 构建数据湖基础

使用经 EMRFS S3 优化的提交器提高 Apache Spark 写入 Apache Parquet 格式文件的性能

在 Amazon EMR 上使用 S3DistCp 在 HDFS 和 Amazon S3 之间高效迁移数据的七个技巧

迁移到 Amazon EMR上基于 Amazon S3 的 Apache Hbase：指导和最佳实践

在 Amazon EMR 上成功管理 Apache Spark 应用程序内存的最佳实践

使用高级 Amazon CloudWatch 指标和 AWS Lambda 通过空闲检查和自动资源终止优化 Amazon EMR 成本

了解

资源

开发人员

帮助