视频:Amazon EMR 技术简介(AWS re:Invent,2015 年 10 月,总长 50 分钟)

Amazon EMR 可提供一种托管框架,能够以便捷、经济高效、安全的方式运行数据处理框架,例如 AWS 上的 Apache Hadoop、Apache Spark 和 Presto。通过这次演示,您将了解在云中运行这些框架以及 Amazon EMR 提供的功能集背后的主要设计原则。我们将讨论解耦计算和存储,通过策略利用云提供的规模和并行性,同时降低成本这几点优势。另外,AOL 的高级软件工程师还会向您讲解他们如何利用这些策略将其 Hadoop 工作负载迁移到 AWS 云,以及在此过程中汲取了哪些经验教训。

 

视频:Amazon EMR 深入了解及最佳实践(AWS re:Invent,2015 年 10 月,总长 49 分钟)

通过这次演示,我们将向您介绍 Amazon EMR 的设计模式,例如使用 Amazon S3 而不是 HDFS,同时利用长时间运行和短时间运行的集群,以及其他 Amazon EMR 架构最佳实践。我们将讨论如何动态增加或减小集群的规模,并向您介绍调整集群的方法。我们还会分享使 Amazon EMR 集群保持经济高效的最佳实践。最后,我们会深入讲解一部分最近推出的功能,以便您了解最新功能。

  1. 开发数据处理应用。您可以使用 Java、Hive(类似 SQL 语言)、Pig(数据处理语言)、Cascading、Ruby、Perl、Python、R、PHP、C++ 或者 Node.js。 Amazon EMR 提供代码示例和教程,帮助您快速开始使用并正常运行。
  2. 上传您的应用和数据到 Amazon S3。如果您拥有大量上传数据,可以考虑使用 AWS Import/Export(使用物理存储设备上传数据)或者 AWS Direct Connect(建立从数据中心到 AWS 的专用网络连接)。 如果您愿意,还可以直接向正在运行的集群写入数据。
  3. 配置和启动您的集群。使用AWS 管理控制台AWS CLISDKAPI,指定要在集群中预配置的 EC2 实例数、要使用的实例种类(标准、内存增强型、CPU 增强型、高 I/O 等等)、要安装的应用程序(Hive、Pig、HBase 等等)以及应用程序和数据的位置。您可以使用引导操作安装其他软件或者更改默认设置。
  4. 监控集群(可选)您可以使用管理控制台、命令行界面、软件开发工具包或者 API 监控集群的运行状况和进度。 EMR 与 Amazon CloudWatch 集成,可用于监控/警报,并支持流行的监控工具 Ganglia。 您可以随时根据数据的处理情况给集群添加/移除容量。 对于故障诊断,您可以使用控制台的简易调试 GUI
  5. 检索输出。检索集群上的 Amazon S3 或者 HDFS 中的输出。 使用工具(如 Tableau 和 MicroStrategy)直观显示数据。 Amazon EMR 会在处理完成时自动终止集群。 另一种方法是,让集群处于运行状态并给群集增加工作量。

您是否已准备好启动首个集群?

单击此处以通过 Amazon EMR 管理控制台启动集群。如果您要运行带有示例数据的示例应用程序,请在“Create Cluster”页面上转到“Advanced cluster configuration”,然后单击右上方灰色的“Configure Sample Application”按钮。

要获取分步式书面教程,请单击此处。该教程将向您演示如何创建一个可以算出文本文件中字词出现频率的集群。

开始使用 Amazon EMR

创建免费账户

需要帮助?询问我们!

您在构建概念证明或进行 EMR 应用程序优化时是否需要协助?AWS 拥有专精 EMR 的全球支持团队。如果您有兴趣了解更多短期(2 至 6 周)付费支持业务的信息,请联系我们

AWS 课程中的大数据相关内容旨在教会您使用 Amazon Web Services 处理大数据工作负载方面的实际经验。AWS 将向您展示如何使用范围广泛的 Hadoop 工具生态系统(如 Pig 和 Hive)运行 Amazon EMR 作业来处理数据。另外,AWS 还会教您如何使用 Amazon DynamoDB 和 Amazon Redshift 在云中创建大数据环境、使您了解 Amazon Kinesis 的优势,以及利用最佳实践来设计大数据环境,以用于分析目的、实现安全性和成本效益。要了解关于大数据课程的详细信息,请点击这里

如果您计划每天处理超过 1 TB 的数据,您可能适合参加 EMR 训练营,它是一种现场概念验证和知识传授研讨会,将有专门研究 EMR 的 AWS 解决方案架构师参与。若要了解详细信息,请单击此处联系我们

Scale Unlimited 公司提供定制的现场培训,适合于需要快速了解如何使用 EMR 和其他大数据技术的公司。 若要了解详细信息,请单击此处