视频:Amazon EMR 技术简介(AWS re:Invent,2015 年 10 月,总长 50 分钟)
Amazon EMR 可提供一种托管框架,能够以便捷、经济高效、安全的方式运行数据处理框架,例如 AWS 上的 Apache Hadoop、Apache Spark 和 Presto。通过这次演示,您将了解在云中运行这些框架以及 Amazon EMR 提供的功能集背后的主要设计原则。我们将讨论解耦计算和存储,通过策略利用云提供的规模和并行性,同时降低成本这几点优势。另外,AOL 的高级软件工程师还会向您讲解他们如何利用这些策略将其 Hadoop 工作负载迁移到 AWS 云,以及在此过程中汲取了哪些经验教训。
视频:Amazon EMR 深入了解及最佳实践(AWS re:Invent,2015 年 10 月,总长 49 分钟)
通过这次演示,我们将向您介绍 Amazon EMR 的设计模式,例如使用 Amazon S3 而不是 HDFS,同时利用长时间运行和短时间运行的集群,以及其他 Amazon EMR 架构最佳实践。我们将讨论如何动态增加或减小集群的规模,并向您介绍调整集群的方法。我们还会分享使 Amazon EMR 集群保持经济高效的最佳实践。最后,我们会深入讲解一部分最近推出的功能,以便您了解最新功能。
- 开发数据处理应用。您可以使用 Java、Hive(类似 SQL 语言)、Pig(数据处理语言)、Cascading、Ruby、Perl、Python、R、PHP、C++ 或者 Node.js。 Amazon EMR 提供代码示例和教程,帮助您快速开始使用并正常运行。
- 上传您的应用和数据到 Amazon S3。如果您拥有大量上传数据,可以考虑使用 AWS Import/Export(使用物理存储设备上传数据)或者 AWS Direct Connect(建立从数据中心到 AWS 的专用网络连接)。 如果您愿意,还可以直接向正在运行的集群写入数据。
- 配置和启动您的集群。使用AWS 管理控制台、AWS CLI、SDK或API,指定要在集群中预配置的 EC2 实例数、要使用的实例种类(标准、内存增强型、CPU 增强型、高 I/O 等等)、要安装的应用程序(Hive、Pig、HBase 等等)以及应用程序和数据的位置。您可以使用引导操作安装其他软件或者更改默认设置。
- 监控集群(可选)。您可以使用管理控制台、命令行界面、软件开发工具包或者 API 监控集群的运行状况和进度。 EMR 与 Amazon CloudWatch 集成,可用于监控/警报,并支持流行的监控工具 Ganglia。 您可以随时根据数据的处理情况给集群添加/移除容量。 对于故障诊断,您可以使用控制台的简易调试 GUI。
- 检索输出。检索集群上的 Amazon S3 或者 HDFS 中的输出。 使用工具(如 Tableau 和 MicroStrategy)直观显示数据。 Amazon EMR 会在处理完成时自动终止集群。 另一种方法是,让集群处于运行状态并给群集增加工作量。
您在构建概念证明或进行 EMR 应用程序优化时是否需要协助?AWS 拥有专精 EMR 的全球支持团队。如果您有兴趣了解更多短期(2 至 6 周)付费支持业务的信息,请联系我们。
Scale Unlimited 公司提供定制的现场培训,适合于需要快速了解如何使用 EMR 和其他大数据技术的公司。 若要了解详细信息,请单击此处。