亚马逊AWS官方博客

AWS Localization

Author: AWS Localization

使用 AWS Lambda 和 AWS Greengrass 在边缘站点进行协议转换

在工业自动化领域,您会发现设备和 PLC 供应商使用了数十种协议:OPC-UA、Modbus TCP、串行协议等等。事实上,往往仅在一个工厂,就会很容易发现有不同的设备,却执行相同的功能去完成相似的工序。
AWS Greengrass 通过远程部署来帮助企业减少更改协议时的运行开销。AWS Greengrass 使用 AWS Lambda,借助这种服务可以在云中对设备进行编程。例如,企业可以将 AWS Lambda 函数部署到本地设备以添加额外的传感器或更改供应商设备。通过云中编程并部署到本地,缩短了物联网应用程序的开发和维护周期。
在本博文中,我们将演示如何从常见的工业协议(例如 Modbus TCP)来转换数据的例子。其他协议的转换也可以用同样的方法。

Read More

在 Amazon EMR 上成功管理 Apache Spark 应用程序内存的最佳实践

在大数据领域,一个常见的用例是对来自各种数据源的大量数据执行提取、转换 (清洗转换) 和数据分析。然后,通常是分析数据以获取洞察。处理如此庞大的数据最常用的基于云的解决方案之一是 Amazon EMR。Amazon EMR 是一个托管集群平台,可简化在 AWS 上运行大数据框架的过程,如 Apache Hadoop 和 Apache Spark。Amazon EMR 使组织能够在几分钟内启动具有多个实例的集群。它还让您能够通过并行处理来处理各种数据工程和商业智能工作负载。这样做的话,您可以在很大程度上减少创建和扩展集群所涉及的数据处理时间、工作量和成本。本博文旨在通过详细介绍最佳实践来帮助您防范 Amazon EMR 上的 Apache Spark 出现内存相关的问题。

Read More

利用AWS Glue 自动触发数据目录和ETL job 构建自动化无服务器数据湖

如今,海量数据从四面八方纷涌而来,比如来自 IoT 传感器、应用程序日志和点击流等资源的非结构化数据,以及来自事务处理应用程序、关系数据库和电子表格的结构化数据。数据已成为每家企业的重要组成部分。为了快速获取数据中的价值,保持单一事实来源(single source of truth),并且自动执行从数据提取到转换和分析的整个pipeline的需求应运而生。

Read More

Amazon EMR 5.24 中的 Apache Spark 性能升级 — 性能比 Amazon EMR 5.16 最高提升 13 倍 | AWS 大数据博客

Amazon EMR 发行版 5.24.0 包含了多项 Spark 优化,提升了查询性能。为了评估性能的提升,我们使用了 3TB 级的 TPC-DS 基准查询,在一个 6 节点 c4.8xlarge EMR 集群上运行,数据存储在 Amazon S3 中。我们观察到,在以类似的配置运行时,EMR 5.24 上的查询性能要比 EMR 5.16 高 13 倍。

Read More

使用 AWS IoT 服务进行资产状况监控

工业物联网 (IIoT) 为每个行业提供了一个无与伦比的机会来应对核心业务挑战,例如减少停机时间、提高安全性、增加系统输出、降低运营成本,以及创建创新服务和业务模型。在本篇博文中,我将向您展示如何使用 AWS IoT 服务构建资产状况监控解决方案,捕获物理资产中的数据,以便您了解其状态和性能并采取相应措施。

Read More

使用 AWS IoT Core 即时预配置

在之前的一篇有关设备证书即时注册的博文中,我们讨论了如何使用即时预配置 (JITR) 激活设备证书及如何在自动注册设备后立即将策略附加到证书中。JITR 可触发注册事件。您必须创建 AWS IoT Core 规则来侦听注册事件主题,并且当确定注册事件时,会在机载设备中执行您的 Lambda 代码。
在此博文中,我将向您展示如何使用新功能即时预配置 (JITP) 来预置资源。JITP 使您可以登记自己的设备,无需创建 AWS IoT Core 规则和 Lambda 函数。您需要将预置模板与 IAM 角色一起附加到 CA 证书中。JITP 将基于预置模板创建、更新和附加资源。该角色将被输入,以授予 AWS IoT 权限来调用代表您进行预置所需的 API。

Read More

使用 Amazon Kinesis Data Firehose 和 Amazon EMR 中的 Apache Spark 优化流式数据处理

对于大多数公司而言,处理不断增加的数据量并整合新数据源充满挑战。 通常,AWS 客户会收到来自各种连接设备和传感器的海量消息,这些消息必须先经过有效注入和处理,之后才能执行进一步分析。 通常 Amazon S3 是适合保存所有类型数据的地点。 但是,数据在 Amazon S3 中的存储方式会对后续数据处理的效率和成本产生重大影响。 具体而言,如果 Apache Spark 处理的是大量小文件而不是较少的大文件,则可能会因文件操作量大而承受巨大负担。 在这些文件中,用于打开每个文件、读取元数据信息和关闭文件都会占用几毫秒时间。大量文件操作占用的总时间较多,这会导致处理缓慢。这篇博文将介绍如何使用 Amazon Kinesis Data Firehose 将传送到 Amazon S3 的大量小消息合并为较大消息。 这样可以加快运行 EMR 服务 中运行的 Spark 的的处理速度

Read More

使用高级 Amazon CloudWatch 指标和 AWS Lambda 通过空闲检查和自动资源终止优化 Amazon EMR 成本

许多客户在开发环境中使用 Amazon EMR 运行大数据工作负载,例如 Apache Spark 和 Apache Hive 查询。数据分析师和数据科学家经常使用这些类型的集群,并将它们称为分析 EMR 集群。用户常常会忘记在完成工作后终止这些集群。这将导致集群空闲运行,进而增加不必要的成本。
在这篇博文中,我们将提出一种解决方案来减少这方面的成本。我们实施了一个 bash 脚本,将其安装在 EMR 集群的主节点上,并将该脚本计划为每 5 分钟运行一次。该脚本可监控集群并每 5 分钟向 CloudWatch 发送一次自定义指标 EMR-INUSE(0=非活动;1=活动)。如果 CloudWatch 在一些预定义数据点收到 0(非活动),则将触发警报,然后执行终止集群的 AWS Lambda 函数。

Read More

通过 Amazon EMR 重新配置动态修改集群

如果您是使用长期运行的 Amazon EMR 集群的开发人员或数据科学家,您将面临快速变化的工作负载。这些变化通常需要不同的应用程序配置才能在集群上以最佳方式运行。
通过重新配置功能,现在可以更改正在运行的 EMR 集群上的配置。从 EMR 版本 emr-5.21.0 开始,该功能允许您在不创建新集群或通过 SSH 手动连接到每个节点的情况下修改配置。

Read More