[SEO 副标题]
本指引将展示如何将机器学习(ML)模型应用于物联网(IoT)传感器数据,以便在组件或系统发生故障之前预测这些故障,并推荐适当的维护步骤。航空航天制造、飞机运营以及其他制造和工业领域都使用物联网设备识别传感器输出数据中的模式,以预测防止系统故障和停机时间所需的预防性维护操作。本指引可以帮助您使用这些数据缩短生产线、飞机和其他系统的计划外停机时间。
请注意:[免责声明]
架构图

[架构图描述]
第 1 步
由多个来源生成源数据。飞机生成飞行日志,并通过飞机通信寻址和报告系统(ACARS)以无线方式传输或通过快速访问记录器(QAR)记录这些日志。维护、维修和翻修(MRO)设施生成维护记录。航空公司将延误和取消通知作为航班运营活动进行广播。
第 2 步
通过多种渠道将原始数据摄取到 Amazon Simple Storage Service(Amazon S3)存储桶中,具体情况取决于来源类型。Amazon Kinesis Data Streams 管理事件流,AWS DataSync 或 AWS Glue 管理来自数据库和文件存储器的批量传输。
第 3 步
AWS Glue 将原始数据转换到第二个 S3 存储桶中,编辑来自 QAR 记录的敏感字段,并将值和其他数据标准化。
第 4 步
AWS Lambda 将每个标准化的飞行和维护事件记录到 Amazon Aurora 数据库中。这些记录捕获了每个机尾编号和可维修组件的使用情况和故障历史记录。
第 5 步
建立数据基准之后,Lambda 将机器学习训练作业排进 Amazon SageMaker 队列中,并为每个可维修组件训练独特的预测模型。
第 6 步
建立预测模型之后,Lambda 调用这些模型,以根据每个新记录预测下一次维修的时间。SageMaker 将预测结果存储在单独的 S3 存储桶中,AWS Glue 在 Aurora 中更新相应的组件记录。
第 7 步
MRO 技术人员通过云托管的 Web 门户访问飞机和组件的维修历史记录和维护建议。Amazon API Gateway 为维护应用程序提供 API 级访问权限,Amazon QuickSight 提供预构建的控制面板。
第 8 步
Amazon Simple Notification Service(Amazon SNS)通过短信或电子邮件向技术人员发送优先维修请求,可以直接从源消息(例如 ACARS 警报消息)中识别这些请求。
第 9 步
Amazon Athena 对维护数据湖执行直接分析 SQL 查询,以便为数据科学家提供洞察。
Well-Architected 支柱

当您在云中构建系统时,AWS Well-Architected Framework 可以帮助您了解所做决策的利弊。框架的六大支柱使您能够学习设计和操作可靠、安全、高效、经济高效且可持续的系统的架构最佳实践。使用 AWS 管理控制台中免费提供的 AWS Well-Architected Tool,您可以通过回答每个支柱的一组问题,根据这些最佳实践来检查您的工作负载。
上面的架构图是按照 Well-Architected 最佳实践创建的解决方案示例。要做到完全的良好架构,您应该遵循尽可能多的 Well-Architected 最佳实践。
-
卓越运营
Amazon CloudWatch 对正在运行的系统进行持续遥测,以提醒注意 AWS Glue 提取、转换、加载(ETL)作业失败(表示飞机数据中的格式错误)或者 API Gateway 返回了错误代码(表示维护应用程序或网站的配置有问题)等情况。将 Aurora 配置为自动为飞机数据和预测数据生成备份,而且可以快速还原这些备份。
自动遥测和警报有助于识别系统何时未取得预期的业务成果,还有助于在客户检测到或报告潜在问题之前快速发现这些问题。除了 AWS 云端的服务以外,还可以在外部客户系统(例如 ACARS 系统或 QAR 处理)中检测和报告错误。使用自动数据库备份和还原,可以在出现故障或中断时更快地恢复到正常状态。
-
安全性
Amazon S3、AWS Glue 和 Kinesis Data Streams 实施双向 TLS,以便对摄取到云端的所有客户数据(例如飞机数据、航班运营数据和维护数据)进行加密。存储着所有客户数据的 Amazon S3 和 Aurora 对存储器中的所有数据进行加密。始终对客户数据进行加密,无论是传输中数据还是静态数据。这样可以确保只有经过授权的用户能够看到有关航班运营和飞机维修的敏感数据。
AWS Glue 被配置为在摄取时从数据集内消除受到隐私监管的数据。API Gateway 要求用于管理用户凭证和角色的 AWS IAM Identity Center 提供身份验证令牌,以实施用户访问控制。用户身份验证功能有助于确保安全地管理和轮换用户凭证,并按照最低权限原则,根据任务角色(例如机械师、主管、数据科学家或管理员)将用户分配给具有特定访问权限的群组。基于组和角色的访问权限管理有助于确保在所有组织中安全、一致地大规模管理用户访问权限。
-
可靠性
Amazon S3 和 Aurora 利用多可用区数据复制以及数据备份自动化和还原功能,提供非常高的数据持久性。数据持久性可确保执行维护预测时所需的全部数据都可用,并能够在出现故障时还原这些数据。
Lambda、AWS Glue、SageMaker 和 API Gateway 是完全托管式服务,可自动扩缩资源。当可用区或数据库副本丢失时,并不会导致预防性维护系统关闭;这些服务会自动将来自出现故障的资源的请求转移到运行状况良好的资源。托管式服务提供自动失效转移,无需用户干预,也不需要支付额外费用。
Kinesis Data Streams 会自动扩展数据摄取功能并限制吞吐量,以匹配下游处理速率。通过自动扩展计算资源和自动限制数据流,可以帮助确保系统能够可靠地针对与航班容量增加或大型维护记录批次上传等事件相关的流量激增情况进行调整。
-
性能效率
SageMaker 和 Aurora 向 CloudWatch 报告利用率指标,这样,您就可以监控计算资源的历史利用率。可以将 CloudWatch 警报配置为调用 Aurora 和 SageMaker 中的横向缩减或横向扩展操作,以满足不断变化的需求。例如,如果警报表明数据库实例的利用率低,数据库可能会自动消除数据库副本,或者操作员可以选择更小的数据库实例类型。
使用 CloudWatch 工具,可以实时查看系统利用率的变化,从而更深入地了解何时为预测性维护应用程序适当调整计算资源的规模。根据这些信息,可以调整计算资源,例如为 SageMaker 预测推理端点分配更大或更小的实例类型,或者分配 Amazon Redshift 数据仓库以执行维护分析。
-
成本优化
Amazon S3 提供自动化数据生命周期管理,并将不常访问的数据转移到成本更低的 Amazon S3 Glacier 存储层。这样可以在保留旧有飞行和组件记录方面节省大量的成本,这些记录可能已经过时,但仍与不常见的报告或模型训练相关。通过对旧数据进行自动分层或停用,可以降低存储成本,同时保留长时间的维修历史记录,以便能够做出准确的维护预测。
此外,Lambda 和 AWS Glue 提供了无服务器计算和数据转换,可以自动纵向扩展或缩减资源以匹配实时需求信号;您只需为用于维护预测的实际计算时间付费。完全托管式无服务器计算资源根据实时需求自动扩展资源,以帮助避免成本浪费。这很重要,因为系统利用率本质上是周期性的:来自航班运营、ACARS 和 QAR 系统的数据将在白天或旅游旺季达到峰值,并在夜间或淡季减少。
-
可持续性
Aurora 和 Athena 都支持压缩底层数据来源。压缩系统数据(例如维护日志或飞行记录)可以显著降低预测性维护系统的数据存储要求,因此减少了系统对环境造成的影响。
实施资源

提供了在 AWS 账户中进行实验和使用的详细指南。构建指南的每个阶段(包括部署、使用和清理)都将被检查,以便为部署做好准备。
示例代码为起点。它经过行业验证,是规范性但不是决定性的,可以帮助您开始。
免责声明
示例代码;软件库;命令行工具;概念验证;模板;或其他相关技术(包括由我方人员提供的任何前述项)作为 AWS 内容按照《AWS 客户协议》或您与 AWS 之间的相关书面协议(以适用者为准)向您提供。您不应将这些 AWS 内容用在您的生产账户中,或用于生产或其他关键数据。您负责根据特定质量控制规程和标准测试、保护和优化 AWS 内容,例如示例代码,以使其适合生产级应用。部署 AWS 内容可能会因创建或使用 AWS 可收费资源(例如,运行 Amazon EC2 实例或使用 Amazon S3 存储)而产生 AWS 费用。
本指南中提及第三方服务或组织并不意味着 Amazon 或 AWS 与第三方之间存在认可、赞助或从属关系。AWS 的指导是一个技术起点,您可以在部署架构时自定义与第三方服务的集成。