如何使用 EC2Rescue 来排查我的 Amazon EC2 Windows 实例的问题?

上次更新时间:2020 年 11 月 17 日

我的 Amazon Elastic Compute Cloud (Amazon EC2) Windows 实例遇到以下问题之一:

  • 我无法连接到我的 Amazon EC2 Windows 实例。
  • 我遇到了启动问题。
  • 我需要执行还原操作。
  • 我需要解决常见问题,例如磁盘签名冲突。
  • 我需要收集操作系统 (OS) 日志以进行分析和故障排除。

如何使用 EC2Rescue 解决这些问题?

简短描述

适用于 EC2 Windows 的 EC2Rescue 是一种故障排除工具,您可以在 Amazon EC2 Windows Server 实例上运行。使用该工具排查操作系统级的问题,并收集高级日志和配置文件以进一步分析。下面是 EC2Rescue 可以解决的一些常见问题:

  • 防火墙、远程桌面协议 (RDP) 或网络接口配置导致的实例连接问题。
  • 蓝屏或停止错误、引导循环或注册表损坏导致的操作系统启动问题。
  • 可能需要高级日志分析和排查的任何问题。

注意:您可以抓取 Amazon EC2 Windows 实例的屏幕截图以确定实例的状态。

您可以使用 AWS Systems Manager AWSSupport-ExecuteEC2Rescue 自动化文档手动或自动运行 EC2Rescue。

系统要求

EC2Rescue 需要具备以下条件的 Amazon EC2 Windows 实例:

  • 在 Windows Server 2008 R2 或更高版本上运行
  • 已安装 .NET Framework 3.5 SPI 或更高版本
  • 可以通过 RDP 连接访问

注意:EC2Rescue 仅在 Windows Server 2008 R2 或更高版本上运行,但该工具也可以分析 Windows Server 2008 或更高版本的脱机卷。

解决方法

首先,选择您要使用 Systems Manager AWSSupport-ExecuteEC2Rescue 自动化文档,还是手动运行 EC2Rescue。然后,针对所选方法采取下面的步骤。

使用 Systems Manager AWSSupport-ExecuteEC2Rescue 自动化文档

AWSSupport-ExecuteEC2Rescue 自动化文档将 AWS Lambda 函数与 Systems Manager 和 AWS CloudFormation 操作相结合,以自动完成 EC2Rescue 步骤。有关文档的工作原理、权限要求和使用该工具的前提条件的更多信息,请参阅在无法访问的实例上运行 EC2Rescue 工具

重要提示:自动化工作流程会停止实例。如果此实例具有实例存储卷,当实例停止时,该卷上的任何数据都将丢失。如果您没有使用弹性 IP 地址,当实例停止时,将会释放公有 IP 地址。

准备就绪后,运行 Systems Manager AWSSupport-ExecuteEC2Rescue 自动化文档

手动运行 EC2Rescue

您可以使用以下方法之一手动运行 EC2Rescue:

首先,在您的 Amazon EC2 Windows 实例上下载 EC2Rescue。

注意:AWSSupport-RunEC2RescueForWindowsTool Systems Manager Run Command 方法为您下载并验证适用于 Windows Server 的 EC2Rescue。

然后,使用 EC2Rescue 排查 Amazon EC2 Windows Server 实例问题:

  • 实例连接问题:使用 Offline instance(脱机实例)模式下的 Diagnose and Rescue(诊断和救援)功能解决。
  • 操作系统启动问题:在 Offline instance(脱机实例)模式下使用 Restore(还原)功能。
  • 高级日志和故障排除:在 Current instance(当前实例)模式或 Offline instance(脱机实例)模式下使用 Capture logs(捕获日志)功能。

当前实例模式

此模式分析当前运行 EC2Rescue 的实例。当前实例模式是只读模式,不会修改当前实例,所以此模式不会直接修复任何问题。使用当前实例模式收集系统信息和日志以便进行分析或提交给系统管理员或 AWS Support。

功能

System Information(系统信息):在文本框中显示有关当前系统的重要系统信息以方便复制。

Capture logs(捕获日志):首先,从相关故障排除日志列表中进行选择。然后,此功能会自动收集这些日志并使用您指定的名称和位置将其打包到压缩文件夹中。

脱机实例模式

此模式允许您选择脱机系统的卷。EC2Rescue 分析该卷并显示自动救援和还原选项。Offline instance(脱机实例)模式还包括与 Current instance(当前实例)模式相同的 Capture logs(捕获日志)功能。

功能

System Information(系统信息):在文本框中显示有关当前系统的重要系统信息以方便复制。

Select Disk(选择磁盘):如果有多个脱机根卷连接到实例,则此功能可供您选择特定卷。

注意:如果所选磁盘还未联机,此功能将自动使磁盘联机。

Diagnose and Rescue(诊断和救援):检测并提供修复选项,用于自动修复可阻止 RDP 连接或导致实例状态检查失败的常见配置问题。将检查以下项目中可能存在的配置问题:

  • 系统时间设置
  • Windows 防火墙设置
  • 远程桌面设置
  • EC2Config 版本和设置(Windows Server 2012 R2 及更早版本)
  • EC2Launch 版本和设置(Windows Server 2016 及更高版本)
  • 网络接口设置

Restore(还原):将脱机实例设置为启动到 Last Known Good Configuration(上一个已知正常配置)或 Restore registry from backup(从备份还原注册表)。如果您怀疑注册表配置不正确或已损坏,请使用此功能。

Capture logs(捕获日志):首先,从相关故障排除日志列表中进行选择。然后,此功能会自动收集这些日志并使用您指定的名称和位置将其打包到压缩文件夹中。