Gurkamal 帮助您排查
失败的系统可到达性
状态检查

gurkamal_instance_fails_reachability_status

我的实例有一项或两项状态检查失败了,并且无法访问。这是为什么?我如何解决此问题? 

Amazon Elastic Compute Cloud (EC2) 在每次运行 EC2 实例时都会通过频繁的状态检查验证实例的运行状况和可访问性。状态检查是找出导致实例无法访问的合理根本原因的一级指标。状态检查可分为两种类型:

  • 系统状态检查:系统状态检查用于检测运行您的实例的底层主机是否存在问题。如果底层主机因网络、硬件或软件问题而没有响应或无法访问,则此状态检查失败。
  • 实例状态检查:实例状态检查会检查实例本身和客户机操作系统的响应和低层可访问性。实例状态检查通过向虚拟化弹性网络接口发送低层地址解析协议 (ARP) 请求,来监控实例的响应。

有关更多信息,请参阅状态检查的类型

当某个实例无法访问且系统状态检查失败时

当底层主机存在问题时,解决该问题的最佳方式是通过停止和启动实例从底层主机中迁移出去。

在极少数情况下,基础设施层问题可能会阻止底层主机响应停止-启动调用。这会导致实例卡在停止状态

您可以创建 Amazon CloudWatch 警报,以监控并从任何需要 AWS 参与的问题中自动恢复 EC2 实例

当实例无法访问且实例状态检查失败时

实例状态检查失败的原因多种多样,如无法启动操作系统、无法正确安装卷、文件系统问题、驱动程序不兼容、内核错误、内存占用过大等。这些故障都可能阻止虚拟化弹性网络接口显示并做出响应。

由于实例状态检查可能是由客户机操作系统中存在的问题引起的,因此对此类问题的排查应侧重于检查控制台输出、系统日志以及错误消息的性质:

您可以使用 EC2Rescue 轻松诊断并自动执行修复流程:


此页面对您有帮助吗? |

返回 AWS Support 知识中心

需要帮助? 请访问 AWS 支持中心

发布时间:2014 年 7 月 3 日

更新时间:2019 年 3 月 20 日