如何检查我的 SageMaker 笔记本电脑实例的资源利用率?

上次更新日期:2022 年 11 月 10 日

我启动了一个 Amazon SageMaker 笔记本电脑实例来训练模型或加载大型数据集,但该笔记本电脑实例似乎被冻结了。如何查看我的 SageMaker 实例资源使用情况?

解决方法

使用 SageMaker 笔记本电脑实例资源进行原型设计、训练模型或处理大型数据集时,SageMaker 的浏览器或笔记本电脑实例可能显示无响应。如果您的浏览器或笔记本电脑实例显示无响应,则可以查看 SageMaker 资源利用率以查看当前的资源使用情况。

您可以使用以下方法之一查看 SageMaker 资源利用率:

  • 运行基于 Linux 的命令
  • 查看 Amazon CloudWatch 指标

使用 Linux 命令查看 SageMaker 资源利用率

SageMaker 笔记本电脑实例基于 Amazon Linux。您可以从 SageMaker 终端运行 Linux 命令来查看 SageMaker 资源利用率。

要运行 SageMaker Linux 命令来查看资源利用率,请执行以下操作:

1.打开 SageMaker console(SageMaker 控制台)。

2.在导航窗格中,选择 Notebook Instances(笔记本电脑实例)。

3.在所选 SageMaker 笔记本电脑实例旁 Open Jupyter(打开 Jupyter)或 Open JupyterLab(打开 JupyterLab)。

4.打开终端。

5.运行以下命令以查看 SageMaker 资源利用率:

top

上述命令显示可用的系统内存(RAM)和处理器负载。

ps -ax

上述命令显示正在运行的任务和处理器负载。

df -h

上述命令显示磁盘空间利用率和可用性。

free -m

上述命令显示系统内存(RAM)利用率和可用性。

使用 CloudWatch 查看 SageMaker 资源利用率

通过使用生命周期配置脚本,您可以使用 CloudWatch 查看 SageMaker 资源利用率。例如,publish-instance-metrics 脚本将笔记本电脑实例中的系统级指标发布到 CloudWatch 中。

要配置 SageMaker 笔记本电脑实例以查看 CloudWatch 中的所有指标,请执行以下操作:

1.打开 SageMaker console(SageMaker 控制台)。

2.在导航窗格中,选择 Notebook Instances(笔记本电脑实例)。

3.选择所选 SageMaker 笔记本电脑实例旁的 Open Jupyter(打开 Jupyter)或 Open Jupyterlab(打开 Jupyterlab)。

4.打开终端。

5.输入以下命令以打开 amazon-cloudwatch-agent-config-wizard

sudo /opt/aws/amazon-cloudwatch-agent/bin/amazon-cloudwatch-agent-config-wizard

6.按照向导中的步骤操作。出现提示时,执行以下操作:

  • 选择 On-premises host(本地主机)
  • StatsD Daemon(StatsD 进程守护程序)选择 no(否)
  • CollectD 选择 no(否)

7.向导完成后,会自动创建一个 config.json 文件。该文件将在下一步中使用。

8.使用以下命令在服务器上启动 CloudWatch 代理:

sudo /opt/aws/amazon-cloudwatch-agent/bin/amazon-cloudwatch-agent-ctl -a fetch-config -m ec2 -c file:///opt/aws/amazon-cloudwatch-agent/bin/config.json -s

9.从 CloudWatch 控制台,选择 Metrics(指标),然后选择 CWAgent

10.CWAgent 显示当前的 SageMaker 指标。

有关 SageMaker 笔记本电脑示例 AWS 生命周期配置脚本的更多信息,请参阅 amazon-sagemaker-notebook-instance-lifecycle-config-samples