腾讯云GPU云服务器 - 使用 GPU 监控
文档简介:
监控与告警是保证 GPU 云服务器高可靠性、高可用性和高性能的重要部分。创建 GPU 云服务器时,默认免费开通云监控。您可通过 云服务器控制台 查看监控指标,详细说明请参见 云服务器监控内容。NVIDIA GPU 系列实例另外提供了监控 GPU 使用率,显存使用量,功耗以及温度等参数的能力。
监控与告警是保证 GPU 云服务器高可靠性、高可用性和高性能的重要部分。创建 GPU 云服务器时,默认免费开通云监控。您可通过 云服务器控制台 查看监控指标,详细说明请参见 云服务器监控内容。NVIDIA GPU 系列实例另外提供了监控 GPU 使用率,显存使用量,功耗以及温度等参数的能力。
您也可以在 腾讯云可观测平台 分析监控指标和实施告警,更多详细内容可参见 腾讯云可观测平台告警管理。
GPU 监控工作条件
GPU 监控是通过在 GPU 云服务上部署安装相关 GPU 驱动 和 云服务器监控组件 来实现的,使用不同的镜像需要不同的处理方式:
使用公共镜像:公共镜像默认包含云服务器监控组件,只需安装 GPU 驱动。
使用镜像市场GPU驱动预装镜像:无需任何安装。
使用导入镜像:需手动安装云服务器监控组件和 GPU 驱动。
查看 GPU 工作参数
单击 GPU 列表中的
监控图标, 访问 控制台 GPU 实例的监控页面,查看 GPU 监控,移动鼠标到指标曲线上将显示对应 GPU 设备的 BDF 和监控数据。如下图所示:


指标名称
|
含义
|
单位
|
维度
|
GPU 使用率
|
评估负载所消耗的计算能力,非空闲状态百分比
|
%
|
per-GPU
|
GPU 显存使用量
|
评估负载对显存占用
|
MBytes
|
per-GPU
|
GPU 功耗
|
评估 GPU 耗电情况
|
W
|
per-GPU
|
GPU 温度
|
评估 GPU 散热状态
|
摄氏度
|
per-GPU
|
无监控数据原因
只支持 NVIDIA GPU 实例。
没有安装 GPU 驱动或监控组件。
其他原因分析可参见 云服务器无监控数据。