上云无忧 > 文档中心 > 腾讯云GPU云服务器 - 使用 GPU 监控
GPU云服务器
腾讯云GPU云服务器 - 使用 GPU 监控

文档简介:
监控与告警是保证 GPU 云服务器高可靠性、高可用性和高性能的重要部分。创建 GPU 云服务器时,默认免费开通云监控。您可通过 云服务器控制台 查看监控指标,详细说明请参见 云服务器监控内容。NVIDIA GPU 系列实例另外提供了监控 GPU 使用率,显存使用量,功耗以及温度等参数的能力。
*此产品及展示信息均由腾讯云官方提供。免费试用 咨询热线:400-826-7010,为您提供专业的售前咨询,让您快速了解云产品,助您轻松上云! 微信咨询
  免费试用、价格特惠
监控与告警是保证 GPU 云服务器高可靠性、高可用性和高性能的重要部分。创建 GPU 云服务器时,默认免费开通云监控。您可通过 云服务器控制台 查看监控指标,详细说明请参见 云服务器监控内容。NVIDIA GPU 系列实例另外提供了监控 GPU 使用率,显存使用量,功耗以及温度等参数的能力。
您也可以在 腾讯云可观测平台 分析监控指标和实施告警,更多详细内容可参见 腾讯云可观测平台告警管理

GPU 监控工作条件

GPU 监控是通过在 GPU 云服务上部署安装相关 GPU 驱动云服务器监控组件 来实现的,使用不同的镜像需要不同的处理方式:
使用公共镜像:公共镜像默认包含云服务器监控组件,只需安装 GPU 驱动。
使用镜像市场GPU驱动预装镜像:无需任何安装。
使用导入镜像:需手动安装云服务器监控组件和 GPU 驱动。

查看 GPU 工作参数

单击 GPU 列表中的
监控图标, 访问 控制台 GPU 实例的监控页面,查看 GPU 监控,移动鼠标到指标曲线上将显示对应 GPU 设备的 BDF 和监控数据。如下图所示:

参数说明:
指标名称
含义
单位
维度
GPU 使用率
评估负载所消耗的计算能力,非空闲状态百分比
%
per-GPU
GPU 显存使用量
评估负载对显存占用
MBytes
per-GPU
GPU 功耗
评估 GPU 耗电情况
W
per-GPU
GPU 温度
评估 GPU 散热状态
摄氏度
per-GPU

无监控数据原因

只支持 NVIDIA GPU 实例。
没有安装 GPU 驱动或监控组件。
其他原因分析可参见 云服务器无监控数据
相似文档
  • 背景信息: 近几年随着 AI 模型参数的倍增及训练数据的日益增长,用户对模型迭代效率的需求也随之增长,单个 GPU 的算力和显存资源已无法满足大部分业务场景,使用单机多卡或多机多卡训练已成为趋势。
  • 操作场景: 本文介绍如何基于云服务器 CVM 搭建 torch+Taco Train 分布式训练集群,更多最佳实践请参见 计算加速套件 TACO Kit 文档。
  • qGPU 是腾讯云推出的 GPU 共享技术,支持在多个容器间共享 GPU 卡并提供容器间显存与算力强隔离的能力,从而在更小粒度使用 GPU 卡的基础上,保证业务安全,达到提高 GPU 使用率、降低用户成本的目的。
  • 操作场景: 本文介绍如何通过腾讯云容器服务 TKE 使用 qGPU。 使用须知: TKE 版本支持:需 ≥ v1.14.x。 操作系统支持:请参见 TKE 支持的公共镜像列表。推荐使用 TencentOS Server 3.1 (TK4) ,公共镜像为更稳定、高效、易维护的使用方式。不推荐您使用市场镜像。
  • 说明: 本文来自 GPU 云服务器用户实践征文,仅供学习和参考。 操作场景: 本文介绍如何使用 Windows GPU 云服务器,通过云服务器控制台搭建深度学习环境。
官方微信
联系客服
400-826-7010
7x24小时客服热线
分享
  • QQ好友
  • QQ空间
  • 微信
  • 微博
返回顶部