上云无忧 > 文档中心 > 百度智能云智能边缘AI加速卡(英伟达) - NVIDIA GPU资源监控
智能边缘
百度智能云智能边缘AI加速卡(英伟达) - NVIDIA GPU资源监控

文档简介:
前言: 本文介绍百度智能边缘BIE如何纳管使用NVIDIA GPU的边缘节点,并实现对NVIDIA GPU的资源监控。此处提到的使用NVIDIA GPU的边缘节点,一般特指使用了NVIDIA GPU AI加速卡的x86架构的GPU服务器,GPU AI加速卡可以是NVIDIA T4/P4/V100/A100/3090等。
*此产品及展示信息均由百度智能云官方提供。免费试用 咨询热线:400-826-7010,为您提供专业的售前咨询,让您快速了解云产品,助您轻松上云! 微信咨询
  免费试用、价格特惠

前言

本文介绍百度智能边缘BIE如何纳管使用NVIDIA GPU的边缘节点,并实现对NVIDIA GPU的资源监控。此处提到的使用NVIDIA GPU的边缘节点,一般特指使用了NVIDIA GPU AI加速卡的x86架构的GPU服务器,GPU AI加速卡可以是NVIDIA T4/P4/V100/A100/3090等。

依赖条件

要实现GPU资源监控,对于边缘节点有以下依赖条件:

  • 边缘节点有NVIDIA GPU AI加速卡
  • 边缘节点安装了NVIDIA Docker,具体安装方式参考官网。并且 docker runtime 设置为 nvidia。
  • 边缘节点使用容器模式运行。

设置docker runtime为nvidia

  1. 边缘节点安装docker以后,默认的runtime可能不是nvidia。可以通过执行 docker info | grep Runtime 查看docker 的 runtime。

  1. 如果不是nvidia,此时需要更改Docker的daemon.json配置文件,文件路径通常为/etc/docker/daemon.json,添加如下配置即可。
{
    "default-runtime": "nvidia",
    "runtimes": {
        "nvidia": {
            "path": "/usr/bin/nvidia-container-runtime",
            "runtimeArgs": []
        }
    }
}
  1. 编辑完毕以后,重启docker,执行如下命令:
sudo systemctl daemon-reload
sudo systemctl restart docker

操作指南

1.创建一个边缘节点,AI加速卡选择NVIDIA GPU,如下图所示:

说明:如果创建节点时没有选择AI加速卡,后续可以在边缘节点详情界面动态修改AI加速卡类型。

  1. 执行边缘节点安装操作,将在边缘节点上自动部署baetyl-accelerator-metrics这个系统应用,用于采集GPU资源,如下图所示:

  1. 在边缘节点上查看NVIDIA GPU使用情况,执行nvidia-smi命令,得到结果如下:
nvidia-smi
Tue Aug  9 12:55:58 2022
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 470.42.01    Driver Version: 470.42.01    CUDA Version: 11.4     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|===============================+======================+======================|
|   0  NVIDIA GeForce ...  Off  | 00000000:17:00.0 Off |                  N/A |
|  0%   36C    P8    11W / 350W |     68MiB / 24259MiB |      0%      Default |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------+
+-----------------------------------------------------------------------------+
| Processes:                                                                  |
|  GPU   GI   CI        PID   Type   Process name                  GPU Memory |
|        ID   ID                                                   Usage      |
|=============================================================================|
|    0   N/A  N/A      1193      G   /usr/lib/xorg/Xorg                 56MiB |
|    0   N/A  N/A      1616      G   /usr/bin/gnome-shell                9MiB |
+-----------------------------------------------------------------------------+
  1. 进入节点详情,点击AI加速卡,可以看到AI加速卡详情,如下图所示:

5.边缘端与云端指标映射信息如下表所示:

边缘端 云端 数值 备注
GPU 编号 1
Name 名称 NVIDIA GeForce RTX 3090
Temp 温度(℃) 38
Pwr 能耗(W) 13.694
Memory-Usage 显存使用情况 52.25 MiB/23.69 GiB
GPU使用率 0.22 云端计算值,实际使用显存/显存容量
相似文档
  • 功能说明: GPU显存共享功能主要是为了支持多个边缘AI服务可以运行在多张GPU卡上这个特性。当边缘节点上运行多个AI服务的时候,默认情况下,多个AI服务都会运行在GPU卡1上。这样即使边缘节点有多张AI计算卡,也无法动态调用到GPU卡2。使用GPU共享功能,通过设置边缘AI服务的显存容量需求,实现边缘AI服务在多卡之间的动态调度。GPU共享功能仅支持NVIDIA GPU amd64架构。
  • 1 功能说明: GPU显存隔离在GPU显存共享的基础上,加入了显存资源逻辑隔离的能力。两者主要区别如下: 通过显存隔离,可以将1张大显存的物理GPU卡虚拟化成多张小显存的虚拟机GPU卡。并且保障运行在虚拟GPU上的服务之间相互隔离、互不影响。 假定运行在虚拟机GPU上的服务需要的显存大于分配给他的显存,则该服务将启动失败,服务获取不到超过分配给他的显存资源。
  • 前言: 本文介绍百度智能边缘BIE如何纳管使用华为昇腾加速卡的边缘节点,并实现对华为昇腾加速卡的资源监控。 操作指南: 创建一个边缘节点,AI加速卡选择华为昇腾310,如下图所示:
  • 前言: 本文介绍百度智能边缘BIE如何纳管使用MLU270-S4智能加速卡的边缘节点,并实现对MLU270-S4智能加速卡的资源监控。 操作指南: 创建一个边缘节点,AI加速卡选择寒武纪思元270,如下图所示:
  • 前言: 本文介绍百度智能边缘如何纳管比特大陆SE5计算盒,并实现SE5的资源监控。针对SC5的操作一致。 操作指南: 创建一个边缘节点,AI加速卡选择比特大陆SE5/SC5,如下图所示:
官方微信
联系客服
400-826-7010
7x24小时客服热线
分享
  • QQ好友
  • QQ空间
  • 微信
  • 微博
返回顶部