上云无忧 > 文档中心 > 百度智能云智能边缘AI加速卡(英伟达) - Jetson资源监控
智能边缘
百度智能云智能边缘AI加速卡(英伟达) - Jetson资源监控

文档简介:
前言: 本文介绍百度智能边缘BIE如何纳管 NVIDIA Jetson设备,并实现对Jetson的资源监控。 实验设备: 一台 NVIDIA Jetson NX 设备,参数信息如下: 操作系统:Ubuntu 18.04 desktop。 边缘侧安装 k3s+docker。 Jetpack: 4.5。
*此产品及展示信息均由百度智能云官方提供。免费试用 咨询热线:400-826-7010,为您提供专业的售前咨询,让您快速了解云产品,助您轻松上云! 微信咨询
  免费试用、价格特惠

前言

本文介绍百度智能边缘BIE如何纳管 NVIDIA Jetson设备,并实现对Jetson的资源监控。

实验设备

一台 NVIDIA Jetson NX 设备,参数信息如下:

  • 操作系统:Ubuntu 18.04 desktop
  • 边缘侧安装 k3s+docker
  • Jetpack: 4.5

操作指南

  1. 创建一个边缘节点,AI加速卡选择NVIDIA Jetson,如下图所示:

  1. 进入到节点详情界面,点击安装,在弹出框当中复制节点安装命令,然后在边缘节点上运行。

  • NVIDIA Jetson默认安装了docker,因此只需要安装k3s即可。
  • 需要确认Jetson已经开启了NVIDIA Docker Runtime,开启方法可以参考Jetson依赖说明。
  1. 安装jtop插件,用于查看jetpack版本和GPU使用率。安装方法参考参考Jetson依赖说明。执行sudo jtop,查看jetpack版本为4.5,GPU使用率为0,如下图所示:

  1. 节点安装边缘以后,我们在边缘侧可以看到一个叫做baetyl-gpu-metrics的pod,由它负责采集AI加速卡的资源使用信息。
nvidia@miivii-tegra:~$ kubectl get pod -A
NAMESPACE            NAME                                       READY   STATUS    RESTARTS   AGE
kube-system          metrics-server-7566d596c8-tzk6n 1/1     Running 0 11m
kube-system          coredns-7944c66d8d-8vd4d 1/1     Running 0 11m
baetyl-edge-system   baetyl-init-6469b8c94d-9xph5 1/1     Running 0 3m52s
baetyl-edge-system   baetyl-core-hxpcag87w-869778cdfd-jt5mm 1/1     Running 0 3m34s
baetyl-edge-system   baetyl-agent-9fnnedhv8-2h6sn 1/1     Running 0 3m19s
baetyl-edge-system   baetyl-broker-ahemegxev-66758965c9-lm27z 1/1     Running 0 3m18s
baetyl-edge-system   baetyl-gpu-metrics-6fgh9ygbr-5lz79 1/1     Running 0 3m17s
  1. 执行一个AI模型服务调用脚本,AI模型使用AI加速卡算力资源。
  2. 在边缘侧使用jtop查看资源使用率,如下所示,资源使用率在10%~50%之间

  1. 返回到云端节点详情,找到AI加速卡,查看AI加速卡资源监控信息,如下所示:

  1. 边缘端与云端指标映射信息如下表所示:
边缘端 云端 数值 备注
- 编号 1
Type 名称 NVIDIA Xavier NX GPU
GPU Temp 温度(℃) 46
NV Power 能耗(W) 15
Mem 显存使用情况 3.64 GiB/7.59 GiB 显存、内存共享8GiB容量,此处3.64GiB实际是显存+内存
GPU GPU使用率 47.94% 云端计算值,实际使用内存/内存容量
相似文档
  • 前言: 本文介绍百度智能边缘BIE如何纳管使用NVIDIA GPU的边缘节点,并实现对NVIDIA GPU的资源监控。此处提到的使用NVIDIA GPU的边缘节点,一般特指使用了NVIDIA GPU AI加速卡的x86架构的GPU服务器,GPU AI加速卡可以是NVIDIA T4/P4/V100/A100/3090等。
  • 功能说明: GPU显存共享功能主要是为了支持多个边缘AI服务可以运行在多张GPU卡上这个特性。当边缘节点上运行多个AI服务的时候,默认情况下,多个AI服务都会运行在GPU卡1上。这样即使边缘节点有多张AI计算卡,也无法动态调用到GPU卡2。使用GPU共享功能,通过设置边缘AI服务的显存容量需求,实现边缘AI服务在多卡之间的动态调度。GPU共享功能仅支持NVIDIA GPU amd64架构。
  • 1 功能说明: GPU显存隔离在GPU显存共享的基础上,加入了显存资源逻辑隔离的能力。两者主要区别如下: 通过显存隔离,可以将1张大显存的物理GPU卡虚拟化成多张小显存的虚拟机GPU卡。并且保障运行在虚拟GPU上的服务之间相互隔离、互不影响。 假定运行在虚拟机GPU上的服务需要的显存大于分配给他的显存,则该服务将启动失败,服务获取不到超过分配给他的显存资源。
  • 前言: 本文介绍百度智能边缘BIE如何纳管使用华为昇腾加速卡的边缘节点,并实现对华为昇腾加速卡的资源监控。 操作指南: 创建一个边缘节点,AI加速卡选择华为昇腾310,如下图所示:
  • 前言: 本文介绍百度智能边缘BIE如何纳管使用MLU270-S4智能加速卡的边缘节点,并实现对MLU270-S4智能加速卡的资源监控。 操作指南: 创建一个边缘节点,AI加速卡选择寒武纪思元270,如下图所示:
官方微信
联系客服
400-826-7010
7x24小时客服热线
分享
  • QQ好友
  • QQ空间
  • 微信
  • 微博
返回顶部