百度智能云智能边缘AI加速卡（英伟达） - Jetson资源监控

智能边缘

简介/价格/文档

百度智能云智能边缘AI加速卡（英伟达） - Jetson资源监控

文档简介：

前言：本文介绍百度智能边缘BIE如何纳管 NVIDIA Jetson设备，并实现对Jetson的资源监控。实验设备：一台 NVIDIA Jetson NX 设备，参数信息如下：操作系统：Ubuntu 18.04 desktop。边缘侧安装 k3s+docker。 Jetpack: 4.5。

*此产品及展示信息均由百度智能云官方提供。免费试用咨询热线：400-826-7010，为您提供专业的售前咨询，让您快速了解云产品，助您轻松上云！微信咨询

免费试用、价格特惠

文档详情

前言

本文介绍百度智能边缘BIE如何纳管 NVIDIA Jetson设备，并实现对Jetson的资源监控。

实验设备

一台 NVIDIA Jetson NX 设备，参数信息如下：

操作系统：Ubuntu 18.04 desktop
边缘侧安装 k3s+docker
Jetpack: 4.5

操作指南

创建一个边缘节点，AI加速卡选择NVIDIA Jetson，如下图所示：

进入到节点详情界面，点击安装，在弹出框当中复制节点安装命令，然后在边缘节点上运行。

NVIDIA Jetson默认安装了docker，因此只需要安装k3s即可。

需要确认Jetson已经开启了NVIDIA Docker Runtime，开启方法可以参考Jetson依赖说明。

安装jtop插件，用于查看jetpack版本和GPU使用率。安装方法参考参考Jetson依赖说明。执行sudo jtop，查看jetpack版本为4.5，GPU使用率为0，如下图所示：

节点安装边缘以后，我们在边缘侧可以看到一个叫做baetyl-gpu-metrics的pod，由它负责采集AI加速卡的资源使用信息。

nvidia@miivii-tegra:~$ kubectl get pod -A
NAMESPACE            NAME                                       READY   STATUS    RESTARTS   AGE
kube-system          metrics-server-7566d596c8-tzk6n 1/1     Running 0 11m
kube-system          coredns-7944c66d8d-8vd4d 1/1     Running 0 11m
baetyl-edge-system   baetyl-init-6469b8c94d-9xph5 1/1     Running 0 3m52s
baetyl-edge-system   baetyl-core-hxpcag87w-869778cdfd-jt5mm 1/1     Running 0 3m34s
baetyl-edge-system   baetyl-agent-9fnnedhv8-2h6sn 1/1     Running 0 3m19s
baetyl-edge-system   baetyl-broker-ahemegxev-66758965c9-lm27z 1/1     Running 0 3m18s
baetyl-edge-system   baetyl-gpu-metrics-6fgh9ygbr-5lz79 1/1     Running 0 3m17s

执行一个AI模型服务调用脚本，AI模型使用AI加速卡算力资源。
在边缘侧使用jtop查看资源使用率，如下所示，资源使用率在10%~50%之间

返回到云端节点详情，找到AI加速卡，查看AI加速卡资源监控信息，如下所示：

边缘端与云端指标映射信息如下表所示：

边缘端	云端	数值	备注
-	编号	1
Type	名称	NVIDIA Xavier NX GPU
GPU Temp	温度(℃)	46
NV Power	能耗(W)	15
Mem	显存使用情况	3.64 GiB/7.59 GiB	显存、内存共享8GiB容量，此处3.64GiB实际是显存+内存
GPU	GPU使用率	47.94%	云端计算值，实际使用内存/内存容量

相似文档

百度智能云智能边缘AI加速卡（英伟达） - NVIDIA GPU资源监控
前言：本文介绍百度智能边缘BIE如何纳管使用NVIDIA GPU的边缘节点，并实现对NVIDIA GPU的资源监控。此处提到的使用NVIDIA GPU的边缘节点，一般特指使用了NVIDIA GPU AI加速卡的x86架构的GPU服务器，GPU AI加速卡可以是NVIDIA T4/P4/V100/A100/3090等。
百度智能云智能边缘AI加速卡（英伟达） - GPU资源调度-显存共享
功能说明： GPU显存共享功能主要是为了支持多个边缘AI服务可以运行在多张GPU卡上这个特性。当边缘节点上运行多个AI服务的时候，默认情况下，多个AI服务都会运行在GPU卡1上。这样即使边缘节点有多张AI计算卡，也无法动态调用到GPU卡2。使用GPU共享功能，通过设置边缘AI服务的显存容量需求，实现边缘AI服务在多卡之间的动态调度。GPU共享功能仅支持NVIDIA GPU amd64架构。
百度智能云智能边缘AI加速卡（英伟达） - GPU资源调度-显存隔离
1 功能说明： GPU显存隔离在GPU显存共享的基础上，加入了显存资源逻辑隔离的能力。两者主要区别如下：通过显存隔离，可以将1张大显存的物理GPU卡虚拟化成多张小显存的虚拟机GPU卡。并且保障运行在虚拟GPU上的服务之间相互隔离、互不影响。假定运行在虚拟机GPU上的服务需要的显存大于分配给他的显存，则该服务将启动失败，服务获取不到超过分配给他的显存资源。
百度智能云智能边缘AI加速卡（华为昇腾） - 昇腾310资源监控
前言：本文介绍百度智能边缘BIE如何纳管使用华为昇腾加速卡的边缘节点，并实现对华为昇腾加速卡的资源监控。操作指南：创建一个边缘节点，AI加速卡选择华为昇腾310，如下图所示：
百度智能云智能边缘AI加速卡（寒武纪） - MLU270资源监控
前言：本文介绍百度智能边缘BIE如何纳管使用MLU270-S4智能加速卡的边缘节点，并实现对MLU270-S4智能加速卡的资源监控。操作指南：创建一个边缘节点，AI加速卡选择寒武纪思元270，如下图所示：

文档中心

全民上云·上云补贴申领

免费试用（限企业）

前言

实验设备

操作指南