上云无忧 > 文档中心 > 百度智能云GPU云服务器常见问题QA
GPU云服务器
百度智能云GPU云服务器常见问题QA

文档简介:
NVIDIA 深度学习开发卡应该使用哪种驱动? 请在Nvidia官网按照下图的选项进行驱动下载: GPU服务器显卡型号有哪些? 关于GPU的显卡型号,您可以参考此文档 GPU卡详情。 GPU服务器是否有GPU卡状态监控和报警机制,包括GPU使用率、内存使用率、温度、状态等?
*此产品及展示信息均由百度智能云官方提供。免费试用 咨询热线:400-826-7010,为您提供专业的售前咨询,让您快速了解云产品,助您轻松上云! 微信咨询
  免费试用、价格特惠

NVIDIA 深度学习开发卡应该使用哪种驱动?

请在Nvidia官网按照下图的选项进行驱动下载:

GPU服务器显卡型号有哪些?

关于GPU的显卡型号,您可以参考此文档 GPU卡详情。

GPU服务器是否有GPU卡状态监控和报警机制,包括GPU使用率、内存使用率、温度、状态等?

使用状态监控前,需要您手动安装BCM-agent,安装完成后按照以下步骤找到GPU卡的监控信息

  1. 登录百度智能云控制台选择云服务器BCC,点击实例进入实例列表页面。
  2. 选择需要监控的实例名称,进入实例详情页面,然后点击监控按钮进入监控详情页面。
  3. 在监控详情页面的最下侧,找到扩展监控项,然后选择GPU后,即可看到GPU卡的监控信息。

系统中使用 nvidia-smi 查看的CUDA版本与 nvcc -V 看到的CUDA版本不一样,应该以哪个为准?

nvidia-smi 工具主要用于查看GPU驱动的版本,在某些时候显示的CUDA版本并不完全准确;

nvcc 工具是由CUDA toolkit安装编译的CUDA工具,所以通过nvcc查看到的CUDA版本是准确的

GPU实际无负载,但使用 nvidia-smi 查看GPU利用率时显示100%

Tesla系列GPU卡提供ECC功能,当GPU云服务器加载GPU驱动时,因 ECC Memory Scrubbing 机制存在,概率出现GPU利用率显示100%情况。遇到此情况时,需要用户在root权限下,执行 nvidia-smi -pm 1 命令,让GPU Driver 进入 Persistence 模式,从而解决此问题。

root@instance-xxxxxxxx:~# nvidia-smi -pm 1

相似文档
  • 背景 飞桨(PaddlePaddle)以百度多年的深度学习技术研究和业务应用为基础,集深度学习核心训练和推理框架、基础模型库、端到端开发套件、丰富的工具组件于一体。本章将以bcc.vgn3(Ubuntu18.04 LTS)为例,介绍如何快速搭建飞桨的GPU环境并使用预训练的模型完成文本情感分类预测。
  • 基于GPU实例部署NGC环境 背景介绍 NGC,Nvidia GPU Cloud是由NVIDIA和第三方ISV提供的GPU优化过的软件仓库,主要用于AI,HPC及虚拟化等领域。其中提供了众多容器(containers)、预训练的模型(pre-trained models)、用于Kubernetes部署的Helm charts、以及带有软件开发工具包(SDK)的行业特定AI工具包等。
  • 背景介绍 本文介绍如何在GPU云服务环境中下载、安装并使用TensorRT工具。 TensorRT,是Nvdia推出的一套专为深度学习推理打造的SDK。在推理阶段,基于TensorRT的应用可以提供同比单一CPU平台高达40倍的加速效果。
  • 本文介绍如何在GPU云服务环境中下载、安装并使用RAPIDS软件库。 RAPIDS是一套开源的软件库,旨在提供给用户一整套能够完全在GPU上执行的端到端的数据科学及其分析的API调用。它面向解析和数据科学中的常规数据处理任务,囊括了多种端到端的机器学习算法。
  • FPGA(Field Programmable Gate Array)云服务器是云环境中配备FPGA的计算实例,通过购买FPGA实例,您可以结合自身业务场景,利用百度智能云提供的完善的FPGA加速平台,以及配套的开发、模拟、调试、编译资源,快速地为您的业务构建专属的FPGA硬件加速程序。
官方微信
联系客服
400-826-7010
7x24小时客服热线
分享
  • QQ好友
  • QQ空间
  • 微信
  • 微博
返回顶部