问题
最近在Ubuntu上使用Nvidia GPU训练模型的时候,没有问题,过一会再训练出现非常卡顿,使用nvidia-smi查看发现,显示GPU的风扇和电源报错:
解决方案
自动风扇控制
在nvidia论坛有人给出了解决方案,即问题的根源可能是风扇转速不足使GPU过热导致的。
首先开启GPU的persistent mode,再设置风扇的功率,重启即可生效。其中250代表的是风扇的最大功率限制,可以将其设置为最大,这样过热的时候风扇就会自动加大功率。
sudo nvidia-smi -pm 1
sudo nvidia-smi -pl 250
手动风扇控制
此外,还可以将GPU风扇的手动风速控制打开。方法为:
首先,使用sudo nvidia-xconfig --enable-all-gpus命令打开所有gpu在xserver中的设置(不使用sudo可能无权限写入新配置)
然后修改配置文件:sudo vim /etc/X11/xorg.conf,在其中的DeviceSection中加入Option “Coolbits” “4”如下图所示:
如果机器上有多块gpu,在第一步命令执行后,会在这个xorg.conf中出现多个DeviceSection,都依次执行第三步操作
重启机器后,命令行执行nvidia-settings,会打开设置界面,在其中的会显示所有GPU的设置选项,每个GPU控制选项下面都有一个Thermal settings,进入后打开enable GPU Fan Setting即可对风扇进行手动风速调整了。
-
NVIDIA
+关注
关注
14文章
5353浏览量
106861 -
gpu
+关注
关注
28文章
4981浏览量
132125
发布评论请先 登录
NVIDIA桌面GPU系列扩展新产品
亚马逊基于NVIDIA技术实现创新型制造解决方案
Ansys使用NVIDIA技术优化CFD仿真解决方案
风扇灯PCBA方案开发原理及介绍

使用NVIDIA RTX PRO Blackwell系列GPU加速AI开发
NVIDIA GPU助力科研人员探索外星世界
0xmd公司通过NVIDIA GPU打造医疗AI解决方案
NVIDIA技术助力Pantheon Lab数字人实时交互解决方案
NVIDIA推出GeForce RTX 50系列台式机和笔记本电脑GPU
借助NVIDIA GPU提升鲁班系统CAE软件计算效率
《CST Studio Suite 2024 GPU加速计算指南》
Supermicro推出直接液冷优化的NVIDIA Blackwell解决方案

评论