这两天实验室的服务器总是崩溃,重启已经不能解决问题了,由于是跑深度学习的服务器,而且还是承接国家级项目的运行服务器,可以说是实验室的主要生产力了,给出报错的日志:

Oct 16 09:42:33 rootroot kernel: [ 7498.287883] perf: interrupt took too long (2505 > 2500), lowering kernel.perf_event_max_sample_rate to 79750
Oct 16 09:54:59 rootroot kernel: [ 8243.792856] BUG: unable to handle kernel NULL pointer dereference at 00000000000000b1
Oct 16 09:54:59 rootroot kernel: [ 8243.793082] IP: _nv031733rm+0x79/0x940 [nvidia]
Oct 16 09:54:59 rootroot kernel: [ 8243.793093] PGD 0 P4D 0
Oct 16 09:54:59 rootroot kernel: [ 8243.793100] Oops: 0000 [#1] SMP NOPTI
Oct 16 09:54:59 rootroot kernel: [ 8243.793280] CPU: 56 PID: 3976 Comm: gpustat Tainted: P OE 4.15.0-194-generic #205-Ubuntu
Oct 16 09:54:59 rootroot kernel: [ 8243.793527] RSP: 0018:ffffaf34a78078a8 EFLAGS: 00010202
Oct 16 09:54:59 rootroot kernel: [ 8243.793539] RAX: 0000000000000000 RBX: 0000000000000000 RCX: 0000000000000002
Oct 16 09:54:59 rootroot kernel: [ 8243.793553] RDX: ffff9b6c54600008 RSI: ffff9b6c53d98008 RDI: ffff9b6c69a34008
Oct 16 09:54:59 rootroot kernel: [ 8243.793593] R13: 000000000000000f R14: ffff9b6c53d98008 R15: 0000000000000001
Oct 16 09:54:59 rootroot kernel: [ 8243.793607] FS: 00007f782335e0c0(0000) GS:ffff9b2cffd00000(0000) knlGS:0000000000000000
Oct 16 07:37:46 rootroot kernel: [ 10.034623] input: HDA NVidia HDMI/DP,pcm=7 as /devices/pci0000:d8/0000:d8:00.0/0000:d9:00.1/sound/card3/input2
Oct 16 07:37:46 rootroot kernel: [ 10.035662] input: HDA NVidia HDMI/DP,pcm=8 as /devices/pci0000:d8/0000:d8:00.0/0000:d9:00.1/sound/card3/input3
Oct 16 07:37:46 rootroot kernel: [ 10.036394] input: HDA NVidia HDMI/DP,pcm=9 as /devices/pci0000:d8/0000:d8:00.0/0000:d9:00.1/sound/card3/input4
Oct 16 07:37:46 rootroot kernel: [ 10.323371] bnxt_en 0000:18:00.0 eno1np0: NIC Link is Up, 1000 Mbps full duplex, Flow control: none
Oct 16 07:37:46 rootroot kernel: [ 10.323374] bnxt_en 0000:18:00.0 eno1np0: EEE is not active
Oct 16 07:37:46 rootroot kernel: [ 10.323376] bnxt_en 0000:18:00.0 eno1np0: FEC autoneg off encodings: None
Oct 16 07:37:46 rootroot kernel: [ 11.444137] new mount options do not match the existing superblock, will be ignored
Oct 16 09:42:33 rootroot kernel: [ 7498.287883] perf: interrupt took too long (2505 > 2500), lowering kernel.perf_event_max_sample_rate to 79750
Oct 16 09:54:59 rootroot kernel: [ 8243.792856] BUG: unable to handle kernel NULL pointer dereference at 00000000000000b1
Oct 16 09:54:59 rootroot kernel: [ 8243.793082] IP: _nv031733rm+0x79/0x940 [nvidia]
Oct 16 09:54:59 rootroot kernel: [ 8243.793093] PGD 0 P4D 0
Oct 16 09:54:59 rootroot kernel: [ 8243.793100] Oops: 0000 [#1] SMP NOPTI
Oct 16 09:54:59 rootroot kernel: [ 8243.793280] CPU: 56 PID: 3976 Comm: gpustat Tainted: P OE 4.15.0-194-generic #205-Ubuntu
Oct 16 09:54:59 rootroot kernel: [ 8243.793527] RSP: 0018:ffffaf34a78078a8 EFLAGS: 00010202
Oct 16 09:54:59 rootroot kernel: [ 8243.793539] RAX: 0000000000000000 RBX: 0000000000000000 RCX: 0000000000000002
Oct 16 09:54:59 rootroot kernel: [ 8243.793553] RDX: ffff9b6c54600008 RSI: ffff9b6c53d98008 RDI: ffff9b6c69a34008
Oct 16 09:54:59 rootroot kernel: [ 8243.793593] R13: 000000000000000f R14: ffff9b6c53d98008 R15: 0000000000000001
Oct 16 09:54:59 rootroot kernel: [ 8243.793607] FS: 00007f782335e0c0(0000) GS:ffff9b2cffd00000(0000) knlGS:0000000000000000
Oct 16 09:54:59 rootroot kernel: [ 8243.793622] CS: 0010 DS: 0000 ES: 0000 CR0: 0000000080050033
Oct 16 09:54:59 rootroot kernel: [ 8243.793633] CR2: 00000000000000b1 CR3: 0000003f65f82003 CR4: 00000000007606e0
Oct 16 09:54:59 rootroot kernel: [ 8243.793646] DR0: 0000000000000000 DR1: 0000000000000000 DR2: 0000000000000000
Oct 16 09:54:59 rootroot kernel: [ 8243.793660] DR3: 0000000000000000 DR6: 00000000fffe0ff0 DR7: 0000000000000400
Oct 16 09:54:59 rootroot kernel: [ 8243.793674] PKRU: 55555554
Oct 16 09:54:59 rootroot kernel: [ 8243.793681] Call Trace:
Oct 16 09:54:59 rootroot kernel: [ 8243.793857] ? _nv031847rm+0x82/0x270 [nvidia]
Oct 16 09:54:59 rootroot kernel: [ 8243.794036] ? _nv031880rm+0x17/0x30 [nvidia]
Oct 16 09:54:59 rootroot kernel: [ 8243.794217] ? _nv022845rm+0xc0/0x1b0 [nvidia]
Oct 16 09:54:59 rootroot kernel: [ 8243.794397] ? _nv022850rm+0x11b/0x230 [nvidia]
Oct 16 09:54:59 rootroot kernel: [ 8243.794576] ? _nv022850rm+0x211/0x230 [nvidia]
Oct 16 09:54:59 rootroot kernel: [ 8243.794755] ? _nv022852rm+0x310/0x310 [nvidia]
Oct 16 09:54:59 rootroot kernel: [ 8243.794855] ? _nv023526rm+0x32d/0x470 [nvidia]
Oct 16 09:54:59 rootroot kernel: [ 8243.794954] ? _nv023526rm+0x304/0x470 [nvidia]
Oct 16 09:54:59 rootroot kernel: [ 8243.795056] ? _nv000719rm+0x32a/0x680 [nvidia]
Oct 16 09:54:59 rootroot kernel: [ 8243.795183] ? _nv000712rm+0x178a/0x2350 [nvidia]
Oct 16 09:54:59 rootroot kernel: [ 8243.795311] ? rm_init_adapter+0xc5/0xe0 [nvidia]
Oct 16 09:54:59 rootroot kernel: [ 8243.795397] ? nv_open_device+0x3e7/0x870 [nvidia]
Oct 16 09:54:59 rootroot kernel: [ 8243.795484] ? nvidia_open+0x310/0x510 [nvidia]
Oct 16 09:54:59 rootroot kernel: [ 8243.795573] ? nvidia_frontend_open+0x58/0xa0 [nvidia]
Oct 16 09:54:59 rootroot kernel: [ 8243.795587] ? chrdev_open+0xc4/0x1b0
Oct 16 09:54:59 rootroot kernel: [ 8243.795600] ? do_dentry_open+0x21d/0x370
Oct 16 09:54:59 rootroot kernel: [ 8243.796036] ? __inode_permission+0x5b/0x160
Oct 16 09:54:59 rootroot kernel: [ 8243.796446] ? cdev_put.part.2+0x20/0x20
Oct 16 09:54:59 rootroot kernel: [ 8243.796852] ? vfs_open+0x4f/0x80
Oct 16 09:54:59 rootroot kernel: [ 8243.797246] ? path_openat+0x6bf/0x18b0
Oct 16 09:54:59 rootroot kernel: [ 8243.797626] ? filename_lookup+0xf2/0x190
Oct 16 09:54:59 rootroot kernel: [ 8243.798005] ? __check_object_size+0xc8/0x1b0
Oct 16 09:54:59 rootroot kernel: [ 8243.798385] ? do_filp_open+0x9b/0x110
Oct 16 09:54:59 rootroot kernel: [ 8243.798753] ? __check_object_size+0xc8/0x1b0
Oct 16 09:54:59 rootroot kernel: [ 8243.799111] ? __alloc_fd+0x46/0x170
Oct 16 09:54:59 rootroot kernel: [ 8243.799453] ? do_sys_open+0x1ba/0x2c0
Oct 16 09:54:59 rootroot kernel: [ 8243.799782] ? do_sys_open+0x1ba/0x2c0
Oct 16 09:54:59 rootroot kernel: [ 8243.800094] ? SyS_openat+0x14/0x20
Oct 16 09:54:59 rootroot kernel: [ 8243.800394] ? do_syscall_64+0x73/0x130
Oct 16 09:54:59 rootroot kernel: [ 8243.800681] ? entry_SYSCALL_64_after_hwframe+0x41/0xa6
Oct 16 09:54:59 rootroot kernel: [ 8243.800958] Code: a7 07 00 00 41 bf 01 00 00 00 4c 8d 65 48 31 db 44 89 7d 10 66 0f 1f 44 00 00 41 f6 c5 01 0f 84 90 00 00 00 49 8b 86 30 1a 00 00 <80> b8 b1 00 00 00 00 74 12 b8 01 00 00 00 89 d9 d3 e0 41 85 86

====================================================

这个报错日志显示的是内核问题,是SMP构架下CPU同步超时后死锁,但是导致这个问题的进程又是NVIDIA的nv_queue,从这些信息上也是找不到如何解决的方法,也看了下网上相关的post:

465.24.02 page fault

于是大胆的猜测是NVIDIA的驱动问题,不过这服务器平时运行的好好的怎么会突然驱动有问题呢,这样一想又有些自相矛盾,不过再一想是不是有可能是有的用户跑了一些不兼容的cuda代码呢,因为以我的经验来说,我是知道一些TensorFlow1.x的代码运行在RTX2090或者是RTX3090显卡是会造成死机的,这样是不是可以推定到pytorch上呢,这么一想或许还真可能是显卡驱动的问题。于是我给出的解决方法就是升级系统(upgrade-release),然后再upgrade一下显卡的驱动,那么这样行不行呢,不清楚,先这样运行一段时间看看,如果不报错,不再死机就证明好用,如果这样的话本文就不再更新了。

还是希望这个法子可行,本文也不要再update了,毕竟兼职负责实验室服务器管理和当实验室的免费网管也不是啥好事情,劳心劳力还没回报。

Linux系统内核报错导致的死机,最好的解决方法或许就是升级内核!!!

====================================================

实验室深度学习服务器崩溃——Oops: 0000 [#1] SMP NOPTI的更多相关文章

  1. 从零开始搭建实验室Ubuntu服务器 | 深度学习工作站

    一个标准的数据分析码农必须要配一台超薄笔记本和一台高性能服务器,笔记本是日常使用,各种小问题的解决,同时也是用于远程连接终端服务器:高性能服务器就是核心的处理数据的平台,CPU.内存.硬盘容量.GPU ...

  2. 深度学习PyTorch入门(1):3060 Pytorch+pycharm环境搭建

    WIN10, NVIDIA GeForce RTX 3060 python 3.7, CUDAv11.1.1, PyTorch 1.9, PyCharm 1.安装anacodah和PyCharm:   ...

  3. 在服务器的docker里 装anacond3深度学习环境的全流程超基础

    ​ 背景: 实验室给我分配了一个服务器 已经装好了docker 和nvidi docker . 现在我的目标是创建我自己的docker 然后在我自己的docker里装上anaconda环境. 我以前从 ...

  4. 深度学习菜鸟的信仰地︱Supervessel超能云服务器、深度学习环境全配置

    并非广告~实在是太良心了,所以费时间给他们点赞一下~ SuperVessel云平台是IBM中国研究院和中国系统与技术中心基于POWER架构和OpenStack技术共同构建的, 支持开发者远程开发的免费 ...

  5. 远程连接服务器jupyter notebook、浏览器以及深度学习可视化方法

    h1 { counter-reset: h2counter; } h2 { counter-reset: h3counter; } h3 { counter-reset: h4counter; } h ...

  6. 使用亚马逊云服务器EC2做深度学习(四)配置好的系统镜像

    这是<使用亚马逊云服务器EC2做深度学习>系列的第四篇文章. (一)申请竞价实例  (二)配置Jupyter Notebook服务器  (三)配置TensorFlow  (四)配置好的系统 ...

  7. 使用亚马逊云服务器EC2做深度学习(三)配置TensorFlow

    这是<使用亚马逊云服务器EC2做深度学习>系列的第三篇文章. (一)申请竞价实例  (二)配置Jupyter Notebook服务器  (三)配置TensorFlow  (四)配置好的系统 ...

  8. 使用亚马逊云服务器EC2做深度学习(二)配置Jupyter Notebook服务器

    这是<使用亚马逊云服务器EC2做深度学习>系列的第二篇文章. (一)申请竞价实例  (二)配置Jupyter Notebook服务器  (三)配置TensorFlow  (四)配置好的系统 ...

  9. 使用亚马逊云服务器EC2做深度学习(一)申请竞价实例

    这是<使用亚马逊云服务器EC2做深度学习>系列的第一篇文章. (一)申请竞价实例  (二)配置Jupyter Notebook服务器  (三)配置TensorFlow  (四)配置好的系统 ...

  10. 服务器搭建远程docker深度学习环境

    服务器搭建远程docker深度学习环境 本文大部分内容参考知乎文章 Docker+PyCharm快速搭建机器学习开发环境 搭建过程中出现ssh连接问题可以查看最后的注意事项 Docker Docker ...

随机推荐

  1. 2. Elasticsearch 使用插件和kibana操作

    引言 在上一篇文章中1. Elasticsearch 入门安装与部署 已经教了大家如何在linux系统中安装和启动Elasticsearch,本文就带大家一起学习如何操作 Elasticsearch. ...

  2. maven依赖关系及打包及阿里云仓库地址

    https://developer.aliyun.com/mvn/search 阿里云仓库地址,可以搜索 <repositories> <repository> <id& ...

  3. maven项目创建默认目录结构

    maven项目创建默认目录结构命令 项目文件夹未创建情况下 mvn \ archetype:generate \ -DgroupId=com.lits.parent \ -DartifactId=my ...

  4. 日志之log4j2和springboot

    log4j2比logback好用. 现在之所有以spring采用logback,根据我个人的理解应该是某种非常特殊的理由.否则log4j2的性能比logback更好,且异步性能极好! 异步日志是log ...

  5. Fedora升级33->34

    Fedora升级33->34   1. dnf --refresh upgrade   2. dnf install dnf-plugin-system-upgrade --best   3. ...

  6. Java for循环倒序输出

    1.实现一个for循环的倒序输出 在Java中,要实现一个for循环的倒序输出,通常我们会使用数组或集合(如ArrayList)作为数据源,然后通过倒序遍历这个数组或集合来实现.下面,我将给出一个详细 ...

  7. CF1862C 题解

    考虑每个木板在水平放置后对每个位置上产生的贡献. 稍微手玩几组样例: 不难发现一个高度为 \(h\) 的木板在水平放置后会是位置 \([1,h]\) 上高度增加 \(1\). 但是高度最大是 \(10 ...

  8. CF1860C 题解

    显然是一个博弈论题,考虑 dp. 定义状态 \(dp_i\) 表示先手走到 \(i\) 之后是否有必胜策略,不难发现以下几点: 若走到 \(i\) 之后无路可走,那么就必败. 若走到 \(i\) 之后 ...

  9. Mybatis 总结ResultMap的复杂对象查询

    association:映射的是一个POJO类,处理一对一的关联关系 collection:映射的一个集合列表,处理的是一对多的关联关系 模版 <!--column不做限制,可以为任意表的字段, ...

  10. Pyechart绘图基础

    1.绘制散点图 from pyecharts.charts import Scatter import pyecharts.options as opts import numpy as np x = ...