内核报错kernel:NMI watchdog: BUG: soft lockup - CPU#1

heardic

2021-11-21

Linux 操作系统

1.现象描述

系统管理员电话通知，描述为一台服务器突然无法ssh连接，登录服务器带外IP地址并进入远程控制台界面后，提示Authentication error，重启后即可正常进入系统，进入后过20分钟又进入死循环

2.排查原因

登录系统后无任何操作报错如下：

询问了度娘，发现此报错为内核锁死，简称“死机”，询问管理员后得知，近期服务器安装了docker，可能由于负载过高导致

Soft lockup：这个bug没有让系统彻底死机，但是若干个进程（或者kernel thread）被锁死在了某个状态（一般在内核区域），很多情况下这个是由于内核锁的使用的问题。
内核参数kernel.watchdog_thresh（/proc/sys/kernel/watchdog_thresh）系统默认值为10。如果超过2*10秒会打印信息，注意：调整值时参数不能大于60
Linux内核对于每一个cpu都有一个监控进程，在技术界这个叫做watchdog（看门狗）。通过ps –ef | grep watchdog能够看见，进程名称大概是watchdog/X（数字：cpu逻辑编号1/2/3/4之类的）。这个进程或者线程每一秒钟运行一次，否则会睡眠和待机。这个进程运行会收集每一个cpu运行时使用数据的时间并且存放到属于每个cpu自己的内核数据结构。在内核中有很多特定的中断函数。这些中断函数会调用soft lockup计数，他会使用当前的时间戳与特定（对应的）cpu的内核数据结构中保存的时间对比，如果发现当前的时间戳比对应cpu保存的时间大于设定的阀值，他就假设监测进程或看门狗线程在一个相当可观的时间还没有执。Cpu软锁为什么会产生，是怎么产生的？如果linux内核是经过精心设计安排的CPU调度访问，那么怎么会产生cpu软死锁？那么只能说由于用户开发的或者第三方软件引入，看我们服务器内核panic的原因就是qmgr进程引起。因为每一个无限的循环都会一直有一个cpu的执行流程（qmgr进程示一个后台邮件的消息队列服务进程），并且拥有一定的优先级。Cpu调度器调度一个驱动程序来运行，如果这个驱动程序有问题并且没有被检测到，那么这个驱动程序将会暂用cpu的很长时间。根据前面的描述，看门狗进程会抓住（catch）这一点并且抛出一个软死锁（soft lockup）错误。软死锁会挂起cpu使你的系统不可用。

3.具体分析

1.系统如下时间2个时间进行了重启:

Mar  3 21:53:16 ser-node7 kernel: Linux version 3.10.0-957.el7.x86_64 (mockbuild@x86040.build.eng.bos.redhat.com)
Mar  3 22:37:19 ser-node7 kernel: Linux version 3.10.0-957.el7.x86_64 (mockbuild@x86040.build.eng.bos.redhat.com)

在重启前的一段时间均已经出现了cpu软锁的现象，而深入分析cpu软锁，我们依赖于kdump产生的vmcore数据.

Mar  3 14:28:18 ser-node7 kernel: NMI watchdog: BUG: soft lockup - CPU#5 stuck for 22s! [runc[1:CHILD]:52902]
Mar  2 18:14:59 ser-node7 kernel: NMI watchdog: BUG: soft lockup - CPU#3 stuck for 23s! [runc:[1:CHILD]:55961]

./systemctl_list-unit-files:kdump.service enabled
如果您之前已经做过，那么请您额外修改/etc/sysctl.conf加入以下行:
kernel.softlockup_panic = 1
然后执行"sysctl -p"使参数生效。这样当系统出现cpu软锁现象时，会自动触发kernel panic，此时如果kdump可以正常工作，会生成vmcore.并自动重新启动系统

2.另外在日志中我们还注意了存在如下的告警,其和上面的soft lockup问题无直接关系.

# cat messages | grep "SLUB: Unable to allocate memory on node"

Mar  2 18:04:45 ser-node7 kernel: SLUB: Unable to allocate memory on node -1 (gfp=0xd0)
Mar  3 14:54:25 ser-node7 kernel: SLUB: Unable to allocate memory on node -1 (gfp=0xd0)
Mar  3 14:54:25 ser-node7 kernel: SLUB: Unable to allocate memory on node -1 (gfp=0xd0)

此为系统的已知BUG，具体请参考如下KB：

SLUB: Unable to allocate memory on node -1 (gfp=0x20)
https://access.redhat.com/solutions/4088471
依据此KB，请将kernel升级到kernel-3.10.0-1062.4.1.el7或者更新.
kernel-3.10.0-1062.4.1.el7下载地址为:
https://access.redhat.com/errata/RHSA-2019:3055
如何升级内核，请查看下面文档：
How to update/upgrade the Red Hat Enterprise Linux kernel?
https://access.redhat.com/solutions/20366

4.解决方案

百度大手子给的方案如下所示：

vi /etc/sysctl.conf
kernel.watchdog_thresh =30
查看：# tail -1 /proc/sys/kernel/watchdog_thresh
临时生效：# sysctl -w kernel.watchdog_thresh=30

阅读剩余

本站代码模板仅供学习交流使用请勿商业运营，严禁从事违法，侵权等任何非法活动，否则后果自负！

------本页内容已结束，喜欢请分享------

版权声明 1 本站名称： 诺言博客
2 本站网址：www.nuoyo.cn
3 本网站的文章部分内容可能来源于网络，仅供大家学习与参考，如有侵权，请联系站长进行删除处理。
4 本站一切资源不代表本站立场，并不代表本站赞同其观点和对其真实性负责。
5 本站一律禁止以任何方式发布或转载任何违法的相关信息，访客发现请向站长举报。
6 本站附件资源、教程等内容如因时效原因失效或不可用，请评论区留言或联系站长及时更新。

THE END

日历

1月

星期四

123

1月27日

123

评论于PyCharm一键脚本激活（亲测有效）PyCharm破解补丁 JetBrains全家桶破解

Da Font

1月25日

download free fonts from https://www.dafont.com/profile.php?user=1070336

评论于同时使用国内CDN服务和CloudflareCDN

夏天屋

1月24日

名称：夏天屋
简介：专注于网络资源收集与分享!
链接：https://xtwo.cn
图标：https://xti.cc/favicon.png

评论于友情链接

bold Japanese fonts

1月17日

Discover a wide collection of free Japanese fonts at japanesefonts.org!

评论于同时使用国内CDN服务和CloudflareCDN

lszyw

1月11日

网站名称：绿色导航网
网址：https://www.lszyw.cn
关键词：绿色导航网,技术导航,seo自助链接,自动链接网,站长联盟,网站流量
网站介绍：绿色导航网(http://www.lszyw.cn’) 国内屈指可数的技术教程活动目录导航分类平台，站点已累计收录数千网站，累计为中国网民提供多达数亿的访问点击，满足用户随时查阅最全面最权威的文章资讯教程

评论于友情链接

heardic

1月10日

重新添加上了，当时可能是打不开了就删除了

评论于友情链接

heardic

1月10日

已添加

评论于友情链接