Linux服务器CPU 100%怎么办？快速排查与解决方法

你可能正在悠闲地喝着咖啡，突然，你的手机开始疯狂震动——监控系统在尖叫，用户在抱怨网站打不开。你心里一紧，立刻通过SSH连接上你的Linux服务器。你感觉终端的每一个字符，都像是用尽了最后一丝力气，缓慢地显示在屏幕上。

你颤抖着双手，敲下了那个最经典的命令：top。

然后，你看到了那个让你心脏停跳半拍的数字。在屏幕的右上角，CPU占用率那一栏，赫然显示着：99.8% us, 0.2% sy, 0.0% id。

id，代表CPU的“空闲率”，是0.0%。

这意味着什么？这意味着你服务器的“大脑”，那颗作为一切运算核心的CPU，它的“思考能力”，已经被100%地压榨干净了。它就像一个陷入了深度昏迷的病人，虽然还在“呼吸”（服务器还在通电），但已经对外界的任何呼唤（你的命令、用户的访问），都失去了响应。

这就是服务器的“心搏骤停”时刻。

别慌。你现在就是这间“数字急诊室”里，唯一的主治医生。病人的生死，全在你接下来的操作。而我，将作为你的“首席住院医师”，递给你一套最快、最精准的“抢救流程和诊断工具”。

Table of Contents

第一章：“心肺复苏”—— 30秒内，找到那个“该死的”罪魁祸首

在“急诊室”里，时间就是生命。我们没有时间去慢悠悠地分析日志。我们需要立刻、马上，找到那个导致“心脏停跳”的元凶。我们有两个“听诊器”，一个经典，一个现代。

1. 经典“听诊器”：top 命令

这是Linux系统自带的、永不缺席的“老医生”。无论你的系统多么精简，top命令永远在那里。

当你输入top并回车后，你的屏幕会被分为上下两个区域。上半部分是“生命体征总览”，下半部分是“嫌疑人列表”。

如何解读“生命体征总览”？

load average： 这一行显示了过去1分钟、5分钟、15分钟的系统平均负载。
- 比喻： 把它想象成一座通往CPU的“大桥”。如果你的服务器是单核，那么负载1.0就意味着桥上“车流量”正好等于桥的通行能力。如果负载是2.0，就意味着桥上的车，已经堵成了两倍长，有一半的车在排队等待。如果你的服务器是4核，那么4.0才是满载。
%Cpu(s)： 这是最直观的CPU“心电图”。
- us (user)：用户程序占用的CPU。—— 病人在跑步机上运动消耗的体力。
- sy (system)：系统内核占用的CPU。—— 病人维持心跳、呼吸等基础生命活动消耗的体力。
- id (idle)：空闲的CPU。—— 病人躺着休息的时间。 我们的目标，就是让这个数字，恢复到一个健康的水平。
- wa (IO wait)：等待磁盘I/O的CPU。—— 病人在等快递，什么也干不了的“摸鱼”时间。

如何揪出“嫌疑人”？ 目光下移，来到那个像Excel表格一样的进程列表。top命令已经非常贴心地，默认按照%CPU（CPU占用率）这一列，从高到低给你排好序了。

排在第一行的那个进程，那个%CPU数字最接近100的家伙，有99.99%的概率，就是我们今天的“罪魁祸首”！ 记住它的名字（COMMAND列）。

2. 现代“彩色多普勒超声仪”：htop 命令

如果说top是黑白的、经典的，那么htop就是彩色的、现代的、信息量更爆炸的。

它不是系统自带的，但绝对值得你第一时间安装： sudo apt update sudo apt install htop -y

然后，输入htop。你会看到一个华丽得多的界面：

彩色的CPU/内存使用条： 让你对系统资源有一个极其直观的视觉感受。
清晰的进程树： 你可以清晰地看到，哪个进程是“父进程”，哪个是“子进程”。这对于追踪“谁是幕后黑手”极其有用。
更友好的操作： 你不需要记那些奇怪的快捷键。想“杀死”一个进程？用方向键选中它，直接按F9键，然后选择一个“信号”（通常是9 SIGKILL，代表“格杀勿论”），回车即可。

抢救第一步，已经完成。 无论是用top还是htop，你现在，应该已经知道了那个“元凶”的名字。

第二章：“病理分析”—— 这个“元凶”，到底是“自己人”还是“间谍”？

找到了消耗CPU的进程，就像医生找到了病人身上的“肿瘤”。但这个“肿瘤”，是良性的（程序Bug），还是恶性的（病毒木马）？这决定了我们下一步的“治疗方案”。

情况A：“熟面孔”的“激情燃烧” (比如 mysqld, php-fpm, nginx, java…)

如果你发现，那个把CPU跑到100%的，是你自己安装和配置的、正在服务你业务的“自己人”，比如数据库或Web程序。

这说明什么？ 这通常不意味着服务器被黑了，而是意味着，你的应用程序，可能存在严重的性能问题。
比喻： 这不是有外敌入侵，而是你麾下的一位“将军”，因为接到了一个极其复杂的“军令”（一个糟糕的SQL查询或一段死循环的代码），正在原地“发疯”，耗尽了所有体力。
下一步该怎么查？
- 如果元凶是mysqld（MySQL数据库）：
  1. 立刻登录到你的数据库里：mysql -u root -p
  2. 执行“照妖镜”命令：SHOW FULL PROCESSLIST;
  3. 这个命令，会列出当前数据库正在执行的所有“任务”。仔细观察Time列和Info列。你很可能会发现，有一条或几条SQL查询，已经执行了几百甚至上千秒，状态还是Query。那条“卡住”的SQL语句，就是“万恶之源”！把它交给你的程序员，让他去优化那段代码（比如给表加个索引）。
- 如果元凶是php-fpm：
  1. 这通常意味着你的PHP脚本里，有死循环或者极其耗时的操作。
  2. 去检查PHP的“慢日志”（slow log）。里面记录了所有执行时间超长的脚本，能帮你快速定位问题代码。
- 如果元凶是nginx或apache2：
  1. 这可能是你的网站，正在遭受“应用层攻击”（CC攻击）。
  2. 立刻去查看网站的访问日志（access.log）。使用tail -f命令，你会看到，是不是有那么几个IP地址，正在以一种非人类的速度，疯狂地、反复地请求你网站上某个最耗费资源的动态页面？如果是，那你就需要动用防火墙或WAF，来封禁这些恶意的IP地址了。

情况B：“陌生人”的“恶意寄生” (比如 kdevtmpfsi, xrjg, minerd 或一串随机字符)

警报！警报！这，是最高级别的“红色警报”！

如果你在top/htop列表里，看到了一个你完全不认识的、名字奇奇怪怪的进程，并且是它吃光了你的CPU。

这说明什么？ 你的服务器，有99.99%的概率，已经被入侵了！这个陌生进程，几乎可以肯定是“挖矿病毒”或“木马后门”。
比喻： 你的“病人”不是劳累过度，而是身体里，被植入了一个贪婪的“寄生虫”，正在疯狂地吸取他的生命力，用来为“黑客帝国”发电（挖矿）。
下一步该怎么查？（法医取证）
1. 找到它的“老巢”：
  - 先在htop里，找到这个进程的PID（进程ID）。
  - 然后执行：ls -l /proc/那个PID/exe
  - 这个命令，会告诉你，这个该死的进程，它的可执行文件，到底藏在你服务器的哪个角落里。
2. 检查它的“定时启动器”： crontab -l (检查当前用户的定时任务) sudo crontab -l -u root (检查root用户的定时任务) 很多挖矿病毒，都会在这里，留下一个“复活”脚本，确保即使你杀死了它，它也能在几分钟后，“春风吹又生”。
3. 揪出它的“同伙”： sudo netstat -tulnp | grep 那个PID 这个命令，可以告诉你，这个进程正在和互联网上的哪些“狐朋狗友”（恶意IP地址）进行通信。
治疗方案？
1. 立即“格杀勿论”： sudo kill -9 那个PID
2. 捣毁“老巢”： sudo rm -f /它藏身的路径/恶意文件名
3. 拆除“定时炸弹”： 如果在crontab里发现了可疑的定时任务，立刻用crontab -e编辑并删除它。
4. 【最重要的一步】：做完这一切，仅仅是“止血”。你的服务器，已经被“污染”了。你必须立刻修改你服务器所有的登录密码，检查所有用户的.ssh/authorized_keys文件，并进行一次全面的安全审计。如果条件允许，最安全、最彻底的方案，是备份好你的网站数据，然后，重装整个服务器系统！

第三章：“康复理疗”与“健身计划”—— 从“亡羊补牢”到“防患于未然”

“急诊”结束了，病人暂时脱离了生命危险。但一个优秀的医生，更重要的工作，是为病人制定一套“康复计划”，防止他再次入院。

安装“24小时动态心电图” (长期性能监控) top和htop是“急救工具”，但你不可能24小时盯着它。你需要一套能长期记录、分析、并告警的“专业监控系统”。这就是我们之前文章里提到的Prometheus + Grafana。为你的服务器，搭建这样一套系统，设置一个“CPU使用率连续5分钟超过90%，就立刻发钉钉告警”的规则。这，才是专业的“健康管理”。
养成“健康的生活习惯” (优化你的应用) CPU占用率高，归根结底，是“任务”太重了。你需要和你的程序员坐下来，把那些经常引起性能问题的SQL查询、PHP代码，进行一次彻底的“优化瘦身”。给数据库加上索引，优化代码里的循环，启用缓存……这些，才是降低CPU负载的“治本”之策。
学习“精力管理” (设置资源限制) 这是一个更高级的技巧。在Linux里，你可以通过cgroups或systemd，为一个特定的服务（比如一个非核心的数据处理程序），设定一个“CPU使用上限”。
- 比喻： 这就像你告诉你家里那个精力旺盛、酷爱玩耍的“熊孩子”：“你可以玩，但你每天玩游戏的时间，不能超过2个小时。”
- 效果： 这样，即使那个程序本身出现了Bug，开始疯狂“燃烧”CPU，它最多也只能把自己那“2小时”的配额用完，而绝不会影响到你其他核心服务的正常运转。

从面对100%的恐慌，到使用top/htop的精准定位，再到区分“内因”与“外患”的深度诊断，最后，到建立长期监控和预防的专业体系。

今天，你经历的，不仅仅是一次“服务器故障排查”。你完成的，是一次从“服务器使用者”，到“服务器掌控者”的思维升级。

下一次，当CPU的“警报”再次拉响时，我相信，你不再会是一个手足无措的“新手医生”。你会像一个经验丰富的“老专家”，从容不迫地，泡上一杯咖啡，然后，微笑着说：“好了，让我看看，今天又是哪个小家伙，在调皮捣蛋了。”

{{userData.name}}已认证

Linux服务器CPU 100%怎么办？快速排查与解决方法

第一章：“心肺复苏”—— 30秒内，找到那个“该死的”罪魁祸首

第二章：“病理分析”—— 这个“元凶”，到底是“自己人”还是“间谍”？

第三章：“康复理疗”与“健身计划”—— 从“亡羊补牢”到“防患于未然”

如何让网站显示“安全”？一文掌握免费SSL证书(Let's Encrypt)配置

宝塔面板搭建RustDesk教程：告别命令行，一键拥有私有远程桌面