Java

Java 排障专题

这里按页继续往后翻，仍然围绕接口变慢、数据库等待、线程池、JVM 与线上问题排查这些问题。

共 115 篇第 5 页 / 共 15 页

长事务明明已经修了，连接池还是很紧时，我怎么确认问题还卡在哪一段？

那次对账链路做完优化以后，最让人烦躁的不是改动本身，而是改完之后监控还不好看。

2026/3/24

锁竞争不高却吞吐掉得厉害，先查线程切换还是下游等待？

线上吞吐掉下来时，很多团队第一反应会先看两类指标：

2026/3/24

消息越堆越多，为什么常常不是消费者数量不够，而是下游变慢了？

消息开始堆积时，团队最常见的第一反应通常很一致：

2026/3/24

Metaspace 一直涨但堆没 OOM，怎么判断是不是 ClassLoader 泄漏？

Metaspace 这类问题最容易把人带偏的地方，是它长得不像大家最熟悉的 heap OOM。

2026/3/24

值班时多个告警同时响，第一轮怎么把范围收清？

19:47，值班群一下子跳进来一排告警。

2026/3/24

Netty EventLoop 被阻塞后，为什么 RPC 超时会扩散？

很多 RPC 超时事故，第一眼看上去都很像“下游慢了”。

2026/3/24

堆外内存上涨把容器逼死时，先留哪些证据？

我第一次真正把“堆外把容器顶死”这件事看清，不是在白板上，而是在第二只还没死的 Pod 身上抢证据。

2026/3/24

Old 区没打满却频繁 Full GC？一次 G1 Humongous Allocation 事故复盘

“Old 才 62%，为什么 Full GC 已经两三分钟来一次了？”

2026/3/24