长事务明明已经修了,连接池还是很紧时,我怎么确认问题还卡在哪一段?
那次对账链路做完优化以后,最让人烦躁的不是改动本身,而是改完之后监控还不好看。
Java
这里按页继续往后翻,仍然围绕接口变慢、数据库等待、线程池、JVM 与线上问题排查这些问题。
那次对账链路做完优化以后,最让人烦躁的不是改动本身,而是改完之后监控还不好看。
线上吞吐掉下来时,很多团队第一反应会先看两类指标:
消息开始堆积时,团队最常见的第一反应通常很一致:
Metaspace 这类问题最容易把人带偏的地方,是它长得不像大家最熟悉的 heap OOM。
19:47,值班群一下子跳进来一排告警。
很多 RPC 超时事故,第一眼看上去都很像“下游慢了”。
我第一次真正把“堆外把容器顶死”这件事看清,不是在白板上,而是在第二只还没死的 Pod 身上抢证据。
“Old 才 62%,为什么 Full GC 已经两三分钟来一次了?”