Java

Java 排障专题

这里按页继续往后翻，仍然围绕接口变慢、数据库等待、线程池、JVM 与线上问题排查这些问题。

共 115 篇第 6 页 / 共 15 页

P99 很高但平均 RT 正常，这类接口性能问题该怎么查？

当你遇到“平均 RT 还正常，但 P99 已经很高”的现场时，最容易犯的错，就是继续盯着整体均值看。

2026/3/24

发布后只坏一小批实例，是我最不愿意只看平均值的一类现场。

2026/3/24

很多团队第一次遇到这类问题时，都会有点不服气。

2026/3/24

那天值班群里第一句是： “刚发完版，/trade/confirm 慢了，先看哪个 commit？”

2026/3/24

很多 Redis 热点治理会先走到分片这一步，这个方向没错，但分片上线后如果现场还是这样：

2026/3/24

重试风暴最麻烦的地方，是它会把一场本来还能控住的慢请求事故，改写成“系统突然像被流量打穿了”。

2026/3/24

RPC timeout 最让人别扭的一种现场，是调用方已经开始成片超时了，下游却说自己没慢。

2026/3/24

14:07，监控上只有 3 台 account api 的 /profile/query 开始抬头。

2026/3/24