P99 很高但平均 RT 正常,这类接口性能问题该怎么查?
当你遇到“平均 RT 还正常,但 P99 已经很高”的现场时,最容易犯的错,就是继续盯着整体均值看。
Java
这里按页继续往后翻,仍然围绕接口变慢、数据库等待、线程池、JVM 与线上问题排查这些问题。
当你遇到“平均 RT 还正常,但 P99 已经很高”的现场时,最容易犯的错,就是继续盯着整体均值看。
发布后只坏一小批实例,是我最不愿意只看平均值的一类现场。
很多团队第一次遇到这类问题时,都会有点不服气。
那天值班群里第一句是: “刚发完版,/trade/confirm 慢了,先看哪个 commit?”
很多 Redis 热点治理会先走到分片这一步,这个方向没错,但分片上线后如果现场还是这样:
重试风暴最麻烦的地方,是它会把一场本来还能控住的慢请求事故,改写成“系统突然像被流量打穿了”。
RPC timeout 最让人别扭的一种现场,是调用方已经开始成片超时了,下游却说自己没慢。
14:07,监控上只有 3 台 account api 的 /profile/query 开始抬头。