TPx TP50 TP90 TP99 TP999 指标的个人理解

TP 英文

“top percentile” or TP based latency
“最高百分比”或基于TP的延迟

TPx 的计算方法

  1. 收集:统计一段时间内,所有请求的耗时时长。
  2. 升序排序:将这些耗时时长按从小到大的顺序进行排序,得到一个“耗时时长数列”
  3. 计算 N:计算出 TPx 应该是“耗时时长数列”中的第几个数。
  4. 获取时长:取出“耗时时长数列”第 N 个数作为 TPx 的值。

关于“minimum time”这个表述的疑问

国内不少文章把这个 minimum time 翻译成“最低耗时”,我不知道你们有没有跟我一样的疑问:

TP90=1000s 明明就是给出 4 次请求,按照耗时长度由低到高排列,取前 90% 的请求中,耗时最长的那个,咋就最小了?

所以,不太喜欢这个 “最低耗时” 的表述。

TPx 使用场景

个人猜想,实际生产环境中使用 TP50 是这样使用的:
我根据观察也好,经验也好,预先设置了一个报警阈值 threshold。

例如,threshold 我们预先设置为了 20s

监控系统统计在一个时间段内,某个方法每次调用所消耗的时长,并将这些时长按从小到大的顺序进行排序。

例如,在固定的时间段(1分钟内)内,某个方法仅调用了 4 次,并将每次调用的时长按从小到大排序后,正好是 [2s, 10s, 100s, 1000s]

此时,根据之前介绍的 TPx 的计算方法,我们可以计算出,TP50=10s。

TP50 < threshold,所以本次报警。

参考文章

指标数据TP50、TP90、TP99、TP999 跳转 click here

TP50 TP90 TP99 TP999 详细说明 跳转 click here

What do we mean by “top percentile” or TP based latency? 跳转 click here

After how many iteration SecureRandom will generate all the number between given range? 跳转 click here

原文地址:https://www.cnblogs.com/kendoziyu/p/14781468.html