当前位置: 首页 > news >正文

【博客685】prometheus 出现NaN场景以及如何去除干扰(Not a Number)

prometheus 出现NaN场景以及如何去除干扰(Not a Number)

1、在prometheus中使用NaN来表示无效数值或者结果

场景:

一些监控系统使用 NaN 作为空值或缺失值,但在 Prometheus 中 NaN 只是另一个浮点值。Prometheus 表示缺失数据的方式是让数据缺失。Prometheus 支持所有 64 位浮点值,包括正无穷大、负无穷大和 NaN。

出现NaN的情况示例:

  • 除以分母0

  • 用作过时处理一部分的标记。

    然而,这是一个实现细节。在过时实现中使用的特定位模式恰好是 NaN,这对 PromQL 用户来说永远是不可见的,尽管远程存储实现如果自己做任何数学运算,可能必须关心这一点。

NaN参数运算时:

因为任何涉及 NaN 的数学都会返回 NaN。根据标准浮点语义,您可以利用 NaN 的独特属性 NaN != NaN。然而,这种情况的用例通常是平均值或分位数的平均值,这两者在统计上都不是有效的。

PromQL 中有些地方对 NaN 值进行了特殊处理,以便行为符合预期。min并max会分别认为 NaN 值大于/小于所有其他数字。sort并且sort_desc实际上并不对称,NaN 总是排在底部。类似地,bottomk和topk将分别认为 NaN 值大于/小于所有其他数字。换句话说,只要你至少有k非 NaN 值,bottomk就topk不会返回 NaN。在某一时刻changes还需要修复错误才能NaN正确处理。

2、如何处理NaN

2-1、即先求和再除。一般来说,总是最后进行除法

不要用:

avg by (job)(rate(my_sum[5m])/ rate(my_count[5m])
)

要用:

  sum by (job)(rate(my_sum[5m]))
/sum by (job)(rate(my_count[5m]))

2-2、如果 NaN 设法进入对值进行数学运算的函数或运算符的输入,则结果将为 NaN。在这种情况下,消除 NaN 的来源,而不是尝试解决下游的不良数据。

注意:这也是为什么部分开源dashboard中,要对源数据取>0就是要过滤掉NaN,以避免由于个别NaN数值,导致整个Sql的结果为NaN

example:

sum (irate (memcached_commands_total{instance=“memcached-instance”}[5m])) by (command)

结果:

{command="delete"}  0
{command="flush"}   0
{command="get"} 62.733333333333334
{command="incr"}    0
{command="set"} 93.43333333333334
{command="touch"}   NaN
{command="cas"} 0
{command="decr"}    0

sum (irate (memcached_commands_total{instance=“memcached-instance”}[5m]))

{}  NaN

原因: command="touch"是NaN,因此整个计算是NaN

解决办法: 从计算源中去除NaN

sum (irate (memcached_commands_total{instance="memcached-instance"}[5m]) > 0)

3、为什么不设置成 0 , 而设置成 NaN

某些情况下0是正常值,代表某种特殊情况,这样就会混淆

4、Prometheus的函数对NaN处理逻辑:

如果 Metrics 的值里面混有 NaN 的值, 那么会直接污染整个结果, 导致输出的结果就像上面那样, 全部都是 NaN. rate 和 stddev 函数同理

// sum
func funcSumOverTime(vals []parser.Value, args parser.Expressions, enh *EvalNodeHelper) Vector {return aggrOverTime(vals, enh, func(values []Point) float64 {var sum float64for _, v := range values {sum += v.V                   // 这里可以看到, 直接累加全部的收集到的 Metrics 的值, }return sum})
}// avg
func funcAvgOverTime(vals []parser.Value, args parser.Expressions, enh *EvalNodeHelper) Vector {return aggrOverTime(vals, enh, func(values []Point) float64 {var mean, count float64for _, v := range values {count++mean += (v.V - mean) / count  // 这里也是类似, 把和现在差值直接加上去}return mean})
}

max 和 min 函数不受影响:

// Max
func funcMaxOverTime(vals []parser.Value, args parser.Expressions, enh *EvalNodeHelper) Vector {return aggrOverTime(vals, enh, func(values []Point) float64 {max := values[0].Vfor _, v := range values {if v.V > max || math.IsNaN(max) {  // 过滤 NaNmax = v.V}}return max})
}// Min
func funcMinOverTime(vals []parser.Value, args parser.Expressions, enh *EvalNodeHelper) Vector {return aggrOverTime(vals, enh, func(values []Point) float64 {min := values[0].Vfor _, v := range values {if v.V < min || math.IsNaN(min) {  // 过滤 NaNmin = v.V}}return min})
}
http://www.lryc.cn/news/115038.html

相关文章:

  • 【计算机网络】网络层协议 -- ICMP协议
  • 机器学习---facebook的案例学习
  • OpenMMLab MMDetectionV3.1.0-SAM(环境安装、模型测试、训练以及模型后处理工具)
  • ios_base::out和ios::out、ios_base::in和ios::in、ios_base::app和ios::app等之间有什么区别吗?
  • PostgreSQL 使用SQL
  • Shell编程基础(十四)文本三剑客(grep)
  • Linux root用户执行修改密码命令,提示 Permission denied
  • Java面向对象学习第三部分
  • python+vue生成条形码码并展示
  • 在线高精地图生成算法调研
  • 【干货】商城系统的重要功能特性介绍
  • MYSQL06高级_为什么使用索引、优缺点、索引的设计、方案、聚簇索引、联合索引、注意事项
  • LeetCode 130. 被围绕的区域
  • python中2等于2.0吗,python中【1:2】
  • 【2023年11月第四版教材】《第2章-信息技术发展(第一部分)》
  • 【CSS】说说对BFC的理解
  • ES6学习-Class类
  • C语言经典小游戏之扫雷(超详解释+源码)
  • 算法leetcode|67. 二进制求和(rust重拳出击)
  • 【ASP.NET MVC】第一个登录页面(8)
  • 使用Openoffice或LibreOffice实现World、Excel、PPTX在线预览
  • 20天学会rust(三)没有object的rust怎么面向对象?
  • 整数规划——第三章 全单模矩阵
  • 数据结构和算法
  • [Vulnhub] matrix-breakout-2-morpheus
  • JDK, JRE和JVM之间的区别和联系
  • mac电脑访问windows共享文件夹连接不上(设置445端口)
  • metersphere性能压测执行过程
  • 揭秘Word高级技巧:事半功倍的文字处理策略
  • 06-1_Qt 5.9 C++开发指南_对话框与多窗体设计_标准对话框