当前位置: 首页 > news >正文

记一次产线打印json导致的redis连接超时

服务在中午十一点上线后,服务每分钟发出三到四次redis连接超时告警。错误信息为:

Dial err:dial tcp: lookup xxxxx: i/o timeout

排查过程

先是检查redis机器的情况,redis写入并发数较大,缓存中保留了一小时大概400w条数据。redis服务器cpu和内存跟出问题前都差不多,非常接近,看不出什么问题。接下来看看服务的情况。

> LLEN xxxServ:price:change
(integer) 4100314
> ZCARD xxxServ:price:change:zSet
(integer) 963090

业务简单图

业务简单图

服务关键监控指标

  • cpu 从 12%飙升到150%
    cpu

  • 内存平稳,在 150M 上下
    内存

  • goroutines翻倍,从300到600
    goroutines

  • gc时间暴涨,从110us涨到7.5ms
    gc

  • redis 连接数达到了配置的上限20
    redis连接数

  • 文件描述符翻倍了,从100到250
    文件描述符

消息监控

  • 消息消费的qps
    mq-qps

  • 消息平均耗时
    mq耗时

核心接口监控

  • 核心接口qps减半,从200减少到100
    接口qps

  • 接口耗时涨到6倍,从250ms涨到1.5s
    接口耗时

火焰图

火焰图

定位原因

异常的指标有cpu使用率飙升,goroutines翻倍,gc时间暴涨,文件描述符翻倍,核心接口qps减半且耗时暴涨。再看看火焰图,LogToJson函数占用了83%的cpu。

出问题前上线了打印debug日志的代码,产线debug日志默认不会输出,但是debug日志入参是LogToJson的输出,输出的数据为全局的缓存数据,缓存数据比较大,且每次请求都打印一次。

并发数较高,大量打印json导致cpu过高,每次请求后这些大对象要被回收,从而导致gc时间过长,进而导致时不时出现redis io timeout 的错误。取消打印json的debug日志,问题就解决了。

经验教训

大对象不要在并发高场合打印。看到的问题可能只是现象,未必是根本原因,就像这次看起来是redis问题,但实际是打印json的问题。Code Review未必能细致到每个方法,有地方一不小心就踩坑了。

http://www.lryc.cn/news/64535.html

相关文章:

  • FPGA入门系列12--RAM的使用
  • 【三十天精通Vue 3】第二十六天 Vue3 与 TypeScript 最佳实践
  • ffmpeg-mov-metadate不识别Bug修复
  • (8)(8.6) 引导程序更新
  • 汽车电路图、原理框图、线束图、元器件布置图的识读技巧与要点
  • ( 数组和矩阵) 667. 优美的排列 II ——【Leetcode每日一题】
  • 【python基础语法七】python内置函数和内置模块
  • 81. read readline readlines 读取文件的三种方法
  • 【社区图书馆】【图书活动第四期】
  • webpack学习指南(上)
  • 刷题记录˃ʍ˂
  • Word2vec原理+实战学习笔记(二)
  • 什么是Java的多线程?
  • “use strict“是什么? 使用它有什么优缺点?
  • 【C++】C++11常用特性总结
  • 泛型——List 优于数组
  • JavaScript中对象的定义、引用和复制
  • JavaScript通过函数异常处理来输入圆的半径,输出圆的面积的代码
  • Ubuntu 安装 Mysql
  • 【五一创作】【Midjourney】Midjourney 连续性人物创作 ② ( 获取大图和 Seed 随机种子 | 通过 seed 随机种子生成类似图像 )
  • 分布式事务 --- Seata事务模式、高可用
  • SQL(基础)
  • 「OceanBase 4.1 体验」OceanBase 4.1社区版的部署及使用体验
  • 计算机操作系统实验:银行家算法模拟
  • 机器学习:多项式拟合分析中国温度变化与温室气体排放量的时序数据
  • 一个 24 通道 100Msps 逻辑分析仪
  • 使用Process Explorer和Dependency Walker排查C++程序中dll库动态加载失败问题
  • 网工Python:如何使用Netmiko的SCP函数进行文件传输?
  • 题目 3166: 蓝桥杯2023年第十四届省赛真题-阶乘的和--不能完全通过,最好情况通过67.
  • ChatGPT- OpenAI 的 模型(Model) 介绍