当前位置: 首页 > news >正文

kubernetes负载感知调度

背景

kubernetes 的原生调度器只能通过资源请求来调度 pod,这很容易造成一系列负载不均的问题, 并且很多情况下业务方都是超额申请资源,因此在原生调度器时代我们针对业务的特性以及评估等级来设置 Requests/Limit 比例来提升资源利用效率。 在这种场景下依然存在很多问题:

  1. 节点负载不均:原生 Kubernetes Scheduler 根据 Requests 和节点可分配总量来调度 Pod,既不考虑实时负载,也不估计使用量,这种纯静态的调度导致节点资源利用率分配不均。 在流量波动性业务的场景下,在流量高峰时,部分节点利用率突破安全阈值,但是很多节点的利用率特别点,节点利用率相差特别大
  2. 业务周期性:在离线集群分离,在线集群底峰存在巨大资源浪费

本文主要讨论如果解决问题一,在线集群内部提升资源利用率

在线集群 Cpu 离散系数0.45,整个集群高峰时 Cpu 利用率仅25%左右;下图 Cpu 使用率离散图:

file

破局

基于上述情况,高峰时 Cpu 利用率仅25%肯定不是合理的情况,业界做的好的50%+。想要继续提升利用率,必须解决节点负载不均问题:

  1. 感知节点真实负载:要解决节点负载不均问题,必须要上报节点当前真实的负载
  2. 基于负载的正向调度插件:在默认调度器的基础上增加基于负载的调度插件,在正向调度是尽量保证节点间水位平均
  3. 基于负载的重调度组件:当业务不断波动,节点可能会因为应用负载变化导致节点负载出现差别,需要重调度迁移 Pod 重新达到平均

实践

关注的两个开源项目:

Koordinator: https://koordinator.sh/

Crane: https://gocrane.io/

相对于 Koordinator 专门为混部而生的软件,Crane以 Finops 为出发点,二者相比Koordinator更适合我们,在离线混部也是下一步计划。

调研测试

上线之后: file

遇到的问题

  1. 热点节点问题:在业务高峰时,节点负载变高,会出现热点节点,这个时候需要重调度组件介入,把 Pod 重新调度到其他节点上

需要前置打散热点节点,这就需要对应用进行资源画像,在调度中分散这种类型的应用,避免业务高峰热点节点的产生 2. 在1中的情况下,扩容部分节点缓解集群压力时,新上的节点会迅速被热点Pod占满,导致节点负载升高,再次触发重调度

调整调度插件中负载均衡打分插件的权重,让节点负载更均衡,避免热点节点问题 3. 找到合适的节点规格,小规格节点,更容器出现热点节点

在我们的业务场景下下,当前来看48c节点热点节点出现几率小于32c

本文由博客一文多发平台 OpenWrite 发布!

http://www.lryc.cn/news/191024.html

相关文章:

  • Lock使用及效率分析(C#)
  • 安卓三防平板在行业应用中有哪些优势
  • 2015架构真题(五十)
  • VScode Invoke-Expression: 无法将参数绑定到参数“Command”,因为该参数为空字符串
  • 【图像融合】差异的高斯:一种简单有效的通用图像融合方法[用于融合红外和可见光图像、多焦点图像、多模态医学图像和多曝光图像](Matlab代码实现)
  • “Python+”集成技术高光谱遥感数据处理与机器学习深度应用丨高光谱数据预处理-机器学习-深度学习-图像分类-参数回归等12个专题
  • C语言_用于ADC数据的均值滤波算法
  • 【Rust基础②】流程控制、模式匹配
  • Qt出现假死冻结现象
  • XML外部实体注入攻击XXE
  • Hudi第三章:集成Flink
  • MTC证书|欧盟与英国金属类产品清关新要求
  • 保护敏感数据的艺术:数据安全指南
  • Commonjs与ES Module
  • 分布式对象存储
  • 跨境独立站代购中国电商平台商品PHP多语言多货币
  • Python接口自动化 —— Json 数据处理实战(详解)
  • 微信页面公众号页面 安全键盘收起后页面空白
  • 数据结构 - 二叉树
  • 【Overload游戏引擎细节分析】从视图投影矩阵提取视锥体及overload对视锥体的封装
  • Linux 安全 - LSM hook点
  • 【iOS逆向与安全】越狱检测与过检测附ida伪代码
  • Android Studio gradle手动下载配置
  • ChatGPT Prompting开发实战(十三)
  • 银河麒麟 ARM 架构 离线安装Docker
  • 虹科科技 | 探索CAN通信世界:PCAN-Explorer 6软件的功能与应用
  • SELECT COUNT(*)会不会导致全表扫描引起慢查询
  • 英国物联网初创公司【FourJaw】完成180万英镑融资
  • 许战海战略文库|无增长则衰亡:中小型制造企业增长困境
  • 广州华锐互动:候车室智能数字孪生系统实现交通信息可视化