当前位置: 首页 > news >正文

Zookeeper脑裂解决方案

Zookeeper脑裂原因:

主要原因是Zookeeper集群和Zookeeper client判断超时并不能做到完全同步,也就是说可能一前一后,如果是集群先于client发现,那就会出现上面的情况。同时,在发现并切换后通知各个客户端也有先后快慢。一般出现这种情况的几率很小,需要leader节点与Zookeeper集群网络断开,但是与其他集群角色之间的网络没有问题,还要满足上面那些情况,但是一旦出现就会引起很严重的后果,数据不一致。

Zookeeper 脑裂解决方案:

要解决Split-Brain脑裂的问题,一般有下面几种种方法: Quorums (法定人数) 方式: 比如3个节点的集群,Quorums = 2, 也就是说集群可以容忍1个节点失效,这时候还能选举出1个lead,集群还可用。比如4个节点的集群,它的Quorums = 3,Quorums要超过3,相当于集群的容忍度还是1,如果2个节点失效,那么整个集群还是无效的。这是zookeeper防止"脑裂"默认采用的方法。

采用Redundant communications (冗余通信)方式:集群中采用多种通信方式,防止一种通信方式失效导致集群中的节点无法通信。

Fencing (共享资源) 方式:比如能看到共享资源就表示在集群中,能够获得共享资源的锁的就是Leader,看不到共享资源的,就不在集群中。

要想避免zookeeper"脑裂"情况其实也很简单,在follower节点切换的时候不在检查到老的leader节点出现问题后马上切换,而是在休眠一段足够的时间,确保老的leader已经获知变更并且做了相关的shutdown清理工作了然后再注册成为master就能避免这类问题了,这个休眠时间一般定义为与zookeeper定义的超时时间就够了,但是这段时间内系统可能是不可用的,但是相对于数据不一致的后果来说还是值得的。

1: zooKeeper默认采用了Quorums 这种方式来防止"脑裂"现象。即只有集群中超过半数节点投票才能选举出Leader。这样的方式可以确保leader的唯一性,要么选出唯一的一个leader,要么选举失败。在zookeeper中Quorums作用如下:

  • 集群中最少的节点数用来选举leader保证集群可用。
  • 通知客户端数据已经安全保存前集群中最少数量的节点数已经保存了该数据。一旦这些节点保存了该数据,客户端将被通知已经安全保存了,可以继续其他任务。而集群中剩余的节点将会最终也保存了该数据。

假设某个leader假死,其余的followers选举出了一个新的leader。这时,旧的leader复活并且仍然认为自己是leader,这个时候它向其他followers发出写请求也是会被拒绝的。因为每当新leader产生时,会生成一个epoch标号(标识当前属于那个leader的统治时期),这个epoch是递增的,followers如果确认了新的leader存在,知道其epoch,就会拒绝epoch小于现任leader epoch的所
有请求。那有没有follower不知道新的leader存在呢,有可能,但肯定不是大多数,否则新leader无法产生。Zookeeper的写也遵循quorum机制,因此,得不到大多数支持的写是无效的,旧leader即使各种认为自己是leader,依然没有什么作用。

zookeeper除了可以采用上面默认的Quorums方式来避免出现"脑裂",还可以可采用下面的预防措施:

2: 添加冗余的心跳线,例如双线条线,尽量减少“裂脑”发生机会。

3: 启用磁盘锁。 正在服务一方锁住共享磁盘,“裂脑"发生时,让对方完全"抢不走"共享磁盘资源。但使用锁磁盘也会有一个不小的问题,如果占用共享盘的一方不主动"解锁”,另一方就永远得不到共享磁盘。现实中假如服务节点突然死机或崩溃,就不可能执行解锁命令。后备节点也就接管不了共享资源和应用服务。于是有人在HA中设计了"智能"锁。即正在服务的一方只在发现心跳线全部断开(察觉不到对端)时才启用磁盘锁。平时就不上锁了。

4: 设置仲裁机制。 例如设置参考IP(如网关IP),当心跳线完全断开时,2个节点都各自ping一下 参考IP,不通则表明断点就出在本端,不仅"心跳"、还兼对外"服务"的本端网络链路断了,即使启动(或继续)应用服务也没有用了,那就主动放弃竞争,让能够ping通参考IP的一端去起服务。更保险一些,ping不通参考IP的一方干脆就自我重启,以彻底释放有可能还占用着的那些共享资源。

http://www.lryc.cn/news/334352.html

相关文章:

  • 常用日常脚本
  • Longan Pi 3H 开发板体验
  • SpringCloud Alibaba Sentinel 创建流控规则
  • Mysql底层原理五:如何设计、用好索引
  • python学习杂记
  • C# Socket发送、接收结构体
  • ics-05-攻防世界
  • Web API(三)之事件流事件委托其他事件
  • SSL证书的作用是什么?
  • 皮具5G智能制造工厂数字孪生可视化平台,推进企业数字化转型
  • RH850从0搭建Autosar开发环境【3X】- Davinci Configurator之Port模块配置详解(MCAL配置)
  • 多叉树题目:子树中标签相同的结点数
  • 帝国CMS模板源码整站安装说明(图文)
  • 物联网系统未来的发展趋势
  • 基于支持 GPT 的服务的初创公司
  • 基于springboot实现教师人事档案管理系统项目【项目源码+论文说明】
  • 上行上传rsync+inotify
  • 借助ChatGPT写作:打造学术论文中的亮点与互动
  • 逐步学习Go-sync.Mutex(详解与实战)
  • 每日三道面试题之 Java并发编程 (一)
  • 车身稳定控制系统原理是什么?
  • vue3前端加载动画 lottie-web 的简单使用案例
  • 基于java+springboot+vue实现的健身房管理系统(文末源码+Lw)23-223
  • 10款白嫖党必备的ai写作神器,你都知道吗? #媒体#人工智能#其他
  • Docker工作流
  • 深入浅出 -- 系统架构之分布式集群的分类
  • Docker之镜像与容器的相关操作
  • 中科驭数超低时延网络解决方案入选2023年度金融信创优秀解决方案
  • 应用方案 | DCDC电源管理芯片MC34063A
  • 【个人使用推荐】联机不卡顿 小白一键部署 大厂云服务器选购指南 16G低至26 幻兽帕鲁最大更新来袭