当前位置: 首页 > news >正文

记录Hbase出现HMaster一直初始化,日志打印hbase:meta,,1.1588230740 is NOT online问题的解决

具体错误

hbase:meta,,1.1588230740 is NOT online; state={1588230740 state=OPEN, ......

 使用 hbase 2.5.5 ,hdfs和hbase分离两台服务器。

总过程

1. 问题发现

在使用HBase的程序发出无法进行插入到HBase操作日志后检查HBase状况。发现master节点和region节点都挂了,HBase自动切换到备用master节点。关闭备用master节点,重新启动HBase集群,WEB界面发现上一次启动的节点在Dead Region中不自动清除,且Region Transition卡住了395条,看日志发现master节点一直在抛出is not online on ...,16020,1569380560106异常,确认HBase没有正常运行。

检查日志发现主节点抛出如上错误。

2. 解决过程

2.1 is not online on ...,16020,1569380560106异常

重启观察到Dead Region每次会增加,感觉应该是HMaster初始化中重启导致的状态问题。之前测试环境解决这个问题是清空zookeeper和hdfs的hbase相关信息,但是因为有数据不希望清除,考虑解决该问题。

先去hdfs节点检查hbase文件有没有损坏的情况。

hdfs fsck

输出未发现数据块损坏的情况。 搜索后确认为hbase内部问题。搜索得到hdfs的hbase路径下WALs保存regionserver节点的信息,遂考虑清空重启看看能不能解决这个问题。

hdfs dfs -mkdir /hbase/WALs20240521hdfs dfs -mv /hbase/WALs/* /hbase/WALs20240521

运行后问题依旧存在,检查日志后猜测是找不到某个节点的信息导致HMaster节点无法正常初始化。在WALs中新建了一个空白的hbase:meta找不到的1,16020,1569380560106文件夹,再次重启后HMaster恢复正常,多余的Dead Region在等待三四分钟后自动清除,HBase恢复正常运行。

2.2 出现了数据缺失的情况

在HBase恢复正常后,在HBase Web UI中的HBCK REPORT发现大量的Incontinent Regions和Unknown Servers信息,怀疑是数据有问题,在使用自己的业务程序测试后发现有部分数据的请求在master节点会抛出类似于 [表名],[rowkey],[encode]在region2.16000,[encode]这里不存在,region2,16000,[encode]不在线。

初期怀疑是数据损坏了,希望通过HBCK进行修复region的hole问题,因为是2代所以从GIT上拉相关工具,官网上获取的。可能在运行 hbase hbck -j xxx.jar 后会抛出没找到文件系统 hdfs 的错误,可以加上 --internal-classpath来解决这个问题。我是因为hdfs 和 hbase 不在同一个服务器上,也可以通过添加环境变量HADOOP_HOME来解决这个错误。

首次使用fixMeta来尝试修补表中的holes解决文件损坏问题。

hbase hbck -j xxxx.jar fixMeta

运行后观察master节点的日志,发现返回了hbase:meta中发现的holes为0,排除了数据损坏的情况。焦点回到unknown servers上。

hbase hbck -j xxx.jar scheduleRecoveries [encode]

恢复崩溃的 RegionServer 上的所有 region。

3. 过程中用到的指令

hbase hbck -j xxxx.jar -o assigns [encode] # 分配Region in transition中卡住的任务
hbase hbck -j xxxx.jar bypass [pid]   # 将producer中的强行释放,在任务卡住的时候可以用
hbase hbck -j xxxx.jar fixMeta    # 修复hbase:meta的问题,需要程序正常运行

结语

仅为在网络上找到的一些方法和自己踩的坑,肯定有错误的地方,希望可以指正,谢谢。具体命令可以在HBCK2项目中的README.md中详解。

http://www.lryc.cn/news/352655.html

相关文章:

  • Linux——进程信号(二)
  • 2024.5组队学习——MetaGPT(0.8.1)智能体理论与实战(下):多智能体开发
  • SQL开窗函数
  • [xx点评完结]——白马点评完整代码+rabbitmq实现异步下单+资料,免费
  • Hadoop+Spark大数据技术 实验8 Spark SQL结构化
  • 认知V2X的技术列一个学习大纲
  • 揭秘齿轮加工工艺的选用原则:精准打造高效传动的秘密武器
  • Linux-应用编程学习笔记(二、文件I/O、标准I/O)
  • AI爆文写作:根据别人的爆款标题,如何通过名词替换改成自己的爆款标题?
  • Mybatis源码剖析---第二讲
  • SpringMvc-restful设计风格
  • 在未来你将何去何从?
  • Vue.js组件设计模式:构建可复用组件库
  • 【C语言】指针运算
  • Python学习(3) 函数
  • 计算机网络安全控制技术
  • WordPress插件Disable WP REST API,可根据是否登录来禁用REST API
  • 腾讯云COS上传文件出现的问题
  • 【C++】<知识点> 标准和文件的输入输出
  • 在阿里Anolis OS 8.9龙蜥操作系统安装docker
  • 短剧APP开发,短剧行业发展下的财富密码
  • 简述分代垃圾回收器是怎么工作的?
  • Qt 自定义代理类
  • android GridLayout 布局详解,并举例
  • el-transfer和el-tree进行结合搞一个树形穿梭框
  • 编一个自己的万年历
  • Golang gin框架中间件c.JSON返回结果后终止返回
  • 码蹄集部分题目(2024OJ赛16期;单调栈集训+差分集训)
  • 安卓玩机搞机技巧综合资源----自己手机制作证件照的几种方法 免费制作证件照
  • 揭秘循环购模式:消费返利新玩法,引领电商新潮流