当前位置: 首页 > news >正文

Hive刷分区MSCK

一、MSCK刷分区

我们平时通常是通过alter table add partition方式增加Hive的分区的,但有时候会通过HDFS put/cp命令或flink、flum程序往表目录下拷贝分区目录,如果目录多,需要执行多条alter语句,非常麻烦。Hive提供了一个"Recover Partition"的功能。
MSCK(全称metastore consistency check,Hive表分区连贯性检查),运行MASK REPAIR TABLE 后,Hive会去检测这个表在HDFS上的文件,把没有写入metastore的分区信息写入到metastore。

具体语法如下:

MSCK REPAIR TABLE table_name;

执行示例:

应当注意的是,如果元数据中存在,但实际数据路径不存在,hive会删除元数据中的消息,而不是去新增底层数据路径。反之如果元数据中不存在,单实际路径中存在,hive会新增元数据信息。
在命令运行的时候,常见一个报错为Caused by: MetaException (message:java. lang. Nul PointerException)或者return code 1 from org.apache.hadoop.hive.ql.exec这个报错是指,实际路径中存在过不去hive校验的数据,通常是路径有特殊字符、数据文件格式不对等,此时如果你已经确定数据没有问题,但就是过不去校验,可以使用下面的配置:

set hive.msck.path.validation=ignore;  #忽略校验错误
或者
set hive.msck.path.validation=skip;   #跳过校验

但是修改这个参数有个风险,就是你在未来操作这些问题分区的数据文件时,由于你当时没有排查并解决这些问题,可能导致操作报错,博主有过因为跳过验证后期在删除历史无用的分区时报空指针的问题。
原理相当简单,执行后,Hive会检测如果HDFS目录下存在但表的metastore中不存在的partition元信息,更新到metastore中。

二、一般情况下的【alter table add partition】

此外如果你只是新增一个已知的分区,你可以直接add它。

ALTER TABLE table_name ADD PARTITION (partition_column='value') LOCATION 'hdfs://path/to/partition';

location可以不带,默认改路径在表数据路径下,但是注意ADD PARTITION不会去直接操作对应的数据路径,和msck的时候一样,对于需要追加的新分区只操作元数据的新增。
如,使用ALTER TABLE命令指定要添加的分区:

ALTER TABLE table_name ADD PARTITION (partition_column = 'partition_value');

这个命令用于直接添加一个新的分区。如果需要刷新所有分区,可以先删除所有分区,然后重新加载数据:

ALTER TABLE table_name DELETE PARTITION (partition_column = 'partition_value');
LOAD DATA INPATH 'path_to_data' INTO TABLE table_name PARTITION (partition_column = 'partition_value');

这个流程首先删除指定分区,然后重新加载数据到该分区。
注意:在实际操作中,需要根据具体的Hive版本和集群配置来选择正确的方法,并确保有足够的权限执行这些操作。

http://www.lryc.cn/news/512051.html

相关文章:

  • 在Ubuntu下通过Docker部署Mastodon服务器
  • 【EtherCATBasics】- KRTS C++示例精讲(2)
  • MYSQL无法被连接问题
  • 【Python】什么是字典(Dictionary)?
  • Web安全 - API 成批分配漏洞的四种修复方案
  • 计算机网络实验室建设方案
  • ubuntu20.04 调试bcache源码
  • xss csrf怎么预防?
  • near-synonym反义词生成(2):Prompt +Bert-MLM(FT)
  • 【服务器项目部署】⭐️将本地项目部署到服务器!
  • Neo4j Desktop无法打开
  • 【编程语言】Kotlin快速入门 - 泛型
  • 【PostgreSQL】入门篇——在不同操作系统上安装 PostgreSQL
  • 【Docker】部署MySQL容器
  • mysql9.0windows安装
  • word中文献引用[]符号的上下标格式修改
  • 计算机毕设-基于springboot的游戏创意工坊与推广平台的设计与实现(附源码+lw+ppt+开题报告)
  • kafka的备份策略:从备份到恢复
  • 【畅购商城】微信支付之支付回调和支付状态
  • 【Compose multiplatform教程18】多平台资源的设置和配置
  • MT6765核心板_MTK6765安卓核心板规格参数_联发科MTK模块开发
  • conda常用维护命令
  • Html——10 关键字和描述
  • Mysql(MGR)和ProxySQL搭建部署-Docker版本
  • QML学习(一) Qt Quick和QML介绍以及适用场景说明
  • 深入理解 PyTorch 的 view() 函数:以多头注意力机制(Multi-Head Attention)为例 (中英双语)
  • 使用PHP函数 “setcookie“ 设置cookie
  • redis优化
  • 数据分析的革命——解读云数据库 SelectDB 版的力量
  • Ngnix介绍、安装、实战及用法!!!