当前位置: 首页 > news >正文

增量hdfs数据追平

1、假设客户只改了最近的分区。他不会去修改历史的分区表,如果大量改历史的分区表,那纯纯把hive当mysql用了。这样我们就只能找出变动的表,然后删除,重新迁移。

2、此处是确保他们不会大量改历史分区,只有少部分改(删除,重新迁移),但是他们会改最近分区,我们不能确保他的任务迁移过程中,修改了数据。所以这里我们删除的是最新分区的数据,然后在进行对表update(这样也可以把新增的表迁移过来)。

2个文件

一个是表名input.txt

a_table

b_table

....千张

一个是代码test.sh

代码如下

#!/bin/bash#1.删除目标端最新分区(防止被overwrite覆盖了)
while IFS= read -r table_namedodt_last=$(hdfs dfs -ls hdfs://xx.xx.xx.104:4007/apps/hive/warehouse/test.db/$table_name | grep 'dt=' | sort -r | head -n 1|awk -F ' ' '{print $NF}')#dt_last是hdfs长串的地址echo $dt_lastif [ -z "$dt_last" ]; thenecho "目标端为Null,通常没有迁移,$table_name是新表,不用删除"else# 在这里执行正常的操作echo "删除表: $table_name ,开始$dt_last"hdfs dfs -rm -r $dt_lastfi
done < "$1"#2.读取表,对他们进行update
echo "---hdfs最新分区删除成功,开始整表update---------"
while IFS= read -r table_name
dosource_path=hdfs://xx.xx.xx.7:8020/apps/hive/warehouse/test.db/$table_nametarget_path=hdfs://xx.xx.xx.104:4007/apps/hive/warehouse/test.db/$table_nameecho "更新表: $table_name"#2.distcp,update,delete迁移#手动指定分区echo "hadoop distcp -update -skipcrccheck -i -strategy dynamic -bandwidth 30 -m 20  $source_path $target_path"hadoop distcp -update -skipcrccheck -i -strategy dynamic -bandwidth 30 -m 20  $source_path $target_pathecho "完成$source_path到$target_path的增量更新" >> rs.txt
done < "$1"#3.修复分区
echo "---hdfs更新完成,开始修复分区---------"# 设置beeline的连接信息
BEELINE_CMD="beeline -u 'jdbc:hive2://xx.xx.xx.104:7001/cfc;principal=hadoop/xx.xx.xx.104@TBDS-xxxxxxxLE'"# 读取包含表名的txt文件
while IFS= read -r table_name
do# 执行MSCK REPAIR TABLE命令echo "Repairing partitions for table: $table_name"$BEELINE_CMD -e "MSCK REPAIR TABLE $table_name;"if [ $? -eq 0 ]; thenecho "Successfully repaired partitions for table: $table_name"elseecho "Failed to repair partitions for table: $table_name"fi
done < "$1"
#4.加入定时任务中T+2#单独的脚步

使用

sh test.sh input.txt

http://www.lryc.cn/news/535717.html

相关文章:

  • Linux高并发服务器开发 第十七天(管道缓存区查询大小 管道的优劣 命名管道mkfifo 建立释放映射区mmap/munmap 匿名映射 进程间的通信)
  • C语言常见概念
  • AI代码生成器如何重塑前端开发的工作环境
  • 设计模式-结构型-外观模式
  • 8.flask+websocket
  • ARM Cortex-M3/M4 权威指南 笔记【二】架构
  • HCIA项目实践--静态路由的拓展配置
  • STL中list的模拟实现
  • 计算机网络知识速记:HTTP1.0和HTTP1.1
  • Apache Kafka 中的认证、鉴权原理与应用
  • DeepSeek自然语言处理(NLP)基础与实践
  • 激光工控机在精密制造中的应用与优势
  • Docker换源加速(更换镜像源)详细教程(2025.2最新可用镜像,全网最详细)
  • 12.14 算法练习
  • ASP.NET Core SignalR的分布式部署
  • Express 中间件
  • ABB能源自动化选用宏集Cogent DataHub避免DCOM问题,实现高效、安全的数据传输
  • springboot239-springboot在线医疗问答平台(源码+论文+PPT+部署讲解等)
  • 【Elasticsearch】分析器的构成
  • Python 调用 Azure OpenAI API
  • 数据结构 算法时间复杂度和空间复杂度
  • CNN-BiGRU卷积神经网络双向门控循环单元多变量多步预测,光伏功率预测
  • 钉钉位置偏移解决,钉钉虚拟定位打卡
  • 【面试集锦】如何设计SSO方案?和OAuth有什么区别?
  • Python 基于 OpenCV 的人脸识别上课考勤系统(附源码,部署教程)
  • vcredist_x64.exe 是 Microsoft Visual C++ Redistributable 的 64 位版本
  • Tailwind CSS 的核心理念
  • 集成学习(二):从理论到实战(附代码)
  • HTML 链接
  • 【机器学习】数据预处理之scikit-learn的Scaler与自定义Scaler类进行数据归一化