当前位置: 首页 > news >正文

利用hive元数据统计数据量

对于数据量的统计,从表是否分区分为分区表非分区表两者有着不同的统计方式

非分区表

1. 利用传统方法count

2. 利用元数据计算:

select
sum(tb.param_value) AS TOTAL
from sys.tbls t
left join sys.dbs d
on t.db_id = d.db_id
left join sys.table_params tb
on t.tbl_id = tb.tbl_id
where
tb.param_key='numRows' 
and
d.name='dw'
and (t.tbl_name ='ods_pre_t_glj_nb_road_s')

但是有时候会出现特殊情况,有非分区表的numrows为0

此时需要执行:

ANALYZE TABLE dw.ods_pre_t_lwzx_zdsj COMPUTE STATISTICS;

重新再次执行SQL语句:numRows已经有数据了

分区表

selectsum(e.PARAM_VALUE) as numRowsfrom sys.TBLS tleft join sys.DBS don t.DB_ID = d.DB_IDleft join sys.PARTITIONS a on t.TBL_ID=a.TBL_IDleft join sys.PARTITION_PARAMS e on a.part_id=e.part_idwhere t.TBL_NAME='ods_pre_tbl_ex_waste'AND e.PARAM_KEY='numRows'

同样也会出现统计数量为0或NULL或者数据量缺少的情况,此时同样需要执行

ANALYZE TABLE dw.ods_pre_t_lwzx_zdsj COMPUTE STATISTICS;

ANALYZE TABLE

ANALYZE TABLE是什么?为什么每次元数据信息统计时总会出现个别统计不准确的情况?

ANALYZE TABLE 是 Hive 中用于收集表或分区统计信息的命令。它的作用是通过扫描数据文件来计算表或分区的关键统计信息,例如行数、数据大小、列值分布等。这些统计信息存储在 Hive 的元数据中,用于优化查询计划。

统计不准确的原因有很多,分区未被正确扫描、数据未完全加载或变动后未重新统计、数据文件格式的限制等等。

优化后的SQL:

SELECTa.tbl_id,a.tbl_name,COALESCE(IF(a.table_numRows=0,b.PARTITION_numRows,a.table_numRows),0) as numRowsFROM(-- 各表总行数SELECT t.tbl_id,t.tbl_name,COALESCE(param_value,0) as table_numRowsfrom sys.TBLS tleft join sys.DBS don t.DB_ID = d.DB_IDleft join sys.table_params tbon t.tbl_id = tb.tbl_id-- 需要统计的数据库where d.name='dw'and tb.param_key='numRows' )aleft join(-- 各分区表总行数select a.tbl_id,SUM(COALESCE(PARAM_VALUE,0)) as PARTITION_numRowsfrom  sys.PARTITIONS a left join sys.PARTITION_PARAMS bon a.part_id=b.part_idWHERE b.PARAM_KEY='numRows'GROUP BY a.tbl_id)bON a.tbl_id=b.tbl_id

没有办法去批量的analyze表,可以写个shell脚本,执行以上优化后的SQL,将查询结果为0的表执行analyze以及所有分区表analyze后,再执行优化后的SQL。

http://www.lryc.cn/news/486829.html

相关文章:

  • 平均值(水题???)
  • 免费开源!DBdoctor推出开源版系统诊断工具systool
  • Bufferevent and SSL
  • 我要成为算法高手-位运算篇
  • 分布式IO模块:智慧楼宇的“智慧眼”与“智慧手”
  • 嵌入式八股文
  • 【IOS】Undefined symbol: _OBJC_CLASS_$_PAGFile
  • Spring Boot整合Tomcat底层源码分析
  • 工具类-基于 axios 的 http 请求工具 Request
  • WPF的基础控件详解
  • qt学习:截图+键盘事件
  • Scala中Arry
  • 学习threejs,使用AnimationMixer实现变形动画
  • 两大新兴开发语言大比拼:Move PK Rust
  • 基于一种基于OCR图像识别技术的发票采集管理系统及方法
  • 基于深度学习的车牌检测系统的设计与实现(安卓、YOLOV、CRNNLPRNet)+文档
  • JavaWeb——JS、Vue
  • Springboot 整合 Java DL4J 构建股票预测系统
  • ATmaga8单片机Pt100温度计源程序+Proteus仿真设计
  • FPGA通过MIPI CSI-2发送实时图像到RK3588,并HDMI显示
  • ELK8.15.4搭建开启安全认证
  • 原生微信小程序中封装一个模拟select 下拉框组件
  • 商品管理系统引领时尚零售智能化升级 降价商品量锐减30%
  • UE5 5.1.1创建C++项目,显示error C4668和error C4067
  • spring boot 集成 redis 实现缓存的完整的例子
  • json-bigint处理前端精度丢失问题
  • 【算法】【优选算法】前缀和(下)
  • Node.js 23 发布了!
  • 如何通过低代码逻辑编排实现业务流程自动化?
  • thinkphp6模板调用URL方法生成的链接异常