当前位置: 首页 > news >正文

Hive中生成自增序列的常用方法

在日常业务开发过程中,通常遇到需要hive数据表中生成一列唯一ID,当然连续递增的更好。

最近在结算业务中,需要在hive表中生成一列连续且唯一的账单ID,于是就了解生成唯一ID的方法

1. 利用row_number函数

语法:row_number() over(order by step)+start_num

step表示每次递增多少

start_num表示从哪个值开始递增,不写默认是0

如下:表示从10000开始,每次递增1

SELECT row_number() over(order by 1)+10000

因此输出是10001

如果有其他值,也可以拼接其它值,比如列date是20231010

SELECT CONCAT(date,row_number() over(order by 1)+10000) AS auto_increment_id

因此输出是2023101010001

2. 利用自定义函数序列

首先Hive环境要有hive-contrib相关jar包

定义函数row_sequence

create temporary function row_sequence as 'org.apache.hadoop.hive.contrib.udf.UDFRowSequence';

使用函数row_sequence

SELECT row_sequence() AS auto_increment_id

row_sequence的自增规则是我们自己定义的,至于怎么定义,就看我们的逻辑是怎么实现

3、二者区别

第一种方法row_number

在一次SQL运行中是全局递增的,只不过再次执行SQL就会重复,如果不想重复我们可以更改start_num的值,把start_num调整到我们认为的不会重复的值开始

或者拼接上日期或者时间戳等前缀,这样每次执行就不会重复

第二种方法UDFRowSequence

由于是我们自己定义的函数,而SQL任务是以分布式的运行的,一个SQL并发可能会有多个job执行,每个job可以理解为1个节点或者进程,在每个进程上运营的序列都从起始值开始,所以不能保证序号全局连续唯一。因此我们可以借助第三方存储记录,比如Redis,来保证生产序列的全局连续递增

http://www.lryc.cn/news/183879.html

相关文章:

  • 4.MySql安装配置(更新版)
  • 使用opencv及FFmpeg编辑视频
  • Python3 Selenium4 chromedriver Pycharm闪退的问题
  • 019 基于Spring Boot的教务管理系统、学生管理系统、课表查询系统
  • 包装类?为什么需要包装类?
  • Java中的TCP通信(网络编程 二)
  • [架构之路-232]:目标系统 - 纵向分层 - 操作系统 - 数据存储:文件系统存储方法汇总
  • 【立体视觉(五)】之立体匹配与SGM算法
  • 苹果系统_安装matplotlib__pygame,以pycharm导入模块
  • 常用颜色的英文和十六进制
  • 计算机网络第二章思考题
  • Xcode、终端、Mason、nvim.debug环境路径
  • 2023华为OD机试真题-2023(A+B卷)【Java、C++、Go、Python】
  • [NISACTF 2022]join-us - 报错注入无列名注入
  • Raid10--Raid01介绍
  • 集群服务器
  • 大数据Doris(五):开始编译 Doris
  • Linux软硬链接和动静态库
  • Linux shell编程学习笔记6:查看和设置变量的常用命令
  • leetcode 416.分割等和子集
  • Java基于SSM+Vue的平时成绩管理系统
  • flutter开发实战-webview插件flutter_inappwebview使用
  • Selenium 浏览器坐标转桌面坐标
  • 1.6.C++项目:仿muduo库实现并发服务器之channel模块的设计
  • Redis代替session 实现登录流程
  • 理解C++强制类型转换
  • 《TCP/IP网络编程》代码实现
  • 【Python】如何使用PyInstaller打包自己写好的代码
  • Java 线程的调度与时间片
  • Java项目-文件搜索工具