当前位置：首页 > news >正文

hive自定义函数

news 2025/7/1 8:11:38

hive自定义函数

hive内置的函数满足不了所有的业务需求，可以考虑自己定义函数

UDF：一对一输出(upper)

UDTF：一对多输出 (lateral view explode)

UDAF：多对一输出(count, max, min)

自定义UDF

用java实现一个UDF

引入依赖

<dependency><groupId>org.apache.hive</groupId><artifactId>hive-exec</artifactId><version>2.3.7</version></dependency><dependency><groupId>org.apache.hadoop</groupId><artifactId>hadoop-common</artifactId><version>2.7.5</version></dependency>

继承UDF，重写evalute方法

public class myUDF extends UDF {public Text evaluate(final Text s) {if (null == s) {return null;}//返回小写字母return new Text(s.toString().toLowerCase());}}

打包

请添加图片描述

上传到hive/lib目录,

cd /opt/module/hive/libmv hive_udf-1.0-SNAPSHOT.jar myLower

进入hive客户端添加jar包

hive (default)> add jar /opt/module/hive/lib/myLower;

创建临时函数

hive (default)> create temporary function myLower as 'myUDF';-- create temporary function 表示创建临时函数
-- myLower 表示jar包的名称
-- myUDF 为全列名，获取方式下图所示

请添加图片描述

使用自定义函数

hive (default)> select myLower('AS');
OK
_c0
as

自定义UDTF

需求

实现将用逗号分割的字符串，拆分成一个一个的字符串

输入：hello, world, hello, hive
输出：helloworldhellohive

实现

UDTF首先会调用 initlizer()方法，返回UDTF的返回行信息(返回个数、类型)

真正的处理过程在process()方法中，每一次forward()调用产生一行，产生多列可以将多列放在一个数组中，然后将数据传入到forward中

最后调用close()方法来进行清理

初始化方法 initialize

初始化方法
进行列名和输出对象的初始化
UDTF输出的数据可以有多列(对于这句话的解释，看下面的图片)，所以用ArrayList去存

先看表名结构，下面用explode函数来输出children

请添加图片描述

由下图可知输出了两个列，所以UDTF输出的数据可以有多列

请添加图片描述

@Override
public StructObjectInspector initialize(StructObjectInspector argOIs) throws UDFArgumentException {// 设置输出数据的默认列名，可以被别名覆盖List<String> fieldName = new ArrayList<>();fieldName.add("word");// 设置输出数据的类型List<ObjectInspector> fieldOIs = new ArrayList<>();fieldOIs.add(PrimitiveObjectInspectorFactory.javaStringObjectInspector);return ObjectInspectorFactory.getStandardStructObjectInspector(fieldName, fieldOIs);
}

process方法

// 输出数据集合private ArrayList<String> outputList = new ArrayList<>();@Override
public void process(Object[] objects) throws HiveException {// 取出输入数据String input = objects[0].toString();// 按照 , 进行分割String[] words = input.split(",");// 遍历写出for (String word : words) {// 清空集合outputList.clear();// 将数据放入集合outputList.add(word);// 输出数据forward(outputList);}}

完整代码

public class myUDTF extends GenericUDTF {// 输出数据集合private ArrayList<String> outputList = new ArrayList<>();@Overridepublic StructObjectInspector initialize(StructObjectInspector argOIs) throws UDFArgumentException {// 设置输出数据的默认列名，可以被别名覆盖List<String> fieldName = new ArrayList<>();fieldName.add("word");// 设置输出数据的类型List<ObjectInspector> fieldOIs = new ArrayList<>();fieldOIs.add(PrimitiveObjectInspectorFactory.javaStringObjectInspector);return ObjectInspectorFactory.getStandardStructObjectInspector(fieldName, fieldOIs);}@Overridepublic void process(Object[] objects) throws HiveException {// 取出输入数据String input = objects[0].toString();// 按照 , 进行分割String[] words = input.split(",");// 遍历写出for (String word : words) {// 清空集合outputList.clear();// 将数据放入集合outputList.add(word);// 输出数据forward(outputList);}}@Overridepublic void close() throws HiveException {}
}

测试

将上面程序进行打包，重复UDF中的过程，进行测试

mv hive_udf-1.0-SNAPSHOT.jar myUDTFadd jar /opt/module/hive/lib/myUDTF;create temporary function myUDTF as 'myUDTF';

测试结果

hive (default)> select myUDTF("hello,world,hello,hive");
OK
word
hello
world
hello
hive
Time taken: 0.154 seconds, Fetched: 4 row(s)

查看全文

http://www.lryc.cn/news/8643.html

数仓理论【范式】【维度建模】

卷积神经网络

解决Qt提示xxx.so not found( using -rpath or -rpath-link)问题

Blazor 托管模型 BlazorWebAssembly和Blazor Server

从未想过制作数据可视化展示竟可以如此简单

企业电子招投标采购系统源码之功能模块的描述

LeetCode-2341. 数组能形成多少数对【哈希表，计数】

vue-echarts实现多功能图表

C#快键精灵

谷歌、微软、Meta？谁才是 Python 最大的金主？

面向对象笔记

tofu：一款功能强大的模块化Windows文件系统安全测试工具

VS中scanf为什么会报错

使用kubeadm部署k8s1.24.0版本，遇到的坑总结

【C++】特殊类设计

中创教育PMP如何轻松应对公司90%以上的沟通难题

#笨鸟先飞# 数据结构与算法基础课程笔记第六章图

深入浅出带你学习Apache中间件常见漏洞

用多种指针方法访问数据元素，实现逆序输出

WebDAV之葫芦儿·派盘+NMM

Redis多级缓存

【原创】java+swing+mysql会议室管理系统设计与实现

【Redis】Redis 常用数据类型操作 ① ( 数据库操作 | Redis 数据库连接参数 | Redis 数据库个数 | Redis 访问机制 )

GAMES101-计算机图形学入门 LEC4: TRANSFORMATION-3D

学习笔记＜二＞ MySQL学习(3)：分库、分表

重生之我是赏金猎人-SRC漏洞挖掘(八)-记一次移花接木的GetShell

hive自定义函数

自定义UDF

自定义UDTF

需求

实现

初始化方法 initialize

process方法

完整代码

测试

相关文章：