当前位置: 首页 > news >正文

Hive UDF

当Hive提供的内置函数不能满足查询需求时,用户可以根据自己业务编写自定义函数(User Defined Functions, UDF), 然后在HiveQL中调用。

例如有这样一个需求:为了保护用户隐私,当查询数据的时候,需要将用户手机号的中间四位用*号代替,比如手机号18001292688需要显示为180****2688。这时候就可以写一个自定义函数实现这个需求。

新建项目MyUDF,添加Maven依赖

<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd"><modelVersion>4.0.0</modelVersion><groupId>org.example</groupId><artifactId>MyUDF</artifactId><version>1.0-SNAPSHOT</version><properties><maven.compiler.source>8</maven.compiler.source><maven.compiler.target>8</maven.compiler.target><project.build.sourceEncoding>UTF-8</project.build.sourceEncoding><hive.version>2.1.1-cdh6.1.0</hive.version></properties><dependencies><dependency><groupId>jdk.tools</groupId><artifactId>jdk.tools</artifactId><version>1.8</version><scope>system</scope><systemPath>${JAVA_HOME}/lib/tools.jar</systemPath></dependency><!--Hadoop common包--><!-- https://mvnrepository.com/artifact/org.apache.hadoop/hadoop-common --><dependency><groupId>org.apache.hadoop</groupId><artifactId>hadoop-common</artifactId><version>2.10.2</version></dependency><!-- https://mvnrepository.com/artifact/org.apache.hive/hive-exec --><dependency><groupId>org.apache.hive</groupId><artifactId>hive-exec</artifactId><version>${hive.version}</version></dependency></dependencies><!--添加CDH的仓库--><repositories><repository><id>nexus-aliyun</id><url>http://maven.aliyun.com/nexus/content/groups/public</url></repository><repository><id>cloudera</id><url>https://repository.cloudera.com/artifactory/cloudera-repos</url></repository></repositories><build><plugins><plugin><groupId>org.apache.maven.plugins</groupId><artifactId>maven-compiler-plugin</artifactId><version>3.6.0</version><configuration><source>1.8</source><target>1.8</target><encoding>UTF-8</encoding></configuration></plugin></plugins></build></project>

新建类hive.demo.MyUDF

package hive.demo;
import org.apache.hadoop.hive.ql.exec.UDF;
import org.apache.hadoop.io.Text;/*** Hive自定义函数类*/
public class MyUDF extends UDF{/*** @param text* 调用函数时需要传入的参数* @return 隐藏后的手机号码* 自定义函数类需要一个名为evaluate()的方法,Hive将调用该方法*/public String evaluate(Text text){String result = "手机号码错误!";if(text != null && text.getLength() == 11){String inputStr = text.toString();StringBuffer sb = new StringBuffer();sb.append(inputStr.substring(0,3));sb.append("****");sb.append(inputStr.substring(7));result = sb.toString();}return result;}
}

 打包MyUDF.jar上传至路径,比如/home/hadoop/

在Hive CLI中执行

hive>add jar /home/hadoop/MyUDF.jar;

创建函数名称

CREATE TEMPORARY FUNCTION formatPhone AS 'hive.demo.MyUDF';

新建一个表测试一下这个自定义的函数

CREATE TABLE t_user(id INT, phone STRING);
INSERT INTO TABLE t_user 
SELECT 1, '13123567589'
UNION ALL SELECT 2, '15898705673'
UNION ALL SELECT 3, '18001292688';

http://www.lryc.cn/news/303201.html

相关文章:

  • python Opencv 中绘制图
  • imazing软件安全吗?2024中文永久免费许可证
  • JavaScript:防抖与节流
  • 在Win系统部署WampServer并实现公网访问本地服务【内网穿透】
  • 面试经典150题——单词规律
  • RK3568平台开发系列讲解(Linux系统篇)container_of
  • 回显服务器
  • c#,dotnet, DataMatrix 类型二维码深度识别,OCR,(基于 Halcon)
  • 亿道丨三防平板电脑厂商哪家好丨麒麟系统三防平板PAD
  • 什么是hash冲突?以及解决方案
  • C# CAD交互界面-模态窗体与非模态窗体调用方式
  • 19个Web前端交互式3D JavaScript框架和库
  • PaddleSeg分割框架解读[01] 核心设计解析
  • 新鲜出炉:小巧优雅的 css-in-js库StyledFc
  • Python编程实验四:函数的使用
  • SVN服务备份
  • FIDO2入门以及相关概念 Client to Authenticator Protocol
  • Linux系统入门:嵌入式系统的操作系统选型
  • 数据结构——时间复杂度
  • 《剑指Offer》笔记题解思路技巧优化 Java版本——新版leetcode_Part_5
  • ubuntu上安装docker
  • 【Docker】Linux主机部署Docker
  • vue前端docx库生成word表格 并合并单元格的例子
  • FastGPT配置文件及OneAPI程序:
  • Positive Semidefinite Matrices 什么是半正定矩阵?(undone)
  • shapely 笔记:STR TREE
  • neo4j常用代码
  • OpenAI划时代大模型——文本生成视频模型Sora作品欣赏(五)
  • Less预处理器教程
  • PCL 计算点云AABB包围盒的体积