当前位置：首页 > news >正文

HIVE SQL regexp_extract和regexp_replace配合使用正则提取多个符合条件的值

news 2025/8/12 4:25:13

《平凡的世界》评分不错，《巴黎圣母院》改变成的电影不错，还有<<1984>>也蛮好看。

如何使用regexp_extract&regexp_replace函数将以上文本中所有书籍名称都提取出来？

select 	substr(regexp_replace(regexp_extract(regexp_replace(regexp_replace('《平凡的世界》评分不错，《巴黎圣母院》改变成的电影不错，还有<<1984>>也蛮好看。','<<','《'),'>>','》'),'(.*》)',1),'.*?(《[^》|^《]+》)',',$1'),2) as books
;

代码解析:
step1:两个regexp_replace()依次将<<规整为《，将>>规整为》；
step2:regexp_extract正则提取满足pattern='.*》'时的值，此操作的主要目的为剔除最后一个书名号》后的文本内容

select 	regexp_extract(regexp_replace(regexp_replace('《平凡的世界》评分不错，《巴黎圣母院》改变成的电影不错，还有<<1984>>也蛮好看。','<<','《'),'>>','》'),'(.*》)',1);

此时提取出来的结果为：

《平凡的世界》评分不错，《巴黎圣母院》改变成的电影不错，还有《1984》

step3:regexp_replace将书名号前边的内容替换成，

#此处的$1是指第一个小括号中的匹配结果
select 	regexp_replace('《平凡的世界》评分不错，《巴黎圣母院》改变成的电影不错，还有《1984》','.*?(《[^》|^《]+》)',',$1')
;

此时提取出来的结果为：

,《平凡的世界》,《巴黎圣母院》,《1984》

此处需要注意的是：
*1）.正则表达式中用了非贪婪匹配.*?，如果使用贪婪匹配.*，最终返回的结果将会是

,《1984》

*2）若省去step2的操作，提取出来的结果不满足条件

select 	regexp_replace(regexp_replace(regexp_replace('《平凡的世界》评分不错，《巴黎圣母院》改变成的电影不错，还有<<1984>>也蛮好看。','<<','《'),'>>','》'),'.*?(《[^》|^《]+》)',',$1')
;

此时提取出来的结果为：

,《平凡的世界》,《巴黎圣母院》,《1984》也蛮好看。

step4:substr截取除第一个逗号之外的其余内容

select substr(',《平凡的世界》,《巴黎圣母院》,《1984》',2)
;

最终提取出来的结果为：

《平凡的世界》,《巴黎圣母院》,《1984》

查看全文

http://www.lryc.cn/news/179884.html

debian 安装matlab2022b报错解决方法与问题解决思路

Jenkins集成AppScan实现

10.1 File类

[论文笔记]UNILM

LLM之Colossal-LLaMA-2：Colossal-LLaMA-2的简介、安装、使用方法之详细攻略

国庆作业2

fork仓库的代码如何同步主仓库代码

【Axure】元件库和母版、常见的原型规范、静态原型页面制作

走进Spring的世界 —— Spring底层核心原理解析（一）

快看看你的手机有没有：谷歌Android全面封杀此类软件！

Oracle 19.20 patch 注意事项

ElementUI之增删改及表单验证

【Java 进阶篇】深入理解 JDBC：Java 数据库连接详解

Web开发-session介绍

基于Qt Creator开发的坦克大战小游戏

小说推文和短剧推广以及电影达人带货电影票

朴素贝叶斯分类（下）：数据挖掘十大算法之一

9.30作业

[GWCTF 2019]枯燥的抽奖

vue3中sync修饰符的使用

相关文章：