当前位置: 首页 > news >正文

HIVE SQL regexp_extract和regexp_replace配合使用正则提取多个符合条件的值

《平凡的世界》评分不错,《巴黎圣母院》改变成的电影不错,还有<<1984>>也蛮好看。

如何使用regexp_extract&regexp_replace函数将以上文本中所有书籍名称都提取出来?

select 	substr(regexp_replace(regexp_extract(regexp_replace(regexp_replace('《平凡的世界》评分不错,《巴黎圣母院》改变成的电影不错,还有<<1984>>也蛮好看。','<<','《'),'>>','》'),'(.*》)',1),'.*?(《[^》|^《]+》)',',$1'),2) as books
;

代码解析:
step1:两个regexp_replace()依次将<<规整为,将>>规整为
step2:regexp_extract正则提取满足pattern='.*》'时的值,此操作的主要目的为剔除最后一个书名号后的文本内容

select 	regexp_extract(regexp_replace(regexp_replace('《平凡的世界》评分不错,《巴黎圣母院》改变成的电影不错,还有<<1984>>也蛮好看。','<<','《'),'>>','》'),'(.*》)',1);

此时提取出来的结果为:

《平凡的世界》评分不错,《巴黎圣母院》改变成的电影不错,还有《1984》

step3:regexp_replace将书名号前边的内容替换成

#此处的$1是指第一个小括号中的匹配结果
select 	regexp_replace('《平凡的世界》评分不错,《巴黎圣母院》改变成的电影不错,还有《1984》','.*?(《[^》|^《]+》)',',$1')
;

此时提取出来的结果为:

,《平凡的世界》,《巴黎圣母院》,《1984》

此处需要注意的是:
*1).正则表达式中用了非贪婪匹配.*?,如果使用贪婪匹配.*,最终返回的结果将会是

,《1984》

*2)若省去step2的操作,提取出来的结果不满足条件

select 	regexp_replace(regexp_replace(regexp_replace('《平凡的世界》评分不错,《巴黎圣母院》改变成的电影不错,还有<<1984>>也蛮好看。','<<','《'),'>>','》'),'.*?(《[^》|^《]+》)',',$1')
;

此时提取出来的结果为:

,《平凡的世界》,《巴黎圣母院》,《1984》也蛮好看。

step4:substr截取除第一个逗号之外的其余内容

select substr(',《平凡的世界》,《巴黎圣母院》,《1984》',2)
;

最终提取出来的结果为:

《平凡的世界》,《巴黎圣母院》,《1984》

http://www.lryc.cn/news/179884.html

相关文章:

  • debian 安装matlab2022b报错解决方法与问题解决思路
  • Jenkins集成AppScan实现
  • 10.1 File类
  • [论文笔记]UNILM
  • LLM之Colossal-LLaMA-2:Colossal-LLaMA-2的简介、安装、使用方法之详细攻略
  • 国庆作业2
  • fork仓库的代码如何同步主仓库代码
  • 【Axure】元件库和母版、常见的原型规范、静态原型页面制作
  • 在设备树中描述中断
  • ccf_csp第一题汇总
  • uniapp 实现下拉筛选框 二次开发定制
  • 实现单行/多行文本溢出
  • Spring Boot中的Binder类
  • leetcode之打家劫舍
  • 走进Spring的世界 —— Spring底层核心原理解析(一)
  • 快看看你的手机有没有:谷歌Android全面封杀此类软件!
  • spark ui 指南
  • 【分布式事务】
  • linux 清除卸载jenkins
  • 番外4:VMware安装
  • Oracle 19.20 patch 注意事项
  • ElementUI之增删改及表单验证
  • 【Java 进阶篇】深入理解 JDBC:Java 数据库连接详解
  • Web开发-session介绍
  • 基于Qt Creator开发的坦克大战小游戏
  • 小说推文和短剧推广以及电影达人带货电影票
  • 朴素贝叶斯分类(下):数据挖掘十大算法之一
  • 9.30作业
  • [GWCTF 2019]枯燥的抽奖
  • vue3中sync修饰符的使用