当前位置: 首页 > news >正文

大数据开发之Hive案例篇8-解析XML

文章目录

  • 一. 问题描述
  • 二. 解决方案
    • 2.1 官方文档
    • 2.2 XML格式不规范

一. 问题描述

今天接到一个新需求,hive表里面有个字段存储的是XML类型数据

数据格式:

<a><b>bb</b><c>cc</c>
</a>

二. 解决方案

2.1 官方文档

遇到不懂的问题,首先上官方文档查询相关文档,然后照着官网的demo改改,一般就能解决问题了

官方文档地址:
https://cwiki.apache.org/confluence/display/Hive/LanguageManual+XPathUDF
丰富的XML相关函数及测试用例

代码:

-- 求路径 a/b下面的值
SELECT xpath_string ('<a><b>bb</b><c>cc</c></a>', 'a/b') LIMIT 1 ;

测试记录:

hive> > SELECT xpath_string ('<a><b>bb</b><c>cc</c></a>', 'a/b') LIMIT 1 ;
OK
bb
Time taken: 1.477 seconds, Fetched: 1 row(s)
hive> 

2.2 XML格式不规范

因为Hive不支持XML数据格式,后端写入数据库存的是一个String类型,此时格式就没那么规范了,会有一些特殊字符

解析xml报错,原来是有特殊字符
https://stackoverflow.com/questions/730133/what-are-invalid-characters-in-xml

xml不符合规范的字符
https://blog.csdn.net/u014589856/article/details/107151252
image.png

通过正则表达式删除特殊字符:

  1. 下面几个是常用的特殊字符
@&$#%
regexp_replace(the_gifts,'[@&$#%]','')
  1. 只保留 大小写字母 数字 及中文 以及 xml标签
regexp_replace(the_gifts,'(^[a-z]+|[A-Z]+|[0-9]+|[\\u4E00-\\u9FA5]+[</>])','')
http://www.lryc.cn/news/89292.html

相关文章:

  • Sentinel降级规则
  • 基于非靶向和靶向代谢组学分析婴幼儿血管瘤的氨基酸代谢
  • 程序员困局:去大城市进大厂却买不了房,回老家又没有高薪工作…
  • 数字化转型下企业 IT 发展趋势-大企业自主研发,中小企业上云
  • 【Go语言从入门到实战】面向对象编程篇
  • 代码随想录算法训练营第四十五天 | 力扣 70. 爬楼梯(进阶), 322. 零钱兑换, 279.完全平方数
  • dvwa靶场通关(三)
  • 【计算机图形学】理论考核回顾
  • 一文了解国内外电子后视镜(CMS)现行法规标准
  • LabVIEWCompactRIO 开发指南36 确定“Clock Ticks”或模拟时间
  • ESP32 :项目的创建及项目架构解析
  • TI EDI 项目数据库方案开源介绍
  • 报表控件FastReport使用指南——使用NuGet包创建PDF文档
  • 策略模式-类型统计
  • android 12.0app应用安装白名单
  • android 12.0Launcher3禁止拖动图标到Hotseat
  • Java阶段三Day03
  • 【STM32G431RBTx】备战蓝桥杯嵌入式→决赛试题→第七届
  • Java日期时间调整的几种方式
  • 如何在Windows 11更新后解决C盘已满的问题?
  • DJ6-1/2/3 文件系统
  • 华为OD机试真题 Java 实现【打印文件】【2023Q1 100分】
  • 基于LSB实现文本、图片、压缩包的隐藏
  • (万字长文)Linux——IO之重定向+缓冲区 +重定向 +缓冲区原理实现 +带重定向的简易版shell+标准输出标准错误
  • 面试:js 延迟加载方式
  • 将Oracle数据文件导入SQL Server的方法
  • 《汇编语言》- 读书笔记 - 实验5 编写、调试具有多个段的程序
  • 剑指offer -- 二维数组中的查找
  • 3. 自然语言处理NLP:具体用途(近义词类比词;情感分类;机器翻译)
  • Hibernate的FlushMode