当前位置: 首页 > news >正文

Spark处理方法_提取文件名中的时间

需求描述

        通过读取目录下的类似文件的datapath路径的文件名及文件内容,需要将读取的每一个文件的文件名日期解析出来,并作为读取当前文件内容递归读取当前文件一个df列,列名为“时间”;后面就是读一个文件,解析一下时间,将时间添加到所读文件的dataframe中,相当于给每一个读的文件内容添加了当前读取文件解析出来的时间列,以此递归循环。读取每一个文件后都要加上一列此文件解析出来的时间,形式如下

  Reading file: hdfs://master.test.com:8020/data/测试文件/_L_20231025095119.txtReading file: hdfs://master.test.com:8020/data/测试文件/_L_20231026095119.txtReading file: hdfs://master.test.com:8020/data/测试文件/_L_20231027095119.txt


内容形式如下

  文件名:L_20231025095119.txt文件内容:id,imsi,lon,lat......文件名:L_20231026095119.txt文件内容:id,imsi,lon,lat......文件名:L_20231027095119.txt文件内容:id,imsi,lon,lat......我要的文件内容输出形式为id,imsi,lon,lat,20231025095119...id,imsi,lon,lat,20231026095119...id,imsi,lon,lat,20231027095119......

代码片段:

...
...
//打印读取目录下的文件名
println("文件datapath路径")
if (dataPath.isEmpty) {println("No files to read.")
} else {for (path <- dataPath) {println(s"Reading file: $path")}
}
// 解析时间字段
// 提取文件名中的时间部分,格式为:"_L_20231111095119.txt" 中的 "20231111095119"
// 由于文件名是按目录读取的,因此要变成字符串形式并以逗号隔开
val filePath = dataPath.mkString(",")
val fileName = filePath.split("/").last.stripSuffix(".csv")
val timeStr = fileName.split("_").last
val year = timeStr.substring(0, 4)
val month = timeStr.substring(4, 6)
val day = timeStr.substring(6, 8)
val hour = timeStr.substring(8, 10)
val minute = timeStr.substring(10, 12)
val second = timeStr.substring(12, 14)
val time = s"$year-$month-$day $hour:$minute:$second"
println(time)
// 输出时间类似:2023-03-01 09:51:19
...
...
val rddAll = if(dataPath.isEmpty){sc.emptyRDD[(LongWritable,Text)]
} else {sc.newAPIHadoopRDD(jobConf,classOf[CombineTextInputFormat],classOf[LongWritable],classOf[Text])}val firstLine = {if(rddAll.take(1).length == 0){null} else {val firstLineTemp = rddAll.first()._2getAfterSplitArray(delimiter,new String(firstLineTemp.getBytes,0,firstLineTemp.getLength,encoding))}
}
...
...
val outDF = sqlc.createDataFrame(outRDD,schema)
//2修改
val outDF1 = outDF.withColumn("时间", lit(time))
outDF1.show()

http://www.lryc.cn/news/225489.html

相关文章:

  • 技术分享 | 测试平台开发-前端开发之数据展示与分析
  • NZ系列工具NZ06:VBA创建PDF文件说明
  • redis-cli 连接 sentinel架构的redis服务
  • 使用github copilot
  • 1438 绝对差不超过限制的最长连续子数组(单调队列)
  • OpenCV入门9:图像增强和图像滤波
  • Pycharm常用快捷键和替换正则表达式
  • C#,数值计算——函数计算,Epsalg的计算方法与源程序
  • Delphi 12 重返雅典 (RAD Studio 12)
  • 手写链表C++
  • 为什么我一直是机器视觉调机仔,为什么一定要学一门高级语言编程?
  • MongoDB单实例安装(Linux)
  • 各种业务场景调用API代理的API接口教程(附带电商平台api接口商品详情数据接入示例)
  • React-hooks有哪些 包括用法是什么?
  • 根据DataFrame指定的列该列中如果有n个不同元素则将其转化为n行显示explode()
  • 《持续交付:发布可靠软件的系统方法》- 读书笔记(十三)
  • 【Copilot】登录报错 Extension activation failed: “No auth flow succeeded.“(VSCode)
  • uboot - 驱动开发 - dw watchdog
  • 【系统架构设计】架构核心知识: 2.5 软件测试、系统转换计划、系统维护
  • EXPLAIN详解(MySQL)
  • [PyTorch][chapter 61][强化学习-免模型学习 off-policy]
  • 【服务器学习】 iomanager IO协程调度模块
  • 前端设计模式之【迭代器模式】
  • Linux-用户与用户组,权限
  • 使用nvm-windows在Windows下轻松管理多个Node.js版本
  • 2023.11.10 hadoop,hive框架概念,基础组件
  • Kubernetes 创建pod的yaml文件-简单版-nginx
  • Git的进阶操作,在idea中部署gie
  • 设计模式-迭代器模式(Iterator)
  • 【计算机网络笔记】Internet网络的网络层——IP协议之IP数据报的结构