当前位置: 首页 > news >正文

spark3.3.x处理excel数据

环境:
spark3.3.x
scala2.12.x
引用:
spark-shell --jars spark-excel_2.12-3.3.1_0.18.5.jar
或项目里配置pom.xml

<!-- https://mvnrepository.com/artifact/com.crealytics/spark-excel -->
<dependency><groupId>com.crealytics</groupId><artifactId>spark-excel_2.12</artifactId><version>3.3.1_0.18.5</version>
</dependency>

代码:
1、直接使用excel文件第一行作为schema

val df = spark.read.format("com.crealytics.spark.excel")
//     .format("excel") // 该版本的包直接写"excel"也可以.option("header", "true") // 该版本的包将useHeader改成了header.load(filePath)

2、使用自定义schema(该方法如果excel文件第一行不是所需数据,需手动限制读取的数据范围)

// 自定义schema
val schema = StructType(List(StructField("uid", StringType, nullable = true),StructField("name", StringType, nullable = true)
))
val df = spark.read.format("com.crealytics.spark.excel")
//     .format("excel") // 该版本的包直接写"excel"也可以.option("header", "false") // 使用自定义schema,所以设置为false.option("dataAddress", "'Sheet1'!A2:B2") // 限制读取的数据范围(也可以不加:B2就是取从A列往后的所有列).schema(schema).load(filePath)

ps:刚开始用的3.3.3_0.20.1这个版本的不可用,具体报啥错忘了,降到3.3.1_0.18.5该版本正常

http://www.lryc.cn/news/209875.html

相关文章:

  • 哪一个更好?Spring boot还是Node.js
  • AD7321代码SPI接口模数转换连接DAC0832输出verilog
  • JavaScript_Pig Game切换当前玩家
  • EtherNet Ip工业RFID读写器与欧姆龙PLC 配置示例说明
  • UE5简化打包大小
  • ThinkPHP8学习笔记
  • NSSCTF做题第9页(2)
  • Rust笔记【1】
  • 代码随想录训练营day3:链表part1
  • Bootstrap的咖啡网站实例代码阅读笔记
  • 2021年06月 Python(二级)真题解析#中国电子学会#全国青少年软件编程等级考试
  • FileWriter文件字符输出流
  • Vue的八个基础命令及作用
  • Log日志详解分析
  • 【API篇】九、Flink的水位线
  • #经典论文 异质山坡的物理模型 2 有效导水率
  • Java面试题-Redis-第一天(Redis简单介绍)
  • Java 生成和读取JSON文件
  • k8s-----26、细粒度权限管理 RBAC
  • 【Unity ShaderGraph】| 制作一个 高级流体水球效果
  • 日常软件游戏丢失msvcp120dll怎么修复?分享5个修复方法
  • 自动驾驶之—2D到3D升维
  • ubuntu18.4(后改为20.4)部署chatglm2并进行基于 P-Tuning v2 的微调
  • 爬虫-获取数据xpath
  • SpringBoot中使用JdbcTemplate访问Oracle数据库
  • 【Linux】权限完结
  • 计算机网络-应用层(3)
  • 虎去兔来(C++)
  • docker基础镜像定制
  • 解决git action定时任务执行失败的方法