当前位置: 首页 > news >正文

Spark_SparkOnHive_海豚调度跑任务写入Hive表失败解决

背景

        前段时间我在海豚上打包程序写hive出现了一个问题,spark程序向hive写数据时,报了如下bug,

org.apache.spark.sql.AnalysisException:
The format of the existing table test.xx is 'HiveFileFormat' 
It doesn't match the specified format 'ParquetFIleFormat'

原因分析:

一开始我以为是我再hue上创建hive建的表,建表格式大致如下


create table if not exists test.xx (
id int,
name string
)
stored as PARQUET/***created by: Matrix70*blog:  https://blog.csdn.net/qq_52128187?type=blog*/

 后来我删了建,把分区也删了,parquet格式也加了,还是报这个问题,因此排除是建表问题

后来我看代码,入库的语句如下,死活写不进去

println("===========开始入库========")
userFrame.write.mode.("overwrite").saveAsTable("test.xx")

后来我换了 一种写法,写进去了。

println("===========开始入库========")
userFrame.write.mode.("overwrite").insertInto("test.xx")

结论

如上,为什么会这样呢,我想了一下,

  insertInto 方法将 DataFrame 的数据插入到一个已经存在的Hive表中,如果该表已经存在,则直接将数据插入到该表中,如果表不存在,则会抛出异常。如果表存在,但是表结构和DataFrame结构不匹配,则会抛出异常。

  saveAsTable方法将DataFrame保存为一个Hive表。如果表不存在,则会自动创建该表,如果表已经存在,则会用DataFrame的数据覆盖该表中的数据。与insertInto方法不同的是,saveAsTable方法可以自动创建表,而不需要手动创建表。此外,saveAsTable方法还可以指定其他的存储格式,如ORC、Parquet等。

所以如果我不使用插入的方法,还是要使用 saveAsTable的话,就是这样写

println("===========开始入库========")
userFrame.write.mode("overwrite").format("parquet").saveAsTable("test.xx")

http://www.lryc.cn/news/361766.html

相关文章:

  • SaaS 电商设计 (十一) 那些高并发电商系统的限流方案设计
  • 【算法】MT2 棋子翻转
  • 头颈肿瘤在PET/CT中的分割:HECKTOR挑战赛| 文献速递-深度学习肿瘤自动分割
  • Kafka重平衡导致无限循环消费问题
  • 执行shell脚本时为什么要写成./test.sh,而不是test.sh?
  • 【人工智能】第一部分:ChatGPT的基本概念和技术背景
  • 雪花算法详解及源码分析
  • Golang TCP网络编程
  • 先进制造aps专题十 aps项目成功指南
  • 实现Dropdown下拉菜单监听键盘上下键选中功能-React
  • Ubuntu系统升级k8s节点的node节点遇到的问题
  • 前端将DOM元素导出为图片
  • 变现 5w+,一个被严重低估的 AI 蓝海赛道,居然用这个免费的AI绘画工具就能做!
  • Ubuntu server 24 (Linux) 安装部署smartdns 搭建智能DNS服务器
  • 正点原子[第二期]Linux之ARM(MX6U)裸机篇学习笔记-24.5,6 SPI驱动实验-ICM20608 ADC采样值
  • 安装vllm的时候卡主:Collecting vllm-nccl-cu12<2.19,>=2.18 (from vllm)
  • O2O : Finetuning Offline World Models in the Real World
  • 嵌入式学习(Day:31 网络编程2:TCP)
  • 正则表达式 0.1v
  • 免费的仓库出入库管理软件有哪些?
  • python 办公自动化-生成ppt文本和图
  • 「动态规划」买卖股票的最佳时机
  • Java 并发编程面试二
  • 成功解决“ModuleNotFoundError: No Module Named ‘utils’”错误的全面指南
  • Nvidia Jetson/Orin +FPGA+AI大算力边缘计算盒子:公路智能巡检解决方案
  • 【Maxcompute】geohash转经纬度,经纬度转geohash,计算geohash九宫格
  • 【R语言基础】如何更新R版本
  • Python知识点10---函数
  • 有哪些挣钱软件一天能赚几十元?盘点十个能长期做下去的挣钱软件
  • CentOS7安装MySQL教程