当前位置: 首页 > article >正文

spark 执行 hive sql数据丢失

spark-sql 丢失数据

1.通过spark执行hive sql 的时候,发现 hive 四条数据,spark 执行结果只有两条数据
目标对应的两条数据丢失

select date, user_id, pay from dim.isr_pay_failed where user_id = ‘*******’

hive-sql 结果:
| date | user_id | pay |
| 20250425| d34342343* | 7 |
| 20250425| d34342344* | 7 |
| 202504525| d34342345* | 7 |
| 202504524| d34342346* | 7 |

spark-sql 结果
| 202504525| d34342345* | 7 |
| 202504524| d34342346* | 7 |

原因

表结构很总 user_id 为 CHAR 类型:
CHAR 类型数据在spark 和 hive 中存在如下差异:
Hive 类型 Spark SQL 类型 关键差异与注意事项
CHAR 不足补空格。建议通过 TRIM() 或改用 VARCHAR 避免填充问题。
TIMESTAMP TimestampType 时区敏感:Hive 默认使用服务器时区,Spark 需通过 spark.sql.session.timeZone
统一配置。

解决方式

select date, user_id, pay from dim.isr_pay_failed where triim(user_id) = ‘*******’;
问题解决

http://www.lryc.cn/news/2403350.html

相关文章:

  • 国产pcie switch 8748+飞腾/龙芯/昇腾高速存储方案设计
  • 【Qt】:设置新建类模板
  • 如何使用插件和子主题添加WordPress自定义CSS(附:常见错误)
  • 开始在本地部署自己的 Gitea 服务器
  • 7.2.1_顺序查找
  • spring重试机制
  • C语言的全称:(25/6/6)
  • 智能制造数字孪生全要素交付一张网:智造中枢,孪生领航,共建智造生态共同体
  • stylus - 新生代CSS预处理框架
  • python八股文算法:三数之和
  • HttpServletRequest常用方法
  • BugKu Web渗透之网站被hei(仅仅是ctf题目名称)
  • 群论在现代密码学中的应用探索与实践 —— 从理论到C语言实现
  • 深入理解MySQL死锁:从原理、案例到解决方案
  • 关于华为仓颉编程语言
  • 无字母数字webshell的命令执行
  • Spring AI 项目实战(五):Spring Boot + AI + DeepSeek + Redis 实现聊天应用上下文记忆功能(附完整源码)
  • 【华为云Astro-服务编排】服务编排使用全攻略
  • 解决el-select选择框右侧下拉箭头遮挡文字问题
  • 20250603在荣品的PRO-RK3566开发板的Android13下的使用命令行来查看RK3566的温度【显示优化版本】
  • C语言字符数组初始化的5种方法(附带实例)
  • npm run dev 报错:Error: error:0308010C:digital envelope routines::unsupported
  • 模板方法模式:优雅封装不变,灵活扩展可变
  • 基于LLaMA-Factory和Easy Dataset的Qwen3微调实战:从数据准备到LoRA微调推理评估的全流程指南
  • 6.6本日总结
  • idea中 maven 本地仓库有jar包,但还是找不到,解决打包失败和无法引用的问题
  • 安全编码规范与标准:对比与分析及应用案例
  • (33)课54--??:3 张表的 join-on 连接举例,多表查询总结。
  • 集群与分布式与微服务
  • 8.axios Http网络请求库(1)