当前位置: 首页 > news >正文

spark sql上线前的调试工作实现

背景

每个公司应该都有大数据的平台的吧,平台的作用就是可以在上面执行各种spark sql以及定时任务,不过一般来说,由于这些spark sql的上线不经过测试,所以可能会影响到生产的数据,这种情况下大数据平台提供一个上线前的调试功能也就非常好了

spark sql上线前的调试工作

我们写spark sql主要是用来查询其他hive表的数据,经过数据清洗等操作后写入自己的hive目标表,但是我们hive的目标表也可能也在被别人使用,所以当我们修改spark sql后应用到hive目标表的时候风险就极大,一旦我们的hive目标表数据错误,极有可能影响到下游的任务,导致一连串的数据问题,此时,问题就来了,我怎么在修改spark sql但是正式写到hive目标表之前先看一下数据?

其实意识到这个问题后,解决的方式就显得很简单了。我们可以在spark sql修改后但是上线之前的调试阶段把结果数据先写入一张临时的hive表,等确认这张临时的hive表的数据是正确之后,再正式上线这个修改的spark sql语句。那如何把hive目标表替换成临时的hive表呢?其实对于spark sql来说也很简单,我们只需要识别insert into 后面的hive目标表即可,知道hive目标表后我们把它替换成临时hive表,问题既可得到解决。
在这里插入图片描述

http://www.lryc.cn/news/295230.html

相关文章:

  • java -jar启动SpringBoot项目时配置文件加载位置与优先级
  • 每日一题 力扣LCP30.魔塔游戏
  • iPhone搞机记录
  • Linux中共享内存(mmap函数的使用)
  • Golang与Erlang有什么差异
  • cesium系列篇:Entity vs Primitive 源码解析(从Entity到Primitive)02
  • golang windows 环境搭建 环境配置
  • 【Git】06 常用场景
  • docker下nacos(1.2.0)的持久化
  • Win32 SDK Gui编程系列之--弹出式菜单
  • VisaulStudio2022下用VB.net实现socket与西门子PLC进行通讯案例(优化版)
  • npm安装命令
  • 【Git版本控制 01】基本操作
  • Spring 开发 pom.xml 配置文件(通用配置)
  • LabVIEW高精度主动模拟肺系统的开发与应用
  • 打包 iOS 的 IPA 文件
  • [Vulnhub靶机] DriftingBlues: 2
  • 鸿蒙 WiFi 扫描流程(1)
  • 基于YOLOv8的暗光低光环境下(ExDark数据集)检测,加入多种优化方式---DCNv4结合SPPF ,助力自动驾驶(一)
  • (十三)springboot实战——springboot前后端分离方式项目集成spring securtity安全框架
  • XCTF:3-1[WriteUP]
  • 常用ES技巧二
  • 鸿蒙(HarmonyOS)项目方舟框架(ArkUI)之Rating组件
  • Python进阶--爬取下载人生格言(基于格言网的Python3爬虫)
  • FastAdmin
  • Java设计模式大全:23种常见的设计模式详解(一)
  • SaperaCamExpert(相机专家)中文使用指南
  • ES鉴权设计以及相关探讨
  • 为什么SpringBoot胖Jar不好
  • Java学习笔记2024/2/6