当前位置: 首页 > news >正文

SparkJDBC读写数据库实战

默认的操作

  1. 代码
    val df = spark.read.format("jdbc").option("url", "jdbc:postgresql://localhost:5432/testdb").option("user", "username").option("password", "password").option("driver", "org.postgresql.Driver").option("dbtable", "test_table").load()
    
  2. 讲解
    上面这种默认情况使用jdbc driver读数据库(如pg库),仅仅会使用一个task读数据,也就是只有一个分区。要证明这一点可以通过两种方式:
  • 查看web ui
    在这里插入图片描述
    你会看到只有一个task。
  • 通过getNumPartitions方法
    int numPartitions = ds.rdd().getNumPartitions();
    
    你会看到numPartitions=1。

对数值、日期、时间戳字段分区

spark当然不可能只能用一个task读数据库,这样如果数据库数据量大了,效率将会非常低,官方提供了一些参数,可以控制并发读取数据库任务的数量。
想了解所有的参数,

http://www.lryc.cn/news/299255.html

相关文章:

  • 代码随想录 -- 数组
  • 【国产MCU】-CH32V307-基本定时器(BCTM)
  • Node.js开发-fs模块
  • 探索Nginx:强大的开源Web服务器与反向代理
  • 相机图像质量研究(4)常见问题总结:光学结构对成像的影响--焦距
  • 【从Python基础到深度学习】1. Python PyCharm安装及激活
  • 片上网络NoC(3)——拓扑指标
  • 二叉树 ---- 所有结点数
  • 步步深入 k8s 使用 pv pvc sc 在 nfs 基础上共享存储
  • Stable Diffusion 模型下载:Disney Pixar Cartoon Type A(迪士尼皮克斯动画片A类)
  • Modelsim10.4安装
  • Java基于微信小程序的医院核酸检测服务系统,附源码
  • VC++ 绘制折线学习
  • 速盾:dns解析和cdn加速的区别与联系
  • C++ Qt框架开发 | 基于Qt框架开发实时成绩显示排序系统(3) 保存表格数据
  • ChatGPT 4:新特性与优势
  • 【教程】MySQL数据库学习笔记(二)——数据类型(持续更新)
  • Servo的并发模型介绍
  • Vue3大事件项目(ing)
  • 基于spring boot实现邮箱发送和邮箱验证
  • 华清作业day56
  • 【FPGA】VHDL:八段码到8421BCD码转换电路
  • docker安装、运行
  • 新型RedAlert勒索病毒针对VMWare ESXi服务器
  • qt-C++笔记之判断一个QLabel上有没有load图片
  • 鸿蒙(HarmonyOS)项目方舟框架(ArkUI)之Menu组件
  • vue三种路由守卫详解
  • 【Linux】线程概念和线程控制
  • maven创建webapp+Freemarker组件的实现
  • Stable Diffusion 模型下载:Samaritan 3d Cartoon SDXL(撒玛利亚人 3d 卡通 SDXL)