当前位置：首页 > article >正文

Spark，SparkSQL操作Mysql，创建数据库和表

article 2025/9/11 0:29:06

以下是使用 Spark SQL 在 MySQL 中创建数据库和表的步骤（基于 Scala API）：

1. 准备工作

- 添加 MySQL 驱动依赖

同前所述，需在 Spark 环境中引入 MySQL Connector JAR 包（如 mysql-connector-java-8.0.33.jar ）。

- 获取 SparkSession

scala

import org.apache.spark.sql.SparkSession

val spark = SparkSession.builder()

.appName("Spark SQL MySQL")

.master("local[*]") // 或集群地址

.getOrCreate()

2. 创建 MySQL 数据库

方式 1：通过原生 SQL 语句创建

scala

// 构建 MySQL 连接参数

val jdbcUrl = "jdbc:mysql://localhost:3306/?useSSL=false&useUnicode=true&characterEncoding=utf8" // 未指定数据库名

val user = "root"

val password = "your_password"

// 使用 Spark SQL 执行原生 MySQL 语句（需通过 JDBC 提交）

spark.sql(s"""

CREATE TABLE jdbc($jdbcUrl)

(statement 'CREATE DATABASE IF NOT EXISTS test_db')

""").show()

方式 2：通过 DataFrameWriter 间接创建（需先连接空数据库）

scala

// 连接到 MySQL 服务器（未指定数据库）

val emptyDbUrl = "jdbc:mysql://localhost:3306/?useSSL=false"

val createDbDf = spark.createDataFrame(Seq.empty[(String)]) // 空 DataFrame

createDbDf.write.format("jdbc")

.option("url", emptyDbUrl)

.option("dbtable", "(CREATE DATABASE IF NOT EXISTS test_db) AS dummy") // 执行建库语句

.option("user", user)

.option("password", password)

.mode("append")

.save()

3. 创建 MySQL 表

步骤 1：连接到目标数据库

scala

val dbUrl = "jdbc:mysql://localhost:3306/test_db?useSSL=false&characterEncoding=utf8"

步骤 2：定义表结构并创建表

方式 1：通过 Spark SQL 建表语句（DDL）

scala

// 定义表结构（DDL 语法需符合 MySQL 规范）

val createTableSql = """

CREATE TABLE IF NOT EXISTS users (

id INT PRIMARY KEY AUTO_INCREMENT,

name VARCHAR(50) NOT NULL,

age INT,

create_time TIMESTAMP DEFAULT CURRENT_TIMESTAMP

) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4

"""

// 执行建表语句（通过 JDBC 提交）

spark.sql(s"""

CREATE TABLE jdbc($dbUrl)

(statement '$createTableSql')

""").show()

方式 2：通过 DataFrame 模式推断创建表

scala

// 创建示例 DataFrame（定义表结构）

val data = Seq(

(1, "Alice", 25),

(2, "Bob", 30)

)

val schema = "id INT, name STRING, age INT"

val df = spark.createDataFrame(data, schema)

// 写入空表（自动创建表结构）

df.write.format("jdbc")

.option("url", dbUrl)

.option("dbtable", "users") // 表名

.option("user", user)

.option("password", password)

.option("driver", "com.mysql.cj.jdbc.Driver")

.mode("overwrite") // 若表不存在则创建，存在则覆盖

.save()

关键说明

1. 建库建表权限：需确保 MySQL 用户（如 root ）具备 CREATE DATABASE 和 CREATE TABLE 权限。

2. DDL 语法兼容性：Spark SQL 通过 JDBC 执行的是原生 MySQL 语句，需遵循 MySQL 的语法规则（如引擎、字符集设置）。

3. 表已存在处理：使用 CREATE TABLE IF NOT EXISTS 避免重复建表报错。

通过以上方法，可利用 Spark SQL 在 MySQL 中完成数据库和表的创建操作。

查看全文

http://www.lryc.cn/news/2384044.html

AttributeError: module ‘cv2.dnn‘ has no attribute ‘DictValue‘错误解决方法

HarmonyOS 鸿蒙应用开发基础：@Watch装饰器详解及与@Monitor装饰器对比分析

机器人拖动示教控制

免费开放试乘体验！苏州金龙自动驾驶巴士即将上线阳澄数谷

matlab加权核范数最小化图像去噪

docker容器暴露端口的作用

每日Prompt：像素风格插画

Windows逆向工程提升之二进制分析工具：HEX查看与对比技术

Android10如何设置ro.debuggable=1？

2024游戏安全白皮书：对抗激烈！PC游戏外挂功能数增长超149%，超85%移动外挂为定制挂（附获取方式）

深度解析：Spark、Hive 与 Presto 的融合应用之道

12kV 环保气体绝缘交流金属封闭开关设备现场交流耐压试验规范

位图算法——判断唯一字符

HarmonyOS 鸿蒙应用开发基础：父组件调用子组件方法的几种实现方案对比

复盘20250522

【UE5】环形菜单教程

Athena 执行引擎：在线服务计算的效率王者

飞桨paddle ‘ParallelEnv‘ object has no attribute ‘_device_id‘【已解决】

Bert预训练任务-MLM/NSP

微信小程序之Promise-Promise初始用

准备好，开始构建：由 Elasticsearch 向量数据库驱动的 Red Hat OpenShift AI 应用程序

spring的注入方式都有什么区别

RNN神经网络

Linux | 开机自启动设置多场景实现

杨校老师竞赛课之青科赛GOC3-4年级组模拟题

设计杂谈-工厂模式

SC3000智能相机-自动存图

（高级）高级前端开发者指南：框架运用与综合实战

【Java高阶面经：微服务篇】5.限流实战：高并发系统流量治理全攻略

2025中青杯数学建模B题思路+模型+代码

相关文章：