当前位置: 首页 > news >正文

SpringBoot 接入 Spark

本文主要介绍 SpringBoot 与 Spark 如何对接,具体使用可以参考文章 SpringBoot 使用 Spark

pom 文件添加 maven 依赖

  • spark-core:spark 的核心库,如:SparkConf
  • spark-sql:spark 的 sql 库,如:sparkSession
  • janino: Janino 是一个极小、极快的 开源Java 编译器,若不添加,spark 获取 MySQL 或 JSON 数据时会报错

org.springframework.web.util.NestedServletException: Handler dispatch failed; nested exception is java.lang.NoClassDefFoundError: org/codehaus/janino/InternalCompilerExceptio

<dependency><groupId>org.apache.spark</groupId><artifactId>spark-core_2.13</artifactId><version>3.2.1</version>
</dependency><dependency><groupId>org.apache.spark</groupId><artifactId>spark-sql_2.13</artifactId><version>3.2.1</version>
</dependency><dependency><groupId>org.codehaus.janino</groupId><artifactId>janino</artifactId><version>3.0.8</version>
</dependency>

 
application.yml 添加 spack 配置,master 使用 local 不需要搭建 spark,方便学习与测试

spark:app:name: fatmaster:uri: local[*]

 
配置 SparkConfig

  • sparkConf:Spark 基础信息配置
  • JavaSparkContext:基于 sparkConf 生成,用于
  • SparkSession:基于 SparkContext 生成
@Configuration
public class SparkConfig {@Value("${spark.app.name}")private String appName;@Value("${spark.master.uri}")private String sparkMasterUri;@Beanpublic SparkConf sparkConf() {SparkConf sparkConf = new SparkConf().setAppName(appName).setMaster(sparkMasterUri);return sparkConf;}@Bean@ConditionalOnMissingBean(JavaSparkContext.class)public JavaSparkContext javaSparkContext() {return new JavaSparkContext(sparkConf());}@Beanpublic SparkSession sparkSession() {return SparkSession.builder().sparkContext(javaSparkContext().sc()).getOrCreate();}
}
  • SparkContext:从Spark1.x开始,Spark SparkContext是Spark的入口点,用于在集群上以编程方式创建Spark RDD、累加器和广播变量。是spark执行环境的客户端,是spark执行作业的入口点,是spark应用程序的主控。

  • SparkSession:从Spark2.0开始,SparkSession已经成为Spark处理RDD、DataFrame 和 Dataset 的入口点。SparkSessio n封装了SparkConf、SparkContext和SQLContext。为了向后兼容,SQLContext和HiveContext也被保存下来。它实质上是SQLContext和HiveContext的组合(未来可能还会加上StreamingContext),所以在SQLContext和HiveContext上可用的API在 SparkSession 上同样是可以使用的。SparkSession 内部封装了sparkContext,所以计算实际上是由 sparkContext 完成的。

  • SQLContext:在Spark version1.0中,为了处理结构化数据(行和列),SQLContext (org.apache.spark.sql.SQLContext )是一个入口点,但是在2.0版本中,SQLContext已经被SparkSession所取代。Apache Spark SQLContext是SparkSQL的入口点,Spark是Spark1.x中用于结构化数据(行和列)的Spark模块。正在处理。Spark SQLContext已初始化。

  • JavaSparkContext 是 Java友好版本的[org.apache.spark.SparkContext]返回[org.apache.spark.api.java.JavaRDD],并使用Java集合,而不是Scala集合。

http://www.lryc.cn/news/5327.html

相关文章:

  • 在线支付系列【23】支付宝开放平台产品介绍
  • Python绝对路径和相对路径详解
  • 基于多进程的并发编程
  • Flask入门(4):CBV和FBV
  • Qt OpenGL(三十九)——Qt OpenGL 核心模式-在雷达坐标系中绘制飞行的飞机
  • 系统应用 odex 转 dex
  • 【GPLT 三阶题目集】L3-013 非常弹的球
  • vue项目第三天
  • 【渝偲医药】实验室关于核磁共振波谱NMR的知识(原理、用途、分析、问题)
  • 教你文本生成图片——stablediffusion
  • C语言学习笔记-命令行参数
  • ASEMI代理FGH60N60,安森美FGH60N60车规级IGBT
  • http409报错原因
  • 设计模式:适配器模式(c++实现案例)
  • Python|每日一练|数组|回溯|哈希表|全排列|单选记录:全排列 II|插入区间|存在重复元素
  • Linux进程状态
  • 大数据第一轮复习笔记
  • HTML面试题
  • CUDA内存管理一文理清|参加CUDA线上训练营
  • Transformation(转换算子)
  • 总结如何设计一款营销低代码可视化海报平台
  • spark04-文件读取分区数据分配原理
  • 常见的网络安全攻击及防御技术概述
  • NetSuite Balancing Segment平衡段
  • Docker 中遇到的问题
  • 树莓派用默认账号和密码登录不上怎么办;修改树莓派的密码
  • 【LeetCode】不同的二叉搜索树 [M](卡特兰数)
  • 【软件相关】文献管理工具——Zotero
  • leetcode练习一:数组(二分查找、双指针、滑动窗口)
  • iPhone更新iOS 16.3出现应用卡死、闪退的问题怎么办?