当前位置：首页 > news >正文

Spark2.x 入门：DStream 输出操作

news 2025/9/4 22:14:48

在Spark应用中，外部系统经常需要使用到Spark DStream处理后的数据，因此，需要采用输出操作把DStream的数据输出到数据库或者文件系统中。

这里以《Spark2.1.0入门：DStream输出操作》中介绍的NetworkWordCountStateful.scala为基础进行修改。

把DStream输出到文本文件中

NetworkWordCountStateful.scala

import org.apache.spark._
import org.apache.spark.streaming._
import org.apache.spark.storage.StorageLevelobject NetworkWordCountStateful {def main(args: Array[String]) {//定义状态更新函数val updateFunc = (values: Seq[Int], state: Option[Int]) => {val currentCount = values.foldLeft(0)(_ + _)val previousCount = state.getOrElse(0)Some(currentCount + previousCount)}StreamingExamples.setStreamingLogLevels()  //设置log4j日志级别val conf = new SparkConf().setMaster("local[2]").setAppName("NetworkWordCountStateful")val sc = new StreamingContext(conf, Seconds(5))sc.checkpoint("file:///usr/local/spark/mycode/streaming/dstreamoutput/")    //设置检查点，检查点具有容错机制val lines = sc.socketTextStream("localhost", 9999)val words = lines.flatMap(_.split(" "))val wordDstream = words.map(x => (x, 1))val stateDstream = wordDstream.updateStateByKey[Int](updateFunc)stateDstream.print()//下面是新增的语句，把DStream保存到文本文件中stateDstream.saveAsTextFiles("file:///usr/local/spark/mycode/streaming/dstreamoutput/output.txt")sc.start()sc.awaitTermination()}
}

把DStream写入到MySQL数据库中

mysql> use spark
mysql> create table wordcount (word char(20), count int(4));
mysql> select * from wordcount
//这个时候wordcount表是空的，没有任何记录

NetworkWordCountStateful.scala

import java.sql.{PreparedStatement, Connection, DriverManager}
import java.util.concurrent.atomic.AtomicInteger
import org.apache.spark.SparkConf
import org.apache.spark.streaming.{Seconds, StreamingContext}
import org.apache.spark.streaming.StreamingContext._
import org.apache.spark.storage.StorageLevelobject NetworkWordCountStateful {def main(args: Array[String]) {//定义状态更新函数val updateFunc = (values: Seq[Int], state: Option[Int]) => {val currentCount = values.foldLeft(0)(_ + _)val previousCount = state.getOrElse(0)Some(currentCount + previousCount)}val conf = new SparkConf().setMaster("local[2]").setAppName("NetworkWordCountStateful")val sc = new StreamingContext(conf, Seconds(5))sc.checkpoint("file:///usr/local/spark/mycode/streaming/dstreamoutput/")    //设置检查点，检查点具有容错机制val lines = sc.socketTextStream("localhost", 9999)val words = lines.flatMap(_.split(" "))val wordDstream = words.map(x => (x, 1))val stateDstream = wordDstream.updateStateByKey[Int](updateFunc)stateDstream.print()//下面是新增的语句，把DStream保存到MySQL数据库中     stateDstream.foreachRDD(rdd => {//内部函数def func(records: Iterator[(String,Int)]) {var conn: Connection = nullvar stmt: PreparedStatement = nulltry {val url = "jdbc:mysql://localhost:3306/spark"val user = "root"val password = "hadoop"  //笔者设置的数据库密码是hadoop，请改成你自己的mysql数据库密码conn = DriverManager.getConnection(url, user, password)records.foreach(p => {val sql = "insert into wordcount(word,count) values (?,?)"stmt = conn.prepareStatement(sql);stmt.setString(1, p._1.trim)stmt.setInt(2,p._2.toInt)stmt.executeUpdate()})} catch {case e: Exception => e.printStackTrace()} finally {if (stmt != null) {stmt.close()}if (conn != null) {conn.close()}}}val repartitionedRDD = rdd.repartition(3)repartitionedRDD.foreachPartition(func)})sc.start()sc.awaitTermination()}
}

对于stateDstream，为了把它保存到MySQL数据库中，我们采用了如下的形式：

stateDstream.foreachRDD(function)

其中，function就是一个RDD[T]=>Unit类型的函数，对于本程序而言，就是RDD[(String,Int)]=>Unit类型的函数，也就是说，stateDstream中的每个RDD都是RDD[(String,Int)]类型（想象一下，统计结果的形式是(“hadoop”,3)）。这样，对stateDstream中的每个RDD都会执行function中的操作（即把该RDD保存到MySQL的操作）。

下面看function的处理逻辑，在function部分，函数体要执行的处理逻辑实际上是下面的形式：

 def func(records: Iterator[(String,Int)]){……}val repartitionedRDD = rdd.repartition(3)repartitionedRDD.foreachPartition(func)

也就是说，这里定义了一个内部函数func，它的功能是，接收records，然后把records保存到MySQL中。到这里，你可能会有疑问？为什么不是把stateDstream中的每个RDD直接拿去保存到MySQL中，还要调用rdd.repartition(3)对这些RDD重新设置分区数为3呢？这是因为，每次保存RDD到MySQL中，都需要启动数据库连接，如果RDD分区数量太大，那么就会带来多次数据库连接开销，为了减少开销，就有必要把RDD的分区数量控制在较小的范围内，所以，这里就把RDD的分区数量重新设置为3。然后，对于每个RDD分区，就调用repartitionedRDD.foreachPartition(func)，把每个分区的数据通过func保存到MySQL中，这时，传递给func的输入参数就是Iterator[(String,Int)]类型的records。如果你不好理解下面这种调用形式：

repartitionedRDD.foreachPartition(func) //这种形式func没有带任何参数，可能不太好理解，不是那么直观

实际上，这句语句和下面的语句是等价的，下面的语句形式你可能会更好理解：

repartitionedRDD.foreachPartition(records => func(records))

上面这种等价的形式比较直观，为func()函数传入了一个records参数，这就正好和 def func(records: Iterator[(String,Int)])定义对应起来了，方便理解。

查看全文

http://www.lryc.cn/news/430552.html

Python爬虫——简单网页抓取（实战案例）小白篇

linux，ubuntu，使用ollama本地部署大模型llama3，模型通用，简易快速安装

JS中的encodeURIComponent函数示例

8.20 pre day bug

位运算专题

HaProxy学习 —300K的TCP Socket并发连接实现（翻译）

92.WEB渗透测试-信息收集-Google语法（6）

[数据集][目标检测]木材缺陷检测数据集VOC+YOLO格式2383张10类别

【启明智显分享】智能音箱AI大模型一站式解决方案重塑人机交互体验，2个月高效落地

逻辑与集合论基础及其在编程中的应用

【无标题】为什么 pg_rewind 在 PostgreSQL 中很重要？

hostapd生成beacon_ie

leetcode349:两个数组的交集

Metasploit漏洞利用系列（八）：MSF渗透测试 - PHPCGI漏洞利用实战

基于python的主观题自动阅卷系统设计与实现

计算机毕业设计仪器设备管理系统-折旧-报废-转移-借出-归还

DAY37

将iso格式的镜像文件转化成云平台能安装的镜像格式（raw/vhd/QCOW2/VMDK ）亲测--图文详解

Numba加速计算（CPU + GPU + prange）

electron 两个渲染进程之间通信

配置ROS环境

力扣 128. 最长连续序列

Stable Diffusion AI绘画工具的安装与配置(MAC用户）

flowable源码解读——并行多实例节点任务是否是顺序生成

【机器学习】AGI的基本概念、技术挑战和应用前景

flink 使用RocksDB作为状态后端

【运维高级内容--MySQL】

【仿真与实物设计】基于51单片机设计的打地鼠游戏机——程序源码原理图proteus仿真图PCB设计文档演示视频元件清单等（文末工程资料下载）

iPhone设备使用技巧：忘记密码的情况下如何解除iOS 18/17屏幕时间

内网渗透的风行者—Yasso

把DStream输出到文本文件中

把DStream写入到MySQL数据库中

相关文章：