当前位置: 首页 > news >正文

说说广播流与普通流

分析&回答

  • user actions 可以看作是事件流(普通流)
  • patterns 为广播流,把全量数据加载到不同的计算节点。

广播流

  • Broadcast是一份存储在TaskManager内存中的只读的缓存数据
  • 在执行job的过程中需要反复使用的数据,为了达到数据共享,减少运行时内存消耗,我们就用广播变量进行广播

广播流好处

  1. 从clinet端将一份需要反复使用的数据封装到广播变量中,分发到每个TaskManager的内存中保存
  2. TaskManager中的所有Slot所管理的线程在执行task的时候如果需要用到该变量就从TaskManager的内存中读取数据,达到数据共享的效果,与Spark中的广播变量效果时一样

普通双流join

根据join 条件,根据key的发到同一个计算节点,如下图类似

反思&扩展

广播流使用注意点:

  1. 广播变量中封装的数据集大小要适宜,太大,容易造成OOM
  2. 广播变量中封装的数据要求能够序列化,否则不能在集群中进行传输

哪种 Join 可以满足单个流断流的时候仍然能够保证正确的 Join 到数据?

广播流Join

喵呜面试助手:一站式解决面试问题,你可以搜索微信小程序 [喵呜面试助手] 或关注 [喵呜刷题] -> 面试助手 免费刷题。如有好的面试知识或技巧期待您的共享!

http://www.lryc.cn/news/149172.html

相关文章:

  • 内卷的本质和大数据在计量经济学领域的运用思考
  • 毕业设计-摄像头识别二维码
  • 封装动态表单组件
  • 提高Python并发性能 - asyncio/aiohttp介绍
  • 网络性能的四大指标:带宽、时延、抖动、丢包
  • MySQL高阶查询语句
  • 未来科技城携手加速科技 共建集成电路测试公共服务平台!
  • 渗透测试漏洞原理之---【失效的访问控制】
  • opencv的使用(Ubuntu linux环境,AS jni,AS java)
  • ChatGPT(对话AI)汇总
  • 【Docker】用Dockerfile制作个人的镜像文件
  • 前端面试基础面试题——4
  • 【08期】ArrayList常见面试题
  • Android studio之GridView使用
  • Ubuntu系统环境搭建(七)——Ubuntu安装MySQL8.0
  • Nginx详解 三:高级配置
  • mysql 表备份 遇到的问题 【全网最全】
  • 11.添加侧边栏,并导入数据
  • ThinkPHP 通用的API格式封装
  • 自己动手写数据库:实现一个小型 SQL 解释器(下)
  • 2023年信息安全管理与评估任务书模块一网络平台搭建与设备安全防护
  • JS -RSA 明文加密--用户密码加密
  • clickhouse中replacingMergeTree
  • pdf怎么转换成word?
  • 汇编攻城记-Cortex-M3指令集
  • 大语言模型之五 谷歌Gemini
  • 使用selenium实现对页面元素的抓取
  • 大数据课程K12——Spark的MLlib概述
  • 流程制造智能工厂总体架构及建设路线规划方案PPT
  • 网络有源号角(50W-100W)社区小区广播 工地语音播报,隧道广播,钢铁广播广播系统