当前位置: 首页 > news >正文

Flink并行度

1、Task

flink中每个算子就是一个Task,比如flatMap、map、sum是一个Task。

2、SubTask

算子有几个并行度SubTask的数量就是几,比如

3、算子并行度

算子并行度指的是每个算子的并行度,可用env.setParallelism(1);设置所有算子的并行度,也可以对每个算子单独设置,通过降数据流划分为多个并行的算子实例(SubTask)可实现数据的并行处理。

一个Job的并行度是算子并行度的最大值,比如一个Job中有map算子并行度是2、filter算子并行度是4,则任务并行度就是4。

总结:Flink中,每一个算子都可以成为一个独立任务(task)。
在这里插入图片描述

4、分区、分组

分区使用keyBy函数,目的是为了进行并行计算,通过hash(key)%并行度 来把数据分到不同分区然后并行计算提报计算效率。
由于keyby使用了取模运算,所以同一个区分可能存在不同分组的数据,如下图北京和山东在同一个分区,但是在不同分组。
keyby之后使用sum函数会对不同分区内的数据并行计算,同一个并且同一个分组内的数据才会进行sum运算。

在这里插入图片描述

http://www.lryc.cn/news/316847.html

相关文章:

  • 这届留学生是懂作弊的,ChatGPT震惊教授一整年!
  • CVE-2023-38836 BoidCMSv.2.0.0 后台文件上传漏洞
  • pf4j插件实践验证
  • 计算机组成原理之运算方法和运算器
  • Redux Toolkit
  • 基于YOLOv8/YOLOv7/YOLOv6/YOLOv5的商品识别系统(深度学习+UI界面+训练数据集+Python代码)
  • 在亚马逊云EC2上启动PopOS
  • Linux运维:磁盘分区与挂载详解
  • jeecg 项目 springcloud 项目有一个模块 没加载进来 只需要 把这个模块放到 可以加载到模块的位置 刷新依赖
  • spring boot使用mybatisplus访问mysql的配置流程
  • git 如何将多个提交点合并为一个提交点 commit
  • [C语言] 数据存储
  • LoadBalancer负载均衡服务调用
  • YoloV8实战:YoloV8-World应用实战案例
  • Python 导入Excel三维坐标数据 生成三维曲面地形图(体) 5-1、线条平滑曲面且可通过面观察柱体变化(一)
  • cmake初识
  • Swift 入门学习:集合(Collection)类型趣谈-下
  • nova 12 LTPO来了!LTPO动态自适应刷新率屏120Hz体验更流畅 ,1Hz阅读更省电
  • 【rk3368 android6.0 恢复出厂设置功能】
  • 闲聊电脑(7)常见故障排查
  • Vim 编辑器|批量注释与批量取消注释
  • Android 使用AIDL HAL
  • C++的一些基础语法
  • mysql 技术100问?
  • APK漏洞扫描工具
  • ReactNative项目构建分析与思考之react-native-gradle-plugin
  • LeetCode454 四数相加
  • Kafka消费者重平衡
  • 【线代基础】张量、向量、标量、矩阵的区别
  • 用chatgpt写论文重复率高吗?如何降低重复率?