当前位置: 首页 > news >正文

Flink流式数据倾斜

 1. 流式数据倾斜

流式处理的数据倾斜和 Spark 的离线或者微批处理都是某一个 SubTask 数据过多这种数据不均匀导致的,但是因为流式处理的特性其中又有些许不同

2. 如何解决

2.1 窗口有界流倾斜

 窗口操作类似Spark的微批处理,直接两阶段聚合的方式来解决就可以

select date,type,sum(pv) as pv
from(selectdate,type,sum(count) as pvfrom tablegroup bydate,type,floor(rand()*100) --随机打散成100份 )group by date,type;

2.2 数据本身不均匀

KeyBy 前数据已经不均匀了,可能是Topic 每个分区的数据不一致(较为少见),或者上游task处理以后导致的数据不均匀,导致下游operate chains的某个task压力很大

这种可以加一个随机数 redistributiing 一下之类打散

2.3 keyby类

加盐

开启minibatch 和 global,牺牲时效性,减少输出数据量

http://www.lryc.cn/news/296113.html

相关文章:

  • 零基础学编程系列,从入门到精通,中文编程开发语言工具下载,编程构件容器件之控制面板构件用法
  • 使用PowerBI 基于Adventure Works案例分析
  • 人工智能之估计量评估标准及区间估计
  • Ubuntu权限相关命令
  • RTE2023第九届实时互联网大会:揭秘未来互联网趋势,PPT分享引领行业新思考
  • Hadoop-生产调优
  • Elasticsearch基于分区的索引策略
  • ASP.NET Core MVC 控制查询数据表后在视图显示
  • C语言第二十弹---指针(四)
  • 常用排序算法(Java版本)
  • CPP项目:Boost搜索引擎
  • 【洛谷 P1616】疯狂的采药 题解(动态规划+完全背包)
  • L1-027 出租分数 20
  • 51单片机精进之路-1点亮led灯
  • 嵌入式学习Day14 C语言 --- 位运算
  • idea设置terminal为git
  • 《MySQL 简易速速上手小册》第3章:性能优化策略(2024 最新版)
  • 【golang】23、gorilla websocket 源码:examples、数据结构、流程
  • SpringCloud+RabbitMQ+Docker+Redis+搜索+分布式 基础(持续更新~)
  • flask+pyinstaller实现mock接口,并打包到exe运行使用postman验证
  • 【Spring Boot】第一篇 创建简单的Spring Boot项目
  • SSL协议是什么?关于SSL和TLS的常见问题解答
  • 第十五个知识:JQuery
  • 用Matlab 2015a svmtrain函数训练的SVM model在2021b无法使用的解决方法
  • umount:/home/tuners/windows files:目标忙。
  • FPGA_vga显示
  • sklearn模型指标和特征贡献度查看
  • 2024.2.6日总结(小程序开发3)
  • 相机图像质量研究(10)常见问题总结:光学结构对成像的影响--光圈
  • TCP和UDP相关问题(重点)(3)——3.HTTP基于TCP还是UDP?