当前位置: 首页 > news >正文

Flink Data Source详解

注意在高版本中SourceFunction以及其子类RichSourceFunction、ParallelSourceFunction等已经被标记为废弃,所以我们要看数据源的实现只需要关注Source接口(org.apache.flink.api.connector.source.Source)。了解Source背后的架构和运行原理有助于我们更好的使用Source,或者自定义实现新的数据源。

1. Data Source概览

1)核心组件

一个数据源有三个核心组件:split、SplitEnumerator和SourceReader。

  • split(分片):是对source数据的一部分切分,如一个文件或者日志分区。分片是 source 进行任务分配和数据并行读取的基本粒度。
  • SourceReader(源读取器):会请求split并进行处理,例如读取split所表示的文件或日志分区。SourceReader 在 TaskManagers 上的 SourceOperators 中并行运行,并生成并行的事件流/记录流。 
  • SplitEnumerator(分片枚举器):SplitEnumerator会生成split并将它们分配给 SourceReader。它在 JobManager 上以单实例运行,负责对未分配的split进行维护,并以均衡的方式将其分配给 reader。 
http://www.lryc.cn/news/511404.html

相关文章:

  • Spring Boot 介绍与应用
  • 并行编程实战——TBB框架的应用之五Supra中IGTL的应用
  • 【Golang 面试题】每日 3 题(八)
  • 11. 日常算法
  • FPGA三模冗余TMR工具(二)
  • springboot499基于javaweb的城乡居民基本医疗信息管理系统(论文+源码)_kaic
  • MF248:复制工作表形状到Word并调整多形状位置
  • 微信流量主挑战:用户破16!新增文档转换(新纪元3)
  • SelectionArea 实现富文本
  • upload-labs关卡记录17
  • 【Next.js】002-路由篇|App Router
  • 如何在 Ubuntu 22.04 上使用 systemctl 管理 systemd 服务教程
  • Springboot关于格式化记录
  • Android 自定义shell命令
  • Unity游戏环境交互系统
  • TOP K问题:利用堆排序找出数组中最小的k个数
  • 《信息传播:人工智能助力驱散虚假信息阴霾》
  • 数据权限和角色权限区别
  • Flink的多流转换(分流-侧输出流、合流-union、connect、join)
  • DirectUI属性表
  • RBAC权限控制
  • STM32高级物联网通信之以太网通讯
  • 【小程序】全局配置window和tabBar
  • 详解VHDL如何编写Testbench
  • 冥想的实践
  • STM32F103RCT6学习之四:定时器
  • 如何在网页端使用 IDE 高效地阅读 GitHub 源码?
  • 易基因: BS+ChIP-seq揭示DNA甲基化调控非编码RNA(VIM-AS1)抑制肿瘤侵袭性|Exp Mol Med
  • 欢迪迈手机商城设计与实现基于(代码+数据库+LW)
  • 数据库基础与应用:从概念到实践