当前位置: 首页 > news >正文

计算引擎:Flink核心概念

Apache Flink 是一个流处理框架,擅长处理实时数据流和批处理任务。Flink 提供了强大的功能来处理和分析大量数据。以下是 Flink 的核心概念:

1. DataStream 和 DataSet API

  • DataStream API: 用于处理无界数据流,即不断生成和流动的数据。例如,传感器数据、日志等。
  • DataSet API: 用于处理有界数据集,适合静态数据的批处理。自 Flink 1.14 版起,DataSet API 被弃用,建议使用 DataStream API 处理批数据。

2. Execution Environment

ExecutionEnvironmentStreamExecutionEnvironment 是 Flink 作业的上下文,用于配置和启动作业。

  • StreamExecutionEnvironment: 用于流处理,管理作业的生命周期、任务调度等。
  • ExecutionEnvironment: 用于批处理。虽然现在推荐使用 StreamExecutionEnvironment

3. Transformation

数据转换操作定义了如何从一个数据集(流)创建另一个数据集(流)。常见的转换包括:

http://www.lryc.cn/news/369120.html

相关文章:

  • 技术前沿 |【大模型InstructBLIP进行指令微调】
  • CSS-布局-flex
  • 「C系列」C 数组
  • Python框架scrapy有什么天赋异禀
  • 【ROS2大白话】四、ROS2非常简单的传参方式
  • 浅谈mysql 的批量delete 和 使用in条件批量删除问题
  • 【Spring Boot】过滤敏感词的两种实现
  • 在 Zustand 中管理状态能使用类(Class)吗
  • MoreTable 方法selectWithFun,count 使用实例
  • 【SpringBoot】在Spring中使用自定义条件类在Java声明Bean时实现条件注入
  • 网卡聚合链路配置
  • PlantSimulation导入cad图作为背景
  • 【大模型】个人对大模型选择的见解
  • java的反射和python的鸭子类型
  • 爬虫工具yt-dlp
  • 【代码随想录训练营】【Day 50】【动态规划-9】| Leetcode 198, 213, 337
  • 源码讲解kafka 如何使用零拷贝技术(zero-copy)
  • Ubuntu20.04配置qwen0.5B记录
  • java自学阶段二:JavaWeb开发--day80(项目实战2之苍穹外卖)
  • HPUX系统Oracle RAC如何添加ASM磁盘
  • Jmeter 压力测测试的简单入门
  • N叉树的层序遍历-力扣
  • 解决阿里云的端口添加安全组仍然无法扫描到
  • 【因果推断python】26_双重稳健估计1
  • C语言 图形化界面方式连接MySQL【C/C++】【图形化界面组件分享】
  • Unity DOTS技术(十五) 物理系统
  • Java线程安全
  • Solidity选择使用 require 语句还是条件语句结合手动触发 revert 操作?回滚交易和抛出异常如何选择?
  • SpringCloud 网关配置websocket
  • 基于JavaScript 实现近邻算法以及优化方案