当前位置: 首页 > news >正文

Apache Flume事务

Apache Flume 中的事务处理是指 Flume Agent 在处理事件流时的一种机制,用于确保数据的可靠传输和处理。
在这里插入图片描述

1. 事务概述

  • Flume 中的事务是指一组事件的传输和处理,这些事件在传输过程中要么全部成功完成,要么全部失败,不存在部分成功部分失败的情况。
  • 事务通常由 Source 产生,经过 Channel 存储,最终由 Sink 消费。事务性机制确保了事件从 Source 到 Sink 的可靠传输。

2. 事务处理工作流程

在这里插入图片描述

数据输入端(Source):

  • 接收事件(Receiving Events):Source 接收到批数据作为事件输入。
  • Transaction(事务):在处理事件时,Source 会启动一个事务。
  • doPut:将批数据先写入临时缓冲区 putList。
  • doCommit:检查 channel 内存队列是否有足够的空间来合并数据。
  • doRollback:如果 channel 内存队列空间不足,则回滚数据。
  • 回滚过程
    • 如果在写入数据到临时缓冲区 putList 时发生异常,Flume 会进行回滚操作。
    • 回滚操作包括将未成功写入的数据从临时缓冲区移除,并将其放回到输入队列中,以确保不会丢失任何数据。
    • 这样做可以确保在下次事务处理时重新尝试写入失败的数据

数据传输端(Channel):

  • Event1, Event2:事件被传输到 Channel 中,即一个事件队列。
  • doTake:将数据取到临时缓冲区 takeList,并将数据发送到下游的 Sink(如 HDFS)。
  • batch data:数据在 Channel 中进行批量处理
  • doRollback:如果发送过程中出现异常,将临时缓冲区 takeList 中的数据归还给 Channel 内存队列。
  • 回滚过程
    • 如果在将数据从 Channel 中取出进行处理时出现异常,Flume 会进行回滚操作。
    • 回滚操作包括将未成功处理的数据重新放回到 Channel 内存队列中,确保不会丢失数据。
    • 这样做可以确保在下次事务处理时重新尝试处理失败的数据

数据输出端(Sink):

  • Transaction(事务):在处理事件时,Sink 会启动一个事务。
  • 推送事件(Pushing Events):Sink 将事件推送到下游系统(例如存储系统)。
  • 拉取事件(Pulling Events):从 Channel 中拉取事件进行处理。
  • doCommit:如果所有数据都发送成功,则清除临时缓冲区 takeList。
  • doRollback:如果发送过程中出现异常,将临时缓冲区 takeList 中的数据归还给 Channel 内存队列。
  • 回滚过程
    • 如果在将数据推送到下游系统时发生异常,Flume 会进行回滚操作。
    • 回滚操作包括取消已发送但未被下游系统接收的数据,将这些数据放回到 Channel 中,确保数据不会丢失
    • 这样做可以确保在下次事务处理时重新尝试发送失败的数据。

回滚操作确保了在数据传输过程中出现异常时的数据一致性和可靠性。数据在回滚后会被重新放回到适当的位置,以便在下次处理时重新尝试。这种机制确保了数据不会因传输过程中的故障而丢失或不一致。

3. 事务性保证

  • 至少一次语义(At Least Once Semantics)Flume 保证每个事件至少会被传输和处理一次。即使在 Sink 失败时,事件仍然会留在 Channel 中等待后续的处理。
  • 精确一次语义(Exactly Once Semantics)对于某些特定的 Sink,Flume 可以提供精确一次语义,确保事件只会被处理一次,不会重复。这通常需要 Sink 和 Channel 的支持。

4. 事务配置

  • 在 Flume 的配置中,可以通过设置参数来控制事务的行为,如事务的最大大小、事务的超时时间、事务的持久性等。

5. 事务的应用场景

  • Flume 的事务性机制适用于需要确保数据传输的可靠性和一致性的场景,例如日志收集、数据备份等。
http://www.lryc.cn/news/345905.html

相关文章:

  • 根据部门id删除该部门下的员工(事务)
  • Java之String类
  • es终止快照恢复进程的方法
  • ubantu安装rabbbitmq
  • 了解 条码工具 Dynamsoft 在条码读取器中的形态运算
  • NIO和NIO.2对比
  • Google准备好了吗?OpenAI发布ChatGPT驱动搜索引擎|TodayAI
  • 乐观锁、悲观锁、互斥锁、读写锁
  • Gin入门指南:从零开始快速掌握Go Web框架Gin
  • Scala里的class、object、case class、case object 、trait
  • 移动端自动化测试工具 Appium 之 main 启动
  • WT32-ETH01作为TCP Client进行通讯
  • jni 返回二维byte数组
  • “webpack-dev-server --config build/webpack.dev.conf.js” 请问这个问题要如何修复
  • TOOL使用fiddler导出的har文件导入到postman测试接口
  • 第十三届蓝桥杯决赛(国赛)真题 Java A 组【原卷】
  • 数据结构_顺序表中基本操作的实现_代码
  • 提升SEO排名!SSL证书对SEO效果的积极影响
  • JAVA 项目<果园之窗>_完结
  • Vue + Vite + Axios 项目多环境以及部署前后端跨域
  • Nginx+GateWay
  • React中间件的概念以及常用的实现
  • 如何对团队成员进行六西格玛管理的培训?
  • Zibll 子比文章标题加上渐变彩色文字
  • C/C++ StringToAddress(字符串转 boost::asio::ip::address)
  • 【玩转Google云】构建安全高效的电商系统:GCP VPC 网络规划指南
  • 【YOLO改进】换遍MMDET主干网络之Pyramid Vision Transformerv2(PVTv2)(基于MMYOLO)
  • 【漏洞复现】RuvarOA协同办公平台 WorkFlow接口处存在SQL注入
  • Kubelet containerd 管理命令 ctr常用操作
  • 求一个B站屏蔽竖屏视频的脚本