当前位置: 首页 > news >正文

Flink如何基于数据版本使用最新离线数据

业务场景

假设批量有一张商户表,表字段中有商户名称和商户分类两个字段。

批量需要将最新的商户名称和分类的映射关系推到hbase供实时使用。

原实现方案

a.原方案内容

为解决批量晚批问题,批量推送hbase表时一份数据产生两类rowkey:T-1和T日两类。

即使批量晚批,也能用前一日推送的数据。

5cc1bff00ba1526b386c4470ebee4a28.jpeg

原文链接:实时离线融合计算的数据同步实践

b.原方案缺陷

如果2号的分区中有客户A,但是3号的分区中没有客户A。

但是原有方案会造一条客户号_3号的数据在hbase中,这种"假"数据不符合数据规范。

优化方案

准备两张hbase表,一张存放业务数据(数据表),一张存放数据版本日期(配置表)。

每次批量推送最新分区的业务数据到数据表后,向配置表插入一条此份数据的业务日期。

比如前一天向数据表中推送了主键rowkey为客户号_2号的业务数据后,将配置表的数据日期字段更新为2号。

同样今天向数据表推送完rowkey客户号_3号的业务数据后,将配置表的数据日期字段更新为3号。

86a8e3ee4e15bbdb3dfbb809a072814b.jpeg

实时使用数据表的时候,会取出配置表中的数据日期字段,再和客户号进行拼接作为查询数据表的字段即客户号_日期。

如果批量今日晚批没有将客户号_3号的业务数据送过来后,从在配置表中取出的数据日期为2号,再用客户号_2号作为主键查询数据表。

这样即使批量晚批,优化后的新方案中实时一直能使用数据表最新分区的数据,而且也没有原方案的"假"数据问题。

http://www.lryc.cn/news/499568.html

相关文章:

  • 软件开发中的常用性能指标
  • cmakelist使用总结
  • 准备阶段 Unity优化总纲
  • ubuntu防火墙(三)——firewalld使用与讲解
  • zookeeper 搭建集群
  • Java——异常机制(下)
  • centos 手动安装libcurl4-openssl-dev库
  • JS学习(1)(基本概念与作用、与HTML、CSS区别)
  • 代码随想录算法训练营day50|动态规划12
  • JavaWeb学习(2)(Cookie原理(超详细)、HTTP无状态)
  • java抽象类
  • minio集群部署–linux环境
  • 在vue3里使用scss实现简单的换肤功能
  • JavaScript编写css自定义属性
  • 我们来学webservie - WSDL
  • 【Agent】构建智能诗歌创作系统:基于多 Agent 的协同创作实现
  • 001 LVGL PC端模拟搭建
  • AJAX三、XHR,基本使用,查询参数,数据提交,promise的三种状态,封装-简易axios-获取省份列表 / 获取地区列表 / 注册用户,天气预报
  • mybatis之数据统计与自定义异常处理
  • qt creator使用taglib读取音频元信息,windows平台vcpkg安装
  • 设计模式之生成器模式
  • python学opencv|读取图像(三)放大和缩小图像
  • 1 数据库(上):MySQL的概述和安装、SQL简介、IDEA连接数据库使用图形化界面
  • C++初阶—类与对象(中篇)
  • Leetcode15. 三数之和(HOT100)
  • Oracle数据库小白备忘
  • DDR4与DDR3服务器内存的关键区别有哪些?
  • Linux: shell: bash: set -x;调试使用
  • Hadoop生态圈框架部署 伪集群版(五)- HBase伪分布式部署
  • 自定义指令,全局,局部,注册