当前位置: 首页 > news >正文

大数据之数据抽取架构演变过程

架构演变之Flink架构的演变过程

     一、 起初搭建整个大数据平台是基于CDH这一套资源管理和整合的CM资源管理器搭建的

     整个平台包括了: HDFS,YARN,HIVE,zoozie,FLINK,Spark,Zookeeper等组件搭建而成,

   

刚开始搭建的时候,所有的资源管理都是依靠YARN进行资源的管理,调度和任务的查看,

而当时我们搭建的Flink集群是基于YARN进行资源管理和调度的,因为YARN中不仅仅包含着FLInk的资源,也有hive,zoozie,hdfs等等的资源,这样容易造成yarn资源的过度使用,容易引起整个底座的cpu以及内存的使用问题,经过排查,主要是由于FLink的使用资源引起的,所以后续就把Flink从整个集群中剥离出来,进行资源的隔离,最后Flink采用了StandAlone HA部署(但是这个目前还是存在问题,后续根据项目进行优化)

参考: FlinkHA 高可用集群部署

二、数据抽取架构的演变

    

  直接用FLinkCDC抽取任务,会导致源端数据库的cpu和内存急速上升以至于宕机

采用ogg的方式,本质上是由源端库自动触发变化和全量数据,解决了上面的问题

在抽取的过程中遇到的问题:

  1.ogg推送数据的数据格式:

  

如果不是这种格式,导致kafka消费数据,没有数据

2.

create table if not exists xxx(

    `ID` DECIMAL(19,0),

     XXXX,

   primary key(ID) not enforced

) with (

    'connector' = 'kafka',

    'topic' = '表名',

    'properties.bootstrap.servers' = '10.100.XXX.XXXX:9092,10.100.XXX.XXXX:9092,10.100.XXX.XXXX:9092',

    'scan.startup.mode' = 'earliest-offset',

    'properties.group.id' = 'xxx',

    'format' = 'ogg-json'

);

注意这个format,一定是那种形式推送,采用那种形式的格式化json

3.注意源端数据库子段类型(根据字段数据值的大小,决定属于那种类型) 

flink ogg官网:

 Ogg | Apache Flink

http://www.lryc.cn/news/402373.html

相关文章:

  • [web]-反序列化-绕过__wakeup(转)
  • B树与B+树的区别
  • 机器人开源调度系统OpenTCS-6最新版本地源码运行
  • 云监控(华为) | 实训学习day3(10)
  • springMVC前后端请求参数绑定和传递
  • 【iOS】—— 消息传递和消息转发
  • 【Node.js】初识 Node.js
  • AWS backup服务和 RDS snapshot的关系
  • PDF转Word怎么快速转换?格式转换技巧分享
  • 浅谈:网络协议及网络连接
  • websocket-react使用
  • 【总结】nginx源码编译安装报错./configure: error: SSL modules require the OpenSSL library.
  • 昇思25天学习打卡营第15天|两个分类实验
  • 实践:Redis6.0配置文件解读
  • 【Go系列】Go语言的网络服务
  • CS110L(Rust)
  • 免费恢复软件有哪些?电脑免费使用的 5 大数据恢复软件
  • Flink History Server配置
  • ASPICE过程改进原则:确保汽车软件开发的卓越性能
  • HDU1005——Number Sequence,HDU1006——Tick and Tick,HDU1007——Quoit Design
  • uniapp form表单校验
  • 构建RSS订阅机器人:观察者模式的实践与创新
  • 芯片基础 | `wire`类型引发的学习
  • 如何在AWS上构建Apache DolphinScheduler
  • Quartus II 13.1添加新的FPGA器件库
  • 【html】html的基础知识(面试重点)
  • Java 网络编程(TCP编程 和 UDP编程)
  • STM32 | 看门狗+RTC源码解析
  • filebeat,kafka,clickhouse,ClickVisual搭建轻量级日志平台
  • Django实战项目之进销存数据分析报表——第一天:Anaconda 环境搭建