当前位置: 首页 > news >正文

Spark/Kafka


文章目录

  • 项目地址
  • 一、Spark
    • 1. RDD
      • 1.1 五大核心属性
      • 1.2 执行原理
      • 1.3 四种创建方式
  • 二、Kafka
    • 2.1 生产者
      • (1)分区器
      • (2)生产者提高吞吐量
      • (3) 生产者数据可靠性
        • 数据传递语义
        • 幂等性和事务
        • 数据有序
    • 2.2 Broker
      • (1)Broker工作流程
      • (2)节点服役和退役
    • 2.3 副本
      • (1)Follower故障细节
      • (2)生产经验——Leader Partition负载均衡
      • (3)生产经验——增加副本因子
    • 2.4 文件存储
      • (1)文件清理策略
      • (2) 高效读写数据


项目地址

  • 教程作者:
  • 教程地址:
  • 代码仓库地址:
  • 所用到的框架和插件:
dbt 
airflow

一、Spark

1. RDD

在这里插入图片描述

1.最小计算单元,读取数据时,进行了分区partition,然后将partion交给task 执行

  • 弹性存储:内存和磁盘自动切换
  • 容错:丢失数据自动恢复
  • 计算:计算出错重试
  • 分片:根据需要重新分片

1.1 五大核心属性

  1. 分区列表:RDD数据结构存在分区列表,用于执行并行计算,实现分布式计算的重要
  2. 分区计算函数:使用同一个计算函数,对每一个分区进行计算
  3. RDD依赖关系:多个RDD形成的依赖关系,通过依赖关系形成列表
  4. 分区器:将数据进行分区处理
  5. 首选位置:

1.2 执行原理

  • Spark 框架在执行时,先申请资源,创建调度节点和计算节点,然后将应用程序的数据处理逻辑分解成一个一个的计算任务。然后将任务发到已经分配资源的计算节点上,按照指定的计算模型进行数据计算。最后得到计算结果。
    在这里插入图片描述

1.3 四种创建方式

  1. 从集合(内存)创建
  2. 从外部存储(文件)创建RDD
  3. 从其他的RDD创建
  4. 直接创建RDD(NEW)

二、Kafka

  • 教程地址
  • 整体架构
    在这里插入图片描述
  • kafka功能:
  1. 缓存消峰
  2. 解耦
  3. 异步通讯
  • 消息模式:
  • <
http://www.lryc.cn/news/524686.html

相关文章:

  • 深入浅出:Go语言中的Unicode与字符编码详解
  • 什么是SSL及SSL的工作流程
  • .Net Core微服务入门全纪录(二)——Consul-服务注册与发现(上)
  • AD7606, 逐次逼近型ADC以及一次被GPT坑了的过程.
  • 抬手、放手识别算法
  • 深度学习篇---AnacondaLabelImg
  • 探索云原生可观测性:技术与团队协作的深度结合
  • 解决 Django 5.1 中的 TemplateSyntaxError 错误
  • 基于SSM的自助购药小程序设计与实现(LW+源码+讲解)
  • 04JavaWeb——Maven-SpringBootWeb入门
  • 场馆预定平台高并发时间段预定实现V2
  • 如何利用边缘节点服务打造极致用户体验?
  • C语言之小型成绩管理系统
  • ASP.NET Core 中基于 Cookie 的身份鉴权实现
  • 为什么要学习C++?
  • freecad1.0的编译
  • 汇编与逆向(一)-汇编工具简介
  • .NET Framework
  • LabVIEW太赫兹二维扫描成像系统
  • 图片专栏——概念
  • Linux内存管理(Linux内存架构,malloc,slab的实现)
  • 【C++】模板(进阶)
  • Esxi下虚拟机磁盘类型厚置备改精简置备
  • Element使用表单重置如果不使用prop,重置无法生效
  • Windows FileZila Server共享电脑文件夹 映射21端口外网连接
  • MongoDB 备份与恢复综述
  • node.js 文件操作
  • python编程-OpenCV(图像读写-图像处理-图像滤波-角点检测-边缘检测)图像变换
  • Spark SQL中的from_json函数详解
  • 【软件架构】软件的十二种架构简介