当前位置: 首页 > news >正文

Linux编程:DMA增加UDP 数据传输吞吐量并降低延迟

文章目录

    • 0. 引言
    • 1. 原理介绍
      • 1.1 DMA 与中断的协同机制
      • 1.2. DMA优化UDP 数据包发送
    • 2. DMA 配置优化

0. 引言

UDP 网络传输常面临高 CPU 占用、传输延迟和丢包等挑战。本文将介绍 DMA 如何优化 UDP 数据包的发送,以提高吞吐量、减少延迟并降低 CPU 占用。

阅读本文时请同步阅读: Linux 编程:高实时性场景下的内核线程调度与网络包发送优化

1. 原理介绍

1.1 DMA 与中断的协同机制

DMA中断 协同工作能够显著提高数据传输效率。

  • 中断机制:通过中断通知 CPU 事件发生,避免轮询带来的资源浪费,并及时响应实时数据。
  • DMA 技术:如果没有 DMA,CPU 将会直接参与每次数据的传输(例如,使用 memcpy());而DMA 允许外设与内存直接传输数据,减少 CPU 参与,避免上下文切换,提高传输效率。
  • DMA 多通道:DMA 控制器通常具有多个 DMA 通道,针对不同的外设和数据传输需求,可以为不同的设备配置不同的 DMA 通道。例如,数据传感器可以通过 DMA 将数据直接写入到特定的内存缓冲区,这样 CPU 只需处理数据,而无需干预数据传输。

1.2. DMA优化UDP 数据包发送

DMA可以优化高频数据流的场景UDP 数据传输,原因如下:

  • 减少 CPU 负担:传统 UDP 传输中,CPU 需要处理数据复制和协议栈操作,而 DMA 允许 NIC(网络接口卡) 直接从内存读取数据并打包为 UDP 数据包发送,减少CPU 干预。
  • 大数据包优化:在带宽需求较高的场景中(如在视频流、激光雷达数据等),DMA 避免了内存拷贝。
  • 缓存一致性问题:DMA 直接传输数据,DMA 目标内存区域与其他内存区域隔离,可避免数据竞争或缓存污染。在高性能应用中,可以使用 缓存一致性非缓存区(nocache memory) 来确保 DMA 写入的内存区域与 CPU 的其他操作不冲突。

下面描述 DMA 与网络驱动的关系

supports
1
1..*
configures
1
1..*
accesses
1
1
configures
1
1
manages
1
1
«hardware»
NIC
+sendData()
+receiveData()
+supportDMA()
«software»
NetworkDriver
+initializeDMA()
+manageBuffer()
+configureNIC()
«hardware»
DMA
+transferData()
+accessMemory()
«hardware»
Memory
+storeData()
  • NIC(网络接口卡):网络接口卡是支持 DMA 的硬件,能够直接将数据从内存传输到网络接口。
  • NetworkDriver(网络驱动程序):网络驱动程序负责初始化和配置 DMA、管理网络接口卡的 DMA 缓冲区和传输设置。驱动程序负责处理与 DMA 相关的操作,如配置 DMA 缓冲区、启动 DMA 传输等。
  • DMA(直接内存访问):DMA 控制器在硬件层面负责数据传输,它能够在内存和外设(例如 NIC)之间直接传输数据。DMA 不需要 CPU 参与,从而降低了 CPU 的负担,尤其在大规模数据传输时。
  • Memory(内存):内存是数据存储的地方,网络驱动程序会将要发送的数据存储在内存中,DMA 会从内存中读取这些数据并传输到网络接口卡。

2. DMA 配置优化

为了最大化 DMA 在 UDP 数据包发送中的效果,需要在多个层面进行配置和调优。

  • DMA 缓冲区配置:确保 DMA 缓冲区足够大,以便能够高效地处理大块数据传输;过小的缓冲区可能导致频繁的 DMA 传输,增加延迟和 CPU 占用。在 BSP 配置 中(或者网络驱动程序中),可以调整 DMA 缓冲区的大小,以提高每次传输的数据量。
    然而,过大的 DMA 缓冲区可能导致单次数据传输时间更长,从而引入较大的延迟。

  • DMA 内存对齐:确保 DMA 缓冲区的内存对齐以优化数据传输速度。大多数 DMA 控制器要求数据缓冲区按照特定的内存边界对齐,通常是 4 字节或 8 字节对齐。内存对齐不足会导致额外的延迟。

  • 启用零拷贝:在 网络驱动程序 中,启用 零拷贝 支持,以便 NIC 直接将数据从用户空间传输至网络接口,减少内存复制开销;双缓冲技术可以减少等待时间,提高吞吐量。

  • 减少中断数量:传统的做法是每次完成 DMA 传输后触发一个中断。如果每个传输都产生中断,会导致大量的上下文切换和 CPU 占用。通过配置 中断合并,可以将多个 DMA 完成的中断合并为一个中断,从而减少中断的开销。
    在 BSP 或内核配置 中,可以配置 中断合并 或 中断调度,以减少不必要的中断频率。

  • 大帧传输(Jumbo Frames):许多 NIC 支持 Jumbo Frames(超大帧)。启用这一特性后,网络接口卡可以一次发送更大的数据包,减少每个数据包的头部开销,从而提升网络吞吐量。

http://www.lryc.cn/news/478390.html

相关文章:

  • 鸿蒙开启无线调试
  • C. DS循环链表—约瑟夫环 (Ver. I - B)
  • 【刷题】优选算法
  • Python 在PDF中绘制形状(线条、矩形、椭圆形等)
  • 《今日制造与升级》是什么级别的期刊?是正规期刊吗?能评职称吗?
  • loading为什么不更新
  • Rust 力扣 - 1652. 拆炸弹
  • 使用Golang实现开发中常用的【并发设计模式】
  • 基于Zynq FPGA对雷龙SD NAND的性能测试评估
  • 4.WebSocket 配置与Nginx 的完美结合
  • Docker:镜像构建 DockerFile
  • 浮动路由:实现出口线路的负载均衡冗余备份。
  • 二叉树的遍历和线索二叉树
  • SpringBoot3 集成Junit4
  • Scala的set的添加删减和查询
  • 基于微信小程序的移动学习平台的设计与实现+ssm(lw+演示+源码+运行)
  • 【spark面试题】RDD和DataFrame以及DataSet有什么异同
  • [Python]关于Tensorflow+Keras+h5py+numpy一些骚操作备忘
  • 深度学习:Transformer 详解
  • jmeter 性能测试步骤是什么?
  • 前端入门一之JS最基础、最基础语法
  • 解决Swp交换空间被占满问题
  • 草地景观中的土地覆被变化:将增强型大地遥感卫星数据组成、LandTrendr 和谷歌地球引擎中的机器学习分类与 MLP-ANN 场景预测相结合
  • 【c++语言程序设计】字符串与浅层复制(深拷贝与浅拷贝)
  • 《TCP/IP网络编程》学习笔记 | Chapter 4:基于TCP的服务器端/客户端(1)
  • 深入解析gdb -p 与gdb attach 的区别与使用场景
  • C语言 | Leetcode C语言题解之第542题01矩阵
  • 论文阅读笔记:Image Processing GNN: Breaking Rigidity in Super-Resolution
  • 前端介绍|基础入门-html+css+js
  • [WSL][桌面][X11]WSL2 Ubuntu22.04 安装Ubuntu桌面并且实现GUI转发(Gnome)