当前位置: 首页 > news >正文

【Block总结】PConv,部分卷积|即插即用

论文信息

标题: Run, Don’t Walk: Chasing Higher FLOPS for Faster Neural Networks

论文链接: https://arxiv.org/pdf/2303.03667

GitHub链接: https://github.com/JierunChen/FasterNet
在这里插入图片描述

创新点

该论文的核心创新在于提出了一种新的运算符——部分卷积(PConv),旨在提高神经网络的每秒浮点操作数(FLOPS),从而实现更快的推理速度。研究表明,传统方法往往专注于减少浮点运算(FLOPs),但这并不一定能有效降低延迟。相反,提升FLOPS的效率才是实现快速神经网络的关键。
在这里插入图片描述

方法

论文中提出的PConv运算符通过以下方式优化了神经网络的性能:

  • 减少冗余计算: PConv仅对部分输入通道应用卷积操作,而保留其他通道不变,从而降低了计算复杂度。

  • 优化内存访问: 通过减少频繁的内存访问,PConv提高了计算效率,特别是在深度卷积(DWConv)中表现尤为明显。

  • 设计理念: 该方法强调在保持较低FLOPs的同时,提升FLOPS,以实现更高的计算速度和更低的延迟。

效果

实验结果显示,使用FasterNet架构的模型在多个基准测试中表现出色:

  • 速度提升: FasterNet-T0在GPU、CPU和ARM处理器上的速度分别比MobileViT-XXS快2.8倍、3.3倍和2.4倍。

  • 准确率提高: 在ImageNet-1k数据集上,FasterNet-L模型达到了83.5%的Top-1准确率,与Swin-B相当,同时在GPU上提高了36%的推理吞吐量,并在CPU上节省了37%的计算时间。

实验结果

论文通过一系列实验验证了PConv的有效性,结果表明:

  • FLOPS与延迟的关系: 许多现有网络的FLOPS较低,导致它们在实际应用中并不够快。PConv的引入有效解决了这一问题。

  • 与其他模型的比较: FasterNet在速度和准确性上超越了其他主流目标检测器,如YOLOv7,显示出其在实际应用中的优势。

总结

论文《Run, Don’t Walk: Chasing Higher FLOPS for Faster Neural Networks》通过引入部分卷积(PConv)运算符,成功提升了神经网络的计算效率,强调了FLOPS的重要性。研究表明,单纯减少FLOPs并不能有效降低延迟,而提升FLOPS才是实现快速神经网络的关键。FasterNet的实验结果验证了这一理论,为未来的神经网络设计提供了新的思路和方法。

代码

import torch
from torch import nn
from torch import Tensorclass Partial_conv3(nn.Module):def __init__(self, dim, n_div, forward):super().__init__()self.dim_conv3 = dim // n_divself.dim_untouched = dim - self.dim_conv3self.partial_conv3 = nn.Conv2d(self.dim_conv3, self.dim_conv3, 3, 1, 1, bias=False)if forward == 'slicing':self.forward = self.forward_slicingelif forward == 'split_cat':self.forward = self.forward_split_catelse:raise NotImplementedErrordef forward_slicing(self, x: Tensor) -> Tensor:# only for inferencex = x.clone()   # !!! Keep the original input intact for the residual connection laterx[:, :self.dim_conv3, :, :] = self.partial_conv3(x[:, :self.dim_conv3, :, :])return xdef forward_split_cat(self, x: Tensor) -> Tensor:# for training/inferencex1, x2 = torch.split(x, [self.dim_conv3, self.dim_untouched], dim=1)x1 = self.partial_conv3(x1)x = torch.cat((x1, x2), 1)return xif __name__ == "__main__":# 如果GPU可用,将模块移动到 GPUdevice = torch.device("cuda" if torch.cuda.is_available() else "cpu")# 输入张量 (batch_size, channels, height, width)x = torch.randn(1,32,40,40).to(device)# 初始化 pconv 模块dim=32block = Partial_conv3(dim,n_div=4,forward='slicing')print(block)block = block.to(device)# 前向传播output = block(x)print("输入:", x.shape)print("输出:", output.shape)

输出结果:
在这里插入图片描述

http://www.lryc.cn/news/529120.html

相关文章:

  • 接口使用实例(1)
  • 动态规划DP 最长上升子序列模型 总览
  • 网络工程师 (7)进程管理
  • 登录授权流程
  • Flutter_学习记录_导航和其他
  • 二叉树-堆(补充)
  • Big Bird:适用于更长序列的Transformer模型
  • doris:MySQL Load
  • 电感的饱和、温升、额定电流
  • 基于阿里云百炼大模型Sensevoice-1的语音识别与文本保存工具开发
  • 【go语言】函数
  • CTF-web: phar反序列化+数据库伪造 [DASCTF2024最后一战 strange_php]
  • 从0开始使用面对对象C语言搭建一个基于OLED的图形显示框架(动态菜单组件实现)
  • EtherCAT主站IGH-- 23 -- IGH之fsm_slave.h/c文件解析
  • windows10 配置使用json server作为图片服务器
  • Linux——网络(tcp)
  • 腾讯云开发提供免费GPU服务
  • 详解python的修饰符
  • 《攻克语言密码:教AI理解隐喻与象征》
  • 如何解除TikTok地区限制:实用方法解析
  • 神经网络|(七)概率论基础知识-贝叶斯公式
  • 《DeepSeek 网页/API 性能异常(DeepSeek Web/API Degraded Performance):网络安全日志》
  • 使用Edu邮箱申请一年免费的.me域名
  • 【MCU】DFU、IAP、OTA
  • 2025.1.21——六、BUU XSS COURSE 1 XSS漏洞|XSS平台搭建
  • 跟李沐学AI:视频生成类论文精读(Movie Gen、HunyuanVideo)
  • 7.抽象工厂(Abstract Factory)
  • python-leetcode-路径总和
  • WGCLOUD使用介绍 - 如何监控ActiveMQ和RabbitMQ
  • 智能汽车网络安全威胁报告