当前位置: 首页 > news >正文

卷积通用模型的剪枝、蒸馏---蒸馏篇--RKD关系蒸馏(以deeplabv3+为例)

本文使用RKD实现对deeplabv3+模型的蒸馏;与上一篇KD蒸馏的方法有所不同,RKD是对展平层的特征做蒸馏,蒸馏的loss分为二阶的距离损失Distance-wise Loss和三阶的角度损失Angle-wise Loss。
完整代码放在文末。
一、RKD简介
RKD算法的核心是以教师模型的多个输出为结构单元,取代传统蒸馏学习中以教师模型的单个输出的方式,利用多输出组合成结构单元,更能体现出教师模型的结构化特征,使得学生模型得到更好的指导。
在这里插入图片描述
关系型蒸馏学习的损失函数如下,其中t1,t2…tn表示教师模型的多个输出,s1,s2…sn表示学生模型的多个输出,L表示计算两者之间的距离。与传统的蒸馏学习不同,关系型蒸馏学习的损失函数中还有一个构件结构信息的函数。可以使得学生模型学到教师模型中更加高效的信息表征能力。本文提出了两种表征结构信息的损失:距离蒸馏损失和角度蒸馏损失。
在这里插入图片描述
距离蒸馏损失:
通过对每个batch中的样本进行两两距离计算,最终形成一个batch*batch大小的关系型结构输出。最终学生模型通过学习教师模型的结构输出,实现蒸馏学习。
角度蒸馏损失:
基于角度的蒸馏损失,通过对每个batch中的样本三三样本,计算两个角度,最终形成一个batchbatchbatch

http://www.lryc.cn/news/348190.html

相关文章:

  • AVL树的完全指南:平衡与性能
  • itext7 PDF添加水印,获取页面高度,添加到页面右上角
  • docker端口映射成功,docker端口不生效的问题解决,外界无法访问docker映射端口
  • RSA非对称加密解密,前端公钥加密后端私钥解密
  • Nginx-01-Nginx 是什么? 能做什么?
  • 最大数字——蓝桥杯十三届2022国赛大学B组真题
  • 查看微信小程序主包大小
  • B树与B+树的奥秘:原理解析与性能
  • Unity组件入门篇目录
  • 【Python技术】使用akshare、pandas高效复盘每日涨停板行业分析
  • kubeflow文档-介绍与架构
  • 传输层的TCP流量控制比数据链路层作用范围更广
  • CSS表格
  • 东芝移动硬盘数据恢复方法有哪些
  • FullCalendar日历组件集成实战(1)
  • wps
  • 【软设】常见易错题汇总
  • 安全数据交换系统哪个好?该如何选型?
  • 用matplotlib制作代码和色块
  • centos无法tab补全至文件
  • 大模型训练框架DeepSpeed使用入门(1): 训练设置
  • 自定义类型——结构体、枚举和联合
  • Windows11系统安装Mysql8之后,启动服务net start mysql报错“服务没有响应控制功能”的解决办法
  • WIFI模块的AT指令联网数据交互--第十天
  • 设计模式Java实现-迭代器模式
  • 单页源码加密屋zip文件加密API源码
  • 47.全排列
  • 呼叫中心系统选pscc好还是okcc好
  • 【SRC实战】前端脱敏信息泄露
  • 区块链 | NFT 水印:Review on Watermarking Techniques(三)