当前位置: 首页 > news >正文

神经网络中的知识蒸馏

在这里插入图片描述
多分类交叉熵损失函数:每个样本的标签已经给出,模型给出在三种动物上的预测概率。将全部样本都被正确预测的概率求得为0.70.50.1,也称为似然概率。优化的目标就是希望似然概率最大化。如果样本很多,概率不断连乘,就会造成概率越来越小。对其取对数,使其最大化。在实际运用中,损失函数都是求最小化,所以取负号,将最大化变为最小化。

教师–学生网络的方法,属于迁移学习的一种。迁移学习也就是将一个模型的性能迁移到另一个模型上,而对于教师–学生网络,教师网络往往是一个更加复杂的网络,具有非常好的性能和泛化能力,可以用这个网络来作为一个soft target来指导另外一个更加简单的学生网络来学习,使得更加简单、参数运算量更少的学生模型也能够具有和教师网络相近的性能,也算是一种模型压缩的方式。将教师网络的知识迁移到学生网络,就是知识蒸馏。

知识蒸馏:用教师网络的“soft target”作为学生网络的label。使用一个额外的数据集,将数据集先送入教师网络中,获得soft target。 将数据集和label送入学生网络。如果 soft target的熵很高,也就是不同类别的概率差异非常小,那么这就提供了非常多的信息。假如使用hard target作为训练label,比如猫的label为(1,0,0),那么网络只能学习到猫的梯度,而在soft target,可以得出猫和狗更像,和汽车不像。
在这里插入图片描述

流程:

T越大,输入的结果越soft,包含的知识也就越多。在训练的时候,教师网络和学生网络的T相同,在预测的时候,T为1。

http://www.lryc.cn/news/185112.html

相关文章:

  • jmeter利用自身代理录制脚本
  • 【漏洞复现】时空智友企业流程化管控系统 session泄露
  • 获取泛型的类型
  • [Python进阶] Pyinstaller打包问题
  • 计算机竞赛 题目:基于机器视觉opencv的手势检测 手势识别 算法 - 深度学习 卷积神经网络 opencv python
  • 竞赛选题 机器学习股票大数据量化分析与预测系统 - python 竞赛选题
  • 智慧驿站:为城市带来全新智慧公厕未来形态
  • Java获取汉字首字母
  • 基于or-tools的人员排班问题建模求解(JavaAPI)
  • 设备管理团队如何做好停机维护工作_基于PreMaint设备数字化平台
  • c++ qt--线程(二)(第九部分)
  • ​企业数据泄露不断,深信服EDR助企业构建数据“安全屋”
  • 单线复用iptv影响网速吗?
  • C语言中常用的字符串处理函数(strlen、strcpy、strcat、strcmp)
  • Suricata – 入侵检测、预防和安全工具
  • vscode 乱码解决
  • SpringCloud(37):Spring Cloud Alibaba 综合集成架构演示
  • 【单片机】15-AD和DA转换
  • 基于FPGA的I2C读写EEPROM
  • Viva Employee Communications Communities部署方案
  • WPF向Avalonia迁移(三、项目结构)
  • cvpr24写作模板pdfLaTex编译器注意点小结
  • windows版php扩展包下载
  • 计算机竞赛 题目:基于深度学习的中文汉字识别 - 深度学习 卷积神经网络 机器视觉 OCR
  • Django跨域访问 nginx转发 开源浏览器
  • Docker Alist 在线网盘部署
  • Jmeter吞吐量控制器使用小结
  • 3分钟轻松实现网关网口连接罗克韦尔AB CompactLogix系列PLC
  • vscode刷leetcode使用Cookie登录
  • 每次启动Docker容器指定IP、hosts和端口