当前位置: 首页 > news >正文

Distilling the Knowledge in a Neural Network【论文解析】

Distilling the Knowledge in a Neural Network 知识蒸馏

    • 摘要
    • 1 引言

摘要

提高几乎任何机器学习算法性能的一种非常简单的方法是在相同的数据上训练许多不同的模型,然后对它们的预测进行平均处理[3]。不幸的是,使用整个模型集合进行预测既繁琐又可能过于计算密集,特别是如果单独的模型是庞大的神经网络,这将使其无法部署到大量用户那里。Caruana及其合作者[1]已经表明,可以将集合中的知识压缩成一个单一模型,这个单一模型更容易部署,而我们使用不同的压缩技术进一步发展了这种方法。在MNIST数据集上,我们取得了一些令人惊讶的结果,并且我们表明,通过将模型集合中的知识提炼成一个单一模型,我们可以显著改进广泛使用的商业系统的声学模型。我们还引入了一种新类型的集合,由一个或多个全模型和许多专门模型组成,这些专门模型学会区分全模型混淆的细粒度类别。与专家混合不同,这些专门模型可以快速并行训练。

1 引言

许多昆虫都具有一种幼虫形态,该形态经过优化以从环境中提取能量和营养,以及一种完全不同的成虫形态,该成虫形态经过优化以适应旅行和繁殖的截然不同需求。在大规模机器学习中,尽管训练阶段和部署阶段的需求截然不同,但我们通常使用非常相似的模型:对于语音识别和目标识别等任务,训练必须从非常大、高度冗余的数据集中提取结构,但无需实时操作,可以使用大量计算资源。然而,部署到大量用户需要更严格的延迟和计算资源要求。与昆虫的

http://www.lryc.cn/news/215444.html

相关文章:

  • 基于深度学习的自动驾驶汽车语义分割与场景标注算法研究。
  • 国内可用超丝滑ChatGPT4.0(附网址及微信入口)
  • linux入门---线程的同步
  • UI设计一定不能错过的4款常用工具
  • JavaScript 基础 - 第2天
  • MyBatis和JDBC异同点
  • 关于yarn安装一些东西报错时的处理方法
  • datagrip 使用自定义参数
  • css实现平行四边形按钮
  • Jmeter只能做性能测试吗?
  • Jmeter调用测试片段 —— 模块控制器
  • 数组类型题目总结
  • 机器学习2:决策树--基于信息增益的ID3算法
  • centos7完全卸载和安装mysql8
  • 常用的解析XML的开源库
  • SQLITE3 函数接口
  • RISC-V IDE MRS无感远程协助模块详解
  • APA技术方案及关键点
  • WordPress外链页面安全跳转插件
  • 【牛客网】安全—加密和安全
  • Mybatis基础操作
  • Java实验二类编程实验
  • css文本溢出省略号多行单行例子详细
  • android auto
  • opengl基础笔记1
  • Flutter中的各种刷新小部件
  • DataxWeb安装部署及使用--真香警告
  • OpenCV 笔记(4):图像的算术运算、逻辑运算
  • 创建ABAP数据库表和ABAP字典对象-使用已存在的数据元素增加城市字段04
  • Centos7上安装 Node.js