当前位置: 首页 > news >正文

机器学习之自训练协同训练

前言

        监督学习往往需要大量的标注数据, 而标注数据的成本比较高 因此 利用大量的无标注数据来提高监督学习的效果有着十分重要的意义. 这种利用少量标注数据和大量无标注数据进行学习的方式称为 半监督学习 Semi-Supervised Learning, SSL ). 本文将介绍两种半监督学习算法 自训练和协同训练

自训练

        自训练(Self-training )是一种半监督学习的方法,它通过结合有标签数据和无标签数据来提高模型的性能。在自训练中,首先使用有标签数据进行初始模型的训练,然后使用该模型对无标签数据进行预测,并将置信度较高的预测结果作为伪标签加入到有标签数据集中,再重新训练模型。通过迭代这个过程,逐步扩充有标签数据集和改进模型。
自训练流程图

协同训练

        协同训练 Co-Training 是自训练的一种改进方法 通过两个基于不同 视角 view 的分类器来互相促进.
        由于不同视角的条件独立性, 在不同视角上训练出来的模型就相当于从不同视角来理解问题, 具有一定的互补性 协同训练就是利用这种互补性来进行自训练的一种方法.
        首先在训练集上根据不同视角分别训练两个模型𝑓 1 𝑓 2 ,然后用 𝑓 1 和 𝑓2 在无标注数据集上进行预测,各选取预测置信度比较高的样本加入训练集,重新训练两个不同视角的模型,并不断重复这个过程.
协同训练结构图

协同训练的基本框架如下:

1. 初始阶段:将有标签数据集随机分成两个子集,分别为视角 1 和视角 2 。使用视角 1 的特征训练模型 1 ,使用视角 2 的特征训练模型 2
2. 交替迭代:在每次迭代中,使用已训练好的模型对无标签数据进行预测,并选择置信度较高的样本加入到相应的视角的有标签数据集中。
3. 模型更新:使用扩充后的有标签数据集重新训练模型 1 和模型 2
4. 重复步骤 2 和步骤 3 ,直到满足停止条件(如达到最大迭代次数或模型性能不再提升)。
http://www.lryc.cn/news/189299.html

相关文章:

  • ubuntu 通过apt-get快速安装 docker
  • C++医院影像科PACS源码:三维重建、检查预约、胶片打印、图像处理、测量分析等
  • 企业聊天应用程序使用 Kubernetes
  • 记录用命令行将项目打包成war包
  • Linux基础知识笔记
  • Laya3.0 入门教程
  • 3D全景虚拟样板间展销系统扩展用户市场范围
  • 如何编写lua扩展库
  • Java List 中存不同的数据类型
  • pyqt5:openpyxl 读取 Excel文件,显示在 QTableWidget 中
  • 在RabbitMQ中使用新的MQTT 5.0功能
  • flinkcdc 体验
  • Kafka知识补充
  • 【MAC】升级 Mac os 后报错
  • LeetCode(力扣)416. 分割等和子集Python
  • Redis之缓存一致性
  • LeetCode-199-二叉树的右视图
  • 二叉树的最近公共祖先
  • C++ 补充 反向迭代器的实现
  • JVM第一讲:JVM相关知识体系详解+面试(P6熟练 P7精通)
  • 深度学习DAY3:FFNNLM前馈神经网络语言模型
  • JavaSE学习值之--String类
  • 【LeetCode高频SQL50题-基础版】打卡第6天:第31~35题
  • 基于单片机的汽车智能仪表的设计
  • 【Docker 内核详解】namespace 资源隔离(一):进行 namespace API 操作的 4 种方式
  • 【技术研究】环境可控型原子力显微镜超高真空度精密控制解决方案
  • 【Vuex+ElementUI】Vuex中取值存值以及异步加载的使用
  • python经典百题之简单加密数据
  • 登陆认证权限控制(1)——从session到token认证的变迁 session的问题分析 + CSRF攻击的认识
  • 单点接地、多点接地、混合接地