当前位置: 首页 > news >正文

半监督学习与数据增强(论文复现)

半监督学习与数据增强(论文复现)

本文所涉及所有资源均在传知代码平台可获取

文章目录

    • 半监督学习与数据增强(论文复现)
        • 概述
        • 算法原理
        • 核心逻辑
        • 效果演示
        • 使用方式

概述

本文复现论文提出的半监督学习方法,半监督学习(Semi-supervised Learning)是一种机器学习方法,它将少量的标注数据(带有标签的数据)和大量的未标注数据(不带标签的数据)结合起来训练模型。在许多实际应用中,标注数据获取成本高且困难,而未标注数据通常较为丰富和容易获取。因此,半监督学习方法被引入并被用于利用未标注数据来提高模型的性能和泛化能力

在这里插入图片描述

该论文介绍了一种基于一致性和置信度的半监督学习方法 FixMatch。FixMatch首先使用模型为弱增强后的未标注图像生成伪标签。对于给定图像,只有当模型产生高置信度预测时才保留伪标签。然后,模型在输入同一图像的强增强版本时被训练去预测伪标签。FixMatch 在各种半监督学习数据集上实现了先进的性能

算法原理

FixMatch 结合了两种半监督学习方法:一致性正则化和伪标签。其主要创新点在于这两种方法的结合以及在执行一致性正则化时分别使用了弱增强和强增强。

FixMatch 的损失函数由两个交叉熵损失项组成:一个用于有标签数据的监督损失 lsl**s 和一个用于无标签数据的无监督损失 lul**u 。具体来说,lsl**s 只是对弱增强有标签样本应用的标准交叉熵损失

在这里插入图片描述

其中 BB 表示 batch size,HH 表示交叉熵损失,pbp**b 表示标记,pm(y∣α(xb))p**m(yα(x**b)) 表示模型对弱增强样本的预测结果。

FixMatch 对每个无标签样本计算一个伪标签,然后在标准交叉熵损失中使用该标签。为了获得伪标签,我们首先计算模型对给定无标签图像的弱增强版本的预测类别分布:qb=pm(y∣α(ub))q**b=p**m(yα(u**b))。然后,我们使用 qb=arg⁡max⁡qb*q*b=argmaxq**b 作为伪标签,但我们在交叉熵损失中对模型对 ubu**b 的强增强版本的输出进行约束

在这里插入图片描述

其中 μμ 表示无标签样本与有标签样本数量之比,1(max(qb)>τ)1(max(q**b)>τ) 当前仅当 max(qb)>τmax(q**b)>τ 成立时为 1 否则为 0,ττ 表示置信度阈值,A(ub)A(u**b) 表示对无标签样本的强增强。

FixMatch的总损失就是 ls+λulul**s+λul**u,其中 λuλ**u 是表示无标签损失相对权重的标量超参数

在这里插入图片描述

FixMatch 利用两种增强方法:“弱增强”和“强增强”。论文所使用的弱增强是一种标准的翻转和位移增强策略。具体来说,除了SVHN数据集之外,我们在所有数据集上以50%的概率随机水平翻转图像,并随机在垂直和水平方向上平移图像最多12.5%。对于“强增强”,我采用了基于随机幅度采样的 RandAugment,然后进行了 Cutout 处理。

我在CIFAR-10、CIFAR-100 、SVHN 和 FER2013 数据集上对 FixMatch 进行了实验。关于使用的神经网络,我在 CIFAR-10 和 SVHN 上使用了 Wide ResNet-28-2,在 CIFAR-100 上使用了 Wide ResNet-28-8,在 FER2013 上使用了 Wide ResNe-37-2。实验结果如下表所示

在这里插入图片描述

为了直观展示 FixMatch 的效果,我在线部署了基于 FER2013 数据集训练的 Wide ResNe-37-2 模型。FER2013[2] 是一个面部表情识别数据集,其包含约 30000 张不同表情的面部 RGB 图像,尺寸限制为 48×48。其主要标签可分为 7 种类型:愤怒(Angry),厌恶(Disgust),恐惧(Fear),快乐(Happy),悲伤(Sad),惊讶(Surprise),中性(Neutral)。厌恶表情的图像数量最少,只有 600 张,而其他标签的样本数量均接近 5,000 张

核心逻辑

具体的核心逻辑如下所示:

for epoch in range(epochs):model.train()train_tqdm = zip(labeled_dataloader, unlabeled_dataloader)for labeled_batch, unlabeled_batch in train_tqdm:optimizer.zero_grad()# 利用标记样本计算损失data = labeled_batch[0].to(device)labels = labeled_batch[1].to(device)logits = model(normalize(strong_aug(data)))loss = F.cross_entropy(logits, labels)# 计算未标记样本伪标签with torch.no_grad():data = unlabeled_batch[0].to(device)logits = model(normalize(weak_aug(data)))probs = F.softmax(logits, dim=-1)trusted = torch.max(probs, dim=-1).values > thresholdpseudo_labels = torch.argmax(probs[trusted], dim=-1)loss_factor = weight * torch.sum(trusted).item() / data.shape[0]# 利用未标记样本计算损失logits = model(normalize(strong_aug(data[trusted])))loss += loss_factor * F.cross_entropy(logits, pseudo_labels)# 反向梯度传播并更新模型参数loss.backward()optimizer.step()
效果演示

网站提供了在线体验功能。用户需要输入一张长宽尽可能相等且大小不超过 1MB 的正面脸部 JPG 图像,网站就会返回图片中人物表情所表达的情绪

在这里插入图片描述

使用方式

解压附件压缩包并进入工作目录。如果是Linux系统,请使用如下命令

unzip FixMatch.zip
cd FixMatch

代码的运行环境可通过如下命令进行配置

pip install -r requirements.txt

如果希望在本地运行程序,请运行如下命令

python main.py

如果希望在线部署,请运行如下命令

python main-flask.py

文章代码资源点击附件获取

http://www.lryc.cn/news/452014.html

相关文章:

  • css3-----2D转换、动画
  • SQL进阶技巧:统计各时段观看直播的人数
  • Stream流的终结方法
  • JavaWeb——Vue组件库Element(4/6):案例:基本页面布局(基本框架、页面布局、CSS样式、完善布局、效果展示,含完整代码)
  • 【c++】 模板初阶
  • R 语言 data.table 大规模数据处理利器
  • Java 静态代理详解:为什么代理类和被代理类要实现同一个接口?
  • OpenCV C++霍夫圆查找
  • H.264编解码介绍
  • Java | Leetcode Java题解之第450题删除二叉搜索树中的节点
  • 【CViT】Deepfake Video Detection Using Convolutional Vision Transformer
  • 安卓主板_MTK4G/5G音视频记录仪整机及方案定制
  • Qt 教程全集目录公布(方便查阅)
  • 云计算SLA响应时间的matlab模拟与仿真
  • ARTS Week 42
  • 10.2学习
  • 【数一线性代数】021入门
  • (k8s)kubernetes中ConfigMap和Secret
  • stm32四足机器人(标准库)
  • 基于Hive和Hadoop的共享单车分析系统
  • 基于SSM和vue的机票订购管理系统
  • 【rCore OS 开源操作系统】Rust 练习题题解: Enums
  • VPN简述
  • 【Kubernetes】常见面试题汇总(四十九)
  • 常见排序算法以及冒泡排序的基础使用方法
  • 【网络安全】Cookie与ID未强绑定导致账户接管
  • Ansible Playbook原理与实践(Principles and Practice of Ansible Playbook)
  • 解决OpenCV保存视频 视频全部为绿色的bug
  • 手机使用指南:如何在没有备份的情况下从 Android 设备恢复已删除的联系人
  • TS系列(6):函数