当前位置: 首页 > news >正文

自监督表征学习方法——BYOL(Bootstrap Your Own Latent)

自监督表征学习方法——BYOL(Bootstrap Your Own Latent)

参考文献:《Bootstrap Your Own Latent A New Approach to Self-Supervised Learning》

1.前言背景

        学习良好的图像表示是计算机视觉中的一个关键挑战,因为它允许对下游任务进行有效的训练。许多不同的训练方法被提出来学习这种表征,通常依赖于视觉借口任务。

        其中,最先进的对比方法是通过减少同一图像的不同增强视图的表示之间的距离和增加来自不同图像的增强视图的表示(负对)之间的距离来训练的。这些方法需要仔细处理负对,通过依赖大批量、内存库或定制的挖掘策略来检索负对。此外,它们的性能严重取决于图像增强的选择。

 BYOL与以往自监督学习方法在ImageNet上的性能对比

2.BYOL介绍

        BYOL在不使用负对的情况下,获得了比最先进的对比方法更高的性能。它迭代地引导网络的输出,以作为增强表示的目标。此外,BYOL对图像增强的选择比对比方法更鲁棒;我们怀疑不依赖负对是其提高鲁棒性的主要原因之一。虽然以前基于引导的方法使用了伪标签、聚类索引或一些标签,但我们建议直接引导表示。

        特别是,BYOL使用两种神经网络,被称为在线网络目标网络,它们相互作用和相互学习。

原理:从一个图像的增强视图开始,BYOL训练其在线网络来预测目标网络对同一图像的另一个增强视图的表示。

虽然这个目标允许折叠解,例如,为所有的图像输出相同的向量,但我们的经验表明,BYOL并不收敛于这样的解。

 BYOL的框架图

如图所示,紫色部分为在线网络,红色部分为目标网络。

在线网络由一组权值θ定义,由三个阶段组成:编码器f_\theta、投影仪g_\theta和预测器q_\theta。目标网络具有与在线网络相同的架构,但使用不同的权值ξ。

目标网络提供了对在线网络进行训练的回归目标,其参数ξ是在线参数θ的指数移动平均值。更准确地说,给定一个目标衰减率\tau \in [0,1],在每个训练步骤后,我们执行以下更新,

具体流程如下:

①给定一组图像D,图像x∼D采样均匀从D,和两个分布的图像增强\tau{\tau }',BYOL产生两个增强视图v=t(x)v'=t'(x)从x分别应用图像增强t\sim \taut'\sim \tau '

②从第一个增广视图v中,在线网络输出一个表示法y_\theta =f_\theta (v)和一个投影法z_\theta =g_\theta (y_\theta )

目标网络从第二个增强视图v'输出y'_\xi =f_\xi (v')和目标投影z'_\xi =g_\xi (y'_\xi )

③然后,我们输出q_\theta (z_\theta )的预测和z'_\xi。最后,我们定义了以下标准化预测和目标预测之间的均方误差,

将v输入目标网络,则得到\tilde{L}_{\theta ,\xi },最终最小化

参数更新情况如下

 \eta为学习率。

3.实验结果

在ImageNet上做自监督训练。

①下游任务用作ImageNet识别

 ②ImageNet半监督任务

③迁移学习到别的数据集

④迁移学习到语义分割和目标检测以及深度估计

4.结论

        这里介绍了一种新的图像表示的自监督学习算法BYOL。BYOL通过预测其输出的以前版本来学习它的表示,而不使用负对。并且展示了BYOL在各种基准测试上取得了最先进的结果。特别是,在使用ResNet-50(1×)的ImageNet线性评估协议下,BYOL实现了一种新的技术,并弥补了自监督方法和的监督学习基线之间的大部分剩余差距。使用ResNet-200(2×),BYOL达到了79.6%的前1位精度,比之前的技术水平(76.8%)有所提高,同时少使用了30%的参数。

然而,BYOL仍然依赖于特定于视觉应用程序的现有增强集。为了将BYOL推广到其他模式(例如,音频、视频、文本、……),有必要为每种模式获得类似的合适的扩充。设计这样的增强功能可能需要大量的努力和专业知识。因此,自动搜索这些增强功能将是将BYOL推广到其他模式的重要下一步。

 

 

 

 

 

http://www.lryc.cn/news/5345.html

相关文章:

  • 均衡负载集群(LBC)-1
  • WebSocket
  • GA-PEG-GA,Glutaric Acid-PEG-Glutaric Acid,戊二酸-聚乙二醇-戊二酸供应
  • 使用sqlmap + burpsuite sql工具注入拿flag
  • 替代AG9300|替代NCS8823|CS5260 Type-C转VGA视频转换方案
  • 乐鑫特权隔离机制的 OTA 固件升级
  • C++数据结构 —— 二叉搜索树
  • Maven面试题及答案
  • WebRTC系列-Qos系列之接收放RTX处理
  • 国内能否炒伦敦金,2023国际十大正规伦敦金交易平台排名
  • react路由 - react-router-dom
  • 01-RTOS
  • 信息安全管理
  • 深度学习tips
  • 2023-2-13 刷题情况
  • [HSCSEC 2023] rev,pwn,crypto,Ancient-MISC部分
  • SpringBoot 接入 Spark
  • 在线支付系列【23】支付宝开放平台产品介绍
  • Python绝对路径和相对路径详解
  • 基于多进程的并发编程
  • Flask入门(4):CBV和FBV
  • Qt OpenGL(三十九)——Qt OpenGL 核心模式-在雷达坐标系中绘制飞行的飞机
  • 系统应用 odex 转 dex
  • 【GPLT 三阶题目集】L3-013 非常弹的球
  • vue项目第三天
  • 【渝偲医药】实验室关于核磁共振波谱NMR的知识(原理、用途、分析、问题)
  • 教你文本生成图片——stablediffusion
  • C语言学习笔记-命令行参数
  • ASEMI代理FGH60N60,安森美FGH60N60车规级IGBT
  • http409报错原因