当前位置: 首页 > news >正文

论文阅读笔记-LogME: Practical Assessment of Pre-trained Models for Transfer Learning

前言

在NLP领域,预训练模型(准确的说应该是预训练语言模型)似乎已经成为各大任务必备的模块了,经常有看到文章称后BERT时代或后XXX时代,分析对比了许多主流模型的优缺点,这些相对而言有些停留在理论层面,可是有时候对于手上正在解决的任务,要用到预训练语言模型时,面对烟火缭乱的语言模型,需要如何挑选合适的模型应用到任务上来。

一个非常直接的方法就是把每一个候选模型针对任务都做一遍微调,因为微调涉及到模型训练,时间至少几个小时起步。有些预训练模型的微调还需要进行超参数搜索,想要决定一个预训练模型的迁移效果就需要将近50个小时!对于没有足够算力的我,苦苦寻觅一个能够高效的选择适合的预训练语言模型的方法,不过资料不好找呀,偶然间我才发现了这篇论文,里面提到的LogME方法值得一试。下图是该方法适配的任务:
在这里插入图片描述

多提一下,我这里说的是预训练语言模型,即在适用于NLP领域内的模型选择打分,而对于适用于CV的一些打分方案,像LEEP、NCE、H scores感兴趣的小伙伴可以找论文看看。

本文在LogME方法的相关描述上,组织基于论文作者所在学院的官方公众号上的一篇文章,可直戳原文阅读。原Paper中开源的代码使用Pytorch进行GPU加速,我在本文的最后附上我改成TensorFlow2的代码,方便直接应用在TensorFlow2的相关模型上。

前情提要

将上面提到的问题,描述成图模型,就是论文中所画出如下的这样:
在这里插入图片描述
在这个任务中,我们假设有 M M M 个预训练模型组成的集合 { ϕ m } m = 1 M \{\phi_m\}^M_{m=1} {ϕm}m=1M 和 含有 n n n 个标签的数据集 { ( x i , y i ) } i = 1 n \{(x_i,y_i)\}^n_{i=1} {(xi,yi)}i=1n,正常情况下,我们是通过微调使用各种评判指标作为衡量模型 ϕ \phi ϕ 的表现 T m T_m Tm,而现在我们想要通过一种方法得到 S m S_m S

http://www.lryc.cn/news/455227.html

相关文章:

  • 求二叉树的带权路径长度
  • Hive数仓操作(十五)
  • No.12 笔记 | 网络基础:ARP DNS TCP/IP与OSI模型
  • OpenHarmony(鸿蒙南向开发)——轻量系统STM32F407芯片移植案例
  • 简单易懂的springboot整合Camunda 7工作流入门教程
  • LabVIEW提高开发效率技巧----点阵图(XY Graph)
  • C++-匿名空间
  • jdk的安装和环境变量配置
  • 继承、Lambda、Objective-C和Swift
  • 设置服务器走本地代理
  • 刷题 -哈希
  • React响应式修改数组和对象
  • cerbot https证书免费自动续期
  • 嵌入式硬件设计
  • 2024.09.24 校招 实习 内推 面经
  • GIT安装及集成到IDEA中操作步骤
  • Java使用线程池创建线程
  • mysql UDF提权(实战案例)
  • 【瑞昱RTL8763E】刷屏
  • 【黑马点评】使用RabbitMQ实现消息队列——3.使用Jmeter压力测试,导入批量token,测试异步秒杀下单
  • 第 21 章 一条记录的多幅面孔——事务的隔离级别与 MVCC
  • javaScript操作dom的事件(3个案例+代码+效果图)
  • 国庆期间的问题,如何在老家访问杭州办公室的网络呢
  • 动态规划算法——三步问题
  • 【鸿蒙学习】深入解析鸿蒙应用与元服务:含义、区别、应用场景及创建方法
  • React学习01 jsx、组件与组件的三大属性
  • 项目——超级马里奥——Day(3)
  • 测试-BUG篇
  • vue2中 vue-count-to组件让数字从某个数字动态的显示到某个数字(后附vue3的用法)
  • AI模型部署初认识