当前位置：首页 > news >正文

论文略读：Knowledge is a Region in Weight Space for Finetuned Language Models

news 2025/7/25 9:34:43

EMNLP 2023

神经网络研究长期以来主要聚焦于单个模型在单个数据集上的行为与特性，但对于不同模型之间的关系，我们知之甚少。
- 本文试图弥补这一空白，探索模型之间在权重空间和损失函数景观中的联系。
研究发现：
- 权重空间中的聚集性
  - 在同一个数据集上微调的，架构相同的语言模型，在权重空间中形成紧密的聚类（tight cluster）；
  - 对于来自同一任务但不同数据集的微调模型，它们在权重空间中也形成一个相对较松散的聚类（looser cluster）；
  - 换言之，模型的“几何位置”能够反映出它们的任务相似性和数据分布。
性能区域的连通性
- 所有在同一任务上表现良好的模型，集中分布在权重空间的某一特定区域；
- 更重要的是，该区域内任意位置的模型都具有较高性能；
- 即使这些模型未在某个特定任务上微调过，只要它们处于“好模型”之间的区域，也可能在该任务上表现良好。
基于以上观察，作者设计了一种高效微调的起点选择策略：
- 不再直接使用预训练模型，而是从多个微调模型形成区域的中心点开始微调；

http://www.lryc.cn/news/597088.html

相关文章：

iOS上使用WebRTC推拉流的案例

想曰加密工具好用吗？本地安全、支持多算法的加密方案详解

ZLMediaKit流媒体服务器WebRTC页面显示：使用docker部署

基于Matlab传统图像处理技术的车辆车型识别与分类方法研究

【第三章自定义检视面板_创建自定义编辑器_如何创建自定义PropertyDrawer(9/9)】

第六章 W55MH32 UDP Multicast示例

在离线 Ubuntu 22.04机器上运行 ddkj_portainer-cn 镜像其他相关操作也可以复刻 docker

CCD工业相机系统设计——基于FPGA设计

【后端】FastAPI的Pydantic 模型

【Linux-云原生-笔记】keepalived相关

蒙牛社交电商的升级路径研究：基于开源链动2+1模式、AI智能名片与S2B2C商城小程序源码的融合创新

轻量化RTSP视频通路实践：采集即服务、播放即模块的工程解读

【Redis】在Ubentu环境下安装Redis

RCE随笔-奇技淫巧(2)

【Linux-云原生-笔记】Haproxy相关

ros0基础-day18

OCP NIC 3.0 Ethernet的multiroot complex和multi host complex的区别

Android多开实现方案深度分析

【硬件】Fan in和Fan out

RAG深入理解和简易实现

海信IP501H-IP502h_GK6323处理器-原机安卓9专用-优盘卡刷固件包

springcloud环境和工程搭建

中国多媒体与网络教学学报编辑部中国多媒体与网络教学学报杂志社2025年第6期目录

论文略读：Mitigating Catastrophic Forgetting in Language Transfer via Model Merging

旋变调零技术介绍与方法

CVE-2025-32463漏洞：sudo权限提升漏洞全解析

「源力觉醒创作者计划」深度讲解大模型之在百花齐放的大模型时代看百度文心大模型4.5的能力与未来

《计算机网络》实验报告七 HTTP协议分析与测量

spring-cloud概述