当前位置: 首页 > news >正文

模型学习系列之参数

背景

“GLM-4.5拥有 3550 亿总参数量,其中 320 亿活跃参数;GLM-4.5-Air 采用更紧凑的设计,拥有 1060 亿总参数量,其中 120 亿活跃参数。”

定义与关系

  • 总参数量:模型中所有可训练参数的总和(包括嵌入层、注意力层、前馈网络等),反映模型的理论容量
  • 活跃参数:在单次前向传播中实际参与计算的参数子集。例如:
    • 稀疏激活模型(如MoE):每次只激活部分专家网络(如Switch Transformer每次激活1/8的专家)。
    • 动态参数共享(如LoRA、AdaLoRA):通过低秩分解或掩码动态选择参数。
    • 条件计算(如专家选择、路由机制):根据输入动态决定激活哪些路径。

关系
活跃参数 ≤ 总参数量(通常远小于)。例如,Switch Transformer总参数量1.6T,但单次计算仅激活约50B参数(活跃参数占比~3%)。

作用与意义

(1)效率提升
  • 计算成本:活跃参数直接决定FLOPs和内存占用。稀疏激活(如MoE)允许在总参数量极大时,仍保持低计算量(如GPT-3 175B的FLOPs vs. MoE-1T的FLOPs可能相近)。
  • 存储优化:通过参数共享(如LoRA)或量化,减少实际存储需求(例如Meta的LLaMA-65B通过4-bit量化压缩至33GB)。
(2)性能与容量的权衡
  • 总参数量:提供潜在容量(如知识存储),但需通过稀疏激活或动态路由有效利用。例如:
    • MoE模型:总参数量大(如GLaM 1.2T),但活跃参数少(96B),在多项任务上超越GPT-3(175B全激活)。
    • 过拟合风险:总参数量过大但活跃参数不足时,可能因参数利用率低导致欠拟合。
(3)训练与推理的差异化设计
  • 训练阶段:总参数量影响梯度更新范围,但可通过梯度稀疏化(如ZeRO-3、DeepSpeed)减少实际通信量。
  • 推理阶段:通过动态剪枝(如Block-Sparse Attention)或专家卸载(如MoE的路由缓存),进一步降低活跃参数。

总参数量是模型的“潜在智慧”,而活跃参数是其“实际执行力”。二者的分离设计(如稀疏化、动态路由)是大模型突破规模限制的核心技术,使得“用更少的计算,实现更强的性能”成为可能。

http://www.lryc.cn/news/609345.html

相关文章:

  • 秋招笔记-8.3
  • 关于记录一下“bug”,在做图片上传的时候出现的小问题
  • 验房收房怎么避免被坑?
  • 我的世界进阶模组开发教程——伤害(2)
  • 自己实现一个freertos(2)任务调度 1——最基本的TCB
  • 深入解析HashMap:原理与性能优化
  • Redis实战(7)-- 高级特性 Redis Stream数据结构与基础命令
  • spring batch处理数据模板(Reader-Processor-Writer模式)
  • Timer实现定时调度的原理是什么?
  • PPT 转高精度 PDF API 接口
  • 使用DrissionPage实现xhs笔记自动翻页并爬取笔记视频、图片
  • Coin Combinations I(Dynamic Programming)
  • Docker环境离线安装指南
  • 解剖 .NET 经典:从 Component 到 BackgroundWorker
  • node.js常用函数
  • GaussDB case when的用法
  • SpringBoot AI自动化测试实战案例
  • GitCode疑难问题诊疗
  • Linux命令基础(下)
  • 1.内核模块
  • 14.Redis 哨兵 Sentinel
  • 2. 字符设备驱动
  • IO流-对象流
  • 克罗均线策略思路
  • `npm error code CERT_HAS_EXPIRED‘ 问题
  • Java Stream API 编程实战
  • 2025年渗透测试面试题总结-2025年HW(护网面试) 77-1(题目+回答)
  • 《测试驱动的React开发:从单元验证到集成协同的深度实践》
  • 【2025ICCV-目标检测方向】WaveMamba:用于 RGB-红外目标检测的小波驱动曼巴融合
  • 百度招黑产溯源安全工程师