当前位置：首页 > news >正文

模型学习系列之参数

news 2025/8/4 16:47:18

背景

“GLM-4.5拥有 3550 亿总参数量，其中 320 亿活跃参数；GLM-4.5-Air 采用更紧凑的设计，拥有 1060 亿总参数量，其中 120 亿活跃参数。”

定义与关系

总参数量：模型中所有可训练参数的总和（包括嵌入层、注意力层、前馈网络等），反映模型的理论容量。
活跃参数：在单次前向传播中实际参与计算的参数子集。例如：
- 稀疏激活模型（如MoE）：每次只激活部分专家网络（如Switch Transformer每次激活1/8的专家）。
- 动态参数共享（如LoRA、AdaLoRA）：通过低秩分解或掩码动态选择参数。
- 条件计算（如专家选择、路由机制）：根据输入动态决定激活哪些路径。

关系：
活跃参数 ≤ 总参数量（通常远小于）。例如，Switch Transformer总参数量1.6T，但单次计算仅激活约50B参数（活跃参数占比~3%）。

作用与意义

（1）效率提升

计算成本：活跃参数直接决定FLOPs和内存占用。稀疏激活（如MoE）允许在总参数量极大时，仍保持低计算量（如GPT-3 175B的FLOPs vs. MoE-1T的FLOPs可能相近）。
存储优化：通过参数共享（如LoRA）或量化，减少实际存储需求（例如Meta的LLaMA-65B通过4-bit量化压缩至33GB）。

（2）性能与容量的权衡

总参数量：提供潜在容量（如知识存储），但需通过稀疏激活或动态路由有效利用。例如：
- MoE模型：总参数量大（如GLaM 1.2T），但活跃参数少（96B），在多项任务上超越GPT-3（175B全激活）。
- 过拟合风险：总参数量过大但活跃参数不足时，可能因参数利用率低导致欠拟合。

（3）训练与推理的差异化设计

训练阶段：总参数量影响梯度更新范围，但可通过梯度稀疏化（如ZeRO-3、DeepSpeed）减少实际通信量。
推理阶段：通过动态剪枝（如Block-Sparse Attention）或专家卸载（如MoE的路由缓存），进一步降低活跃参数。

总参数量是模型的“潜在智慧”，而活跃参数是其“实际执行力”。二者的分离设计（如稀疏化、动态路由）是大模型突破规模限制的核心技术，使得“用更少的计算，实现更强的性能”成为可能。

http://www.lryc.cn/news/609345.html

相关文章：

秋招笔记-8.3

关于记录一下“bug”，在做图片上传的时候出现的小问题

验房收房怎么避免被坑？

我的世界进阶模组开发教程——伤害（2）

自己实现一个freertos（2）任务调度 1——最基本的TCB

深入解析HashMap：原理与性能优化

Redis实战（7）-- 高级特性 Redis Stream数据结构与基础命令

spring batch处理数据模板（Reader-Processor-Writer模式）

Timer实现定时调度的原理是什么？

PPT 转高精度 PDF API 接口

使用DrissionPage实现xhs笔记自动翻页并爬取笔记视频、图片

Coin Combinations I(Dynamic Programming)

Docker环境离线安装指南

解剖 .NET 经典：从 Component 到 BackgroundWorker

node.js常用函数

GaussDB case when的用法

SpringBoot AI自动化测试实战案例

GitCode疑难问题诊疗

Linux命令基础（下）

14.Redis 哨兵 Sentinel

2. 字符设备驱动

IO流-对象流

克罗均线策略思路

`npm error code CERT_HAS_EXPIRED‘ 问题

Java Stream API 编程实战

2025年渗透测试面试题总结-2025年HW(护网面试) 77-1（题目+回答）

《测试驱动的React开发：从单元验证到集成协同的深度实践》

【2025ICCV-目标检测方向】WaveMamba：用于 RGB-红外目标检测的小波驱动曼巴融合

百度招黑产溯源安全工程师