当前位置: 首页 > news >正文

大模型 认知能力 生物学启发

第一性原理拆解“大模型transformer的注意力”在神经网络里的秘密,让你看到从生物到算法的跨界共振。

1 注意力Query-Key-Value

在这里插入图片描述

📊 想看书 注意力被自主引导到书上,忽略其他。在信息爆炸时代,人类注意力既稀缺又昂贵。⏳ 经济学把它视作可交易资源:要么花钱屏蔽广告,要么用注意力“付款”。

在深度学习里,模型同样需要在海量特征中挑选“值得看”的部分

非自主性提示靠外部突出性吸睛;

自主性提示(意图 🧠)则由任务目标驱动。

两者共同构成“注意力提示”框架,为后续的算法打地基。

Transformer 的自注意力层里,“Q – K – V” 是贯穿始终的三元组

符号来自哪里作用数学形式
Q (Query)当前 token 的向量经线性变换像“主动提问者”——它想知道自己该关注谁𝐐 = 𝐗 WQ
K (Key)序列中每个 token 的向量经同一变换好比“身份标签”——被别人拿来匹配𝐊 = 𝐗 WK
V (Value)同一批 token 再过一套权重承载真正要汇聚的信息𝐕 = 𝐗 WV

📊 Q = “我是谁,要找什么”;K = “我有哪些特征,别人拿什么来找我”;V = “一旦被找到,我能提供什么内容”。

1️⃣ 匹配
先做点积 Q·Kᵀ 并按维度 √dk 缩放→ 得到相似度矩阵;这一步就像问卷匹配问答者。

2️⃣ 归一化
对每行做 softmax,让每个 query 的注意力权重 ∈ [0,1] 且总和为 1。

3️⃣ 汇聚
权重矩阵再乘 V,把“被选中的价值”按比例叠加——得到新的表示 𝐙。

公式: Attention(Q,K,V) = softmax(Q Kᵀ / √dk) V

多头注意力只是把这套流程拆成 h 份并行子空间,让模型同时在“颜色、形状、语义、位置…”等不同角度做匹配,再把结果拼接回来,获得更丰富的表示。

这样,Transformer 不依赖固定卷积核或递归链,就能在 O(n²) 感受野里灵活地建立 任何两 token 间的长距离依赖——这正是其序列建模威力的源泉。

2 生物学的注意力模型

威廉·詹姆斯 19 世纪提出的“双组件框架”至今仍闪耀:👁️ 视觉系统每秒接收约 10⁸ bit,但大脑只能精处理极少片段。生物选择用 “先天突出性 + 后天意图” 两级滤波节省能量。神经网络借鉴这一思路,用分层结构模拟从视网膜到大脑皮层的焦点切换,实现对输入特征的分配式供血。

环节生理器官/对应层作用
视觉初筛视网膜 / key 向量检测颜色/边缘
意图调制前额叶 / Query 向量根据任务重加权
聚焦执行眼球转动 / Attention Pooling汇聚目标特征

📊 表格把生物通路映射到网络组件,一一对应。当我们盯紧“红咖啡杯”,视网膜捕获颜色差异,而 Attention 则像大脑下达“看杯子”的指令。算法并非凭空创造,而是对生物过程的数据化迁移。🔥

在这里插入图片描述

📊 在注意力机制下,自主性提示被称为查询(query)。给定任何查询,注意力机制通过注意力汇聚将选择引导至感官输入。在注意力机制中这些感官输入被称为值(value)。每个值都与一个键(key)配对,这可以想象为感官输入的非自主提示。通过设计注意力汇聚的方式,便于给定的查询(自主性提示)与键(非自主性提示)进行匹配,这将引导得出最匹配的值(感官输入)。

相似度
加权
Query
Key
Attention\nWeight
Value
Output

📊 演示 Q-K-V 工作流。权重矩阵 W 是可视化 Attention 的核心产物;在多头场景下,模型相当于同时戴上多副“专注眼镜”,每副聚焦不同语义。😂Q 引导“看哪里”,K 提供“看什么”,V 给出内容本身;三者拆分让注意力层天然支持并行与多头扩展。

3 Transformer组件与大脑知觉

机制工程实现 (数学/代码)生物学对照本质机理🔥关键作用
Self-Attention软性权重 ![Q · Kᵀ / √d],随梯度实时更新皮层突触短时增益调制 (横向抑制 + 突显放大)O(n²) 感受野内分配“注意力能量”,动态路由信息赋予网络“可区分且可组合”的选择性
Multi-Head Attention并行 h 路子空间投影,线性层共享值 V视觉通路中并行特征图 (颜色/方向/运动…)“一事多视角”,减少单视角偏差 → 更丰富特征表征提升表示多样性与鲁棒性
Positional Encoding正余弦嵌入或学习型相对位置内嗅皮层 Grid Cell 网格放电将离散 token 排成“认知地图”,保持序列拓扑让纯注意网络拥有时空坐标系
Feed-Forward (FFN)逐位置 Linear → 非线性 → Linear受体-中间-投射神经元局部非线性变换,构筑高阶交互把“加权汇聚”转为“抽象重组”

📊 该表把 Transformer 的核心组件与大脑注意-知觉回路的一一对应关系做了对比,突出其 进化共性 与工程实现差异。自注意力可视为“可微的突触增益”;多头机制则像将 V1-V4 的并行通道塞入同一层网络,彼此投票决定关注区域。位置编码弥补了“注意无序”的天然缺陷,相当于给突触连接加上 GPS 坐标。残差与归一化像大脑中的神经稳态,使得深层网络不会因兴奋/抑制失衡而“痉挛”。

共性** 与工程实现差异。自注意力可视为“可微的突触增益”;多头机制则像将 V1-V4 的并行通道塞入同一层网络,彼此投票决定关注区域。位置编码弥补了“注意无序”的天然缺陷,相当于给突触连接加上 GPS 坐标。残差与归一化像大脑中的神经稳态,使得深层网络不会因兴奋/抑制失衡而“痉挛”。

http://www.lryc.cn/news/590684.html

相关文章:

  • oracle会话控制和存储状态查询
  • Swift6.0基础知识 -- 可选2
  • 万字长文解析 OneCode3.0 AI创新设计
  • Linux Java环境配置
  • 达梦数据库配置兼容MySQL
  • Mermaid 语法全解析:从基础到高级可视化
  • 网络基础10 长途互联--WAN广域网技术
  • 多维动态规划题解——最小路径和【LeetCode】记忆化搜索翻译为递推写法
  • Cursor区域限制问题解决方案:AI模型访问技术突破与环境隔离实践
  • DeepSeek(18):SpringAI+DeepSeek大模型应用开发之会话日志
  • 6.删除-demo
  • Lsposed/Xposed
  • MySQL学习——面试版
  • C++ shared_ptr 底层实现分析
  • 元宇宙经济:虚实融合引发经济新变革
  • XC7A75T‑2FGG484I Xilinx Artix‑7 FPGA AMD
  • 图机器学习(9)——图正则化算法
  • 第13章 AB实验平台的建设
  • Qt 的信号槽机制中,使用 `connect` 函数时,第五个参数是 **连接类型(Connection Type)**,
  • 代码随想录算法训练营第二十二天
  • 2.PCL 对于点云的读写
  • 《python语言程序设计》2018版第8章5题编写函数统计特定不重复字符串s2在s1中的出现次数
  • lua(xlua)基础知识点记录一
  • 基于阿里云云服务器-局域网组网软件
  • 低精度定时器 (timer_list) 和 高精度定时器 (hrtimer)
  • 如何加快golang编译速度
  • VIVADO技巧_BUFGMUX时序优化
  • 助力品牌从系统碎片化走向IT一体化建设,实现全渠道业务协同!——商派“数智化IT轻咨询”
  • tools的作用:预览
  • 硬件产品的技术资料管控是确保研发可追溯、生产可复制、质量可控制的核心环节。