当前位置：首页 > news >正文

Transformer中基于惊喜的遗忘机制

news 2025/6/29 16:02:09

在语言建模任务上，拥有 760M 参数的 Titans(MAC) 在 WikiText 上达到了 19.93 的困惑度，显著优于同等规模的 Transformer++（25.21）和 Mamba2（22.94）。在常识推理任务上，Titans 在包括 PIQA、HellaSwag、WinoGrande 等 9 个基准测试中的平均准确率达到 52.51%，超过了现有的最好成绩。

Transformer中基于惊喜的遗忘机制

是一种根据输入信息的“惊喜”程度来决定是否遗忘先前信息的机制。“惊喜”通常指的是输入信息与模型预期的差异程度。如果新输入的信息与模型之前的预期差异较大，即具有较高的“惊喜值”，那么模型可能会选择遗忘一些先前的信息，以便更好地适应新的、更重要的信息。以下是其详细介绍：

原理

计算惊喜值：模型会计算新输入信息与当前模型预测或预期之间的差异，这个差异值就是惊喜值。计算方式可以是通过比较当前输入的特征向量与模型内部的预期特征向量之间的距离或差异度量或者梯度数值来确定。
遗忘决策：根据计算得到的惊喜值，模型会决定是

http://www.lryc.cn/news/522549.html

相关文章：

从玩具到工业控制--51单片机的跨界传奇【3】

基于机器学习的用户健康风险分类及预测分析

CF 641A.Little Artem and Grasshopper(Java实现)

5 分钟复刻你的声音，一键实现 GPT-Sovits 模型部署

1.Spring AI 从入门到实践

第23篇基于ARM A9处理器用汇编语言实现中断＜五＞

攻防世界 unseping

Python编程与在线医疗平台数据挖掘与数据应用交互性研究

浔川 AI 翻译已修复，可正常使用

apidoc thinkphp likeadmin 遇到解析报错

第22篇基于ARM A9处理器用汇编语言实现中断＜四＞

重回C语言之老兵重装上阵（六）枚举

Excel中函数SIGN()的用法

如何将本地电脑上的文件夹设置为和服务器的共享文件夹

智能建筑时代的核心选择——基于SAIL-RK3576核心板的AI边缘计算网关方案

08、如何预防SQL注入

【时时三省】(C语言基础）柔性数组

mongodb详解二：基础操作

【数据分享】1929-2024年全球站点的逐月平均气温数据（Shp\Excel\免费获取）

管理口令安全和资源（一）

【Linux】【Vim】vim编辑器的用法

Golang Gin系列-3：Gin Framework的项目结构

LabVIEW实车四轮轮速信号再现系统

2025.1.16——六、BabySQL 双写绕过|联合注入

Spring Boot 下的Swagger 3.0 与 Swagger 2.0 的详细对比

【已解决】git clone报错：Failed to connect to github.com port 443: Timed out

Qt 程序 DPI 适配方法归纳

AI刷题-小R的随机播放顺序、不同整数的计数问题