当前位置: 首页 > news >正文

GPT每预测一个token就要调用一次模型

问题:下图调用了多少次模型?

在这里插入图片描述
不久以前我以为是调用一次

通过看代码是输出多少个token就调用多少次,如图所示:

在这里插入图片描述

我理解为分类模型

预测下一个token可以理解为分类模型,类别是vocab的所有token,每一次调用都是在分类

为什么不能一次输出呢

从数学维度来讲,本质是条件概率,每次预测token都要基于前面的token为条件;
比如说预测了某个token,设为t1,然后要预测t2,这个时候t1要成为t2的条件了,那么t1也要转换成特征向量,那有两种选择,一种是直接使用t0的最后一层向量当作t1,还有一种是调用一次模型生成t1的特征向量; 对比两种选择,显然再调用一次模型更合理,才能利用transformer的优势,能得到更好的结果。

详情请看:https://www.zhihu.com/tardis/zm/art/623704947?source_id=1003

http://www.lryc.cn/news/267295.html

相关文章:

  • 运维工程师的出路到底在哪里?
  • 2312clang,基于访问者的前端动作
  • 怎么搭建实时渲染云传输服务器
  • 如何在生产环境正确使用Redis
  • LeetCode-环形链表问题
  • C# 读取Word表格到DataSet
  • 构建外卖系统:从技术到实战
  • 城市之眼:数据可视化在智慧城市的角色
  • Nature | Baker团队用AI设计出史上最高互作强度的蛋白质
  • C# 初识System.IO.Pipelines
  • 嵌入式——RTC内置实时时钟
  • nodejs微信小程序+python+PHP的热带野生动物园景点预约订票系统的设计与实现-计算机毕业设计推荐
  • ASP.NET MVC的5种AuthorizationFilter
  • C语言初学8:函数和作用域
  • 2024年科技盛宴“上海智博会·上海软博会”招商工作接近尾声
  • 深圳锐科达SIP矿用电话模块SV-2801VP
  • 【Qt-数据库】
  • windows文件名命名规范(文件名规范、命名规则、避免特殊字符、注意文件名长度限制260个字符)
  • 如何修改MySQL的默认端口
  • Android笔记(二十一):Room组件实现Android应用的持久化处理
  • uniapp中各种状态的按钮
  • 模式识别与机器学习-判别式分类器
  • c++11 标准模板(STL)(std::pair)(七)访问 pair 的一个元素
  • IP 地址归属地查询
  • 实战经验分享:在Java中灵活应用Excel注释和批注
  • AUTOSAR从入门到精通-车载以太网(三)
  • 【自然语言处理】用Python从文本中删除个人信息-第二部分
  • 设计模式之-中介者模式,快速掌握中介者模式,通俗易懂的讲解中介者模式以及它的使用场景
  • 12.25
  • MySQL5.7的几种安装方式总结(排错踩坑呕心沥血的经历)