当前位置: 首页 > article >正文

LLM最后怎么输出值 解码语言模型:从权重到概率的奥秘

在这里插入图片描述

在这里插入图片描述

  1. LM Head Weights(语言模型头部权重):左侧的“LM Head Weights”表示语言模型头部的权重矩阵,它是模型参数的一部分。权重矩阵与输入数据进行运算。
  2. Logits(未归一化对数概率):经过与LM Head Weights运算后得到Logits。Logits是模型输出的未经过归一化处理的数值,代表各个类别(token )的得分。
  3. SM Agg(Softmax Aggregation) :对Logits进行特定的聚合处理,可能是为了在特定维度上进行汇总或进一步处理。
  4. Logits Softmax:将经过SM Agg处理后的Logits通过Softmax函数进行处理。Softmax函数将未归一化的Logits转换为概率分布,使得所有可能输出的概率之和为1。
  5. 输出:最终输出各个类别(这里用A、B、C表示不同token )对应的概率值,比如图中展示了多个类别,模型根据概率来预测最可能的输出。
http://www.lryc.cn/news/2384328.html

相关文章:

  • Leetcode百题斩-回溯
  • 超小多模态视觉语言模型MiniMind-V 训练
  • 边缘云的定义、实现与典型应用场景!与传统云计算的区别!
  • HarmonyOS 鸿蒙应用开发基础:父组件和子组件的通信方法总结
  • 小白的进阶之路系列之三----人工智能从初步到精通pytorch计算机视觉详解下
  • Scrapy爬取heima论坛所有页面内容并保存到MySQL数据库中
  • HarmonyOS NEXT~鸿蒙系统下的Cordova框架应用开发指南
  • com.alibaba.fastjson2 和com.alibaba.fastjson 区别
  • 探索数据结构的时间与空间复杂度:编程世界的效率密码
  • std::ranges::views::stride 和 std::ranges::stride_view
  • 了解Android studio 初学者零基础推荐(2)
  • 矩阵短剧系统:如何用1个后台管理100+小程序?技术解析与实战应用
  • C# 初学者的 3 种重构模式
  • MySQL 数据类型深度全栈实战,天花板玩法层出不穷!
  • 前端vscode学习
  • 自动驾驶传感器数据处理:Python 如何让无人车更智能?
  • 从电商角度设计大模型的 Prompt
  • 利用 SQL Server 作业实现异步任务处理:一种简化系统架构的实践方案
  • 平安健康2025年一季度深耕医养,科技赋能见成效
  • Index-AniSora技术升级开源:动漫视频生成强化学习
  • LLVM编译C++测试
  • ubuntu24.04+RTX5090D 显卡驱动安装
  • MATLAB贝叶斯超参数优化LSTM预测设备寿命应用——以航空发动机退化数据为例
  • 鸿蒙应用开发:Navigation组件使用流程
  • javaweb的拦截功能,自动跳转登录页面
  • 【Linux】系统在输入密码后进入系统闪退锁屏界面
  • 当物联网“芯”闯入纳米世界:ESP32-S3驱动的原子力显微镜能走多远?
  • 微信小程序webview与VUE-H5实时通讯,踩坑无数!亲测可实现
  • Web请求与相应
  • LeetCode222_完全二叉树的结点个数