当前位置: 首页 > news >正文

Rewar Model的输出(不包含训练)

这里写自定义目录标题

  • 介绍
  • 模型推理的输出过程方案
    • 原始Token输出
    • RM输出(回归任务)

介绍

奖励函数模型 (Reward Model) 是人工智能 (AI) 中的一种方法,模型因其对给定提示的响应而获得奖励或分数。现在的文章清一色的讲解RM的训练,但是没有讲解RM是如何输出一个分数的。本文只讲RM的输出,以补充资料的缺乏。RM通常采用Llama-7B模型,本文也沿用这一模型,同时模型的推理计算过程作为已知的知识,只讲解推理最后的输出部分。本文章先介绍传统Llama模型原始Token输出过程,再讲解RM的输出。以作为对比更好的学习。

模型推理的输出过程方案

  1. 原始Token输出

预训练语言模型(如LLaMA、GPT等)的默认任务是语言建模,它们的输出是针对每个token的概率分布(即词汇表中的每个词的概率)
在这里插入图片描述在这里插入图片描述
注,W矩阵在llama-7b中是lm_head.weight

  1. RM输出(回归任务)

写在前面:回归任务就不需要原始Token输出中的logits矩阵的计算(即图中H*W+B的部分)和softmax的计算。

  • 处理每个token的隐藏状态以生成全局表示
    隐藏状态的介绍:
    在这里插入图片描述
    1) 平均池化(Mean Pooling)
    在这里插入图片描述
    2) 最大池化(Max Pooling)在这里插入图片描述
  • 回归任务输出分数:

在这里插入图片描述

http://www.lryc.cn/news/486142.html

相关文章:

  • Python调用API翻译Excel中的英语句子并回填数据
  • SQL面试题——抖音SQL面试题 最大在线用户数
  • 前端知识点---Window对象(javascript)了解
  • llama factory lora 微调 qwen2.5 7B Instruct模型
  • 类和对象——拷贝构造函数,赋值运算符重载(C++)
  • Android 关于使用videocompressor库压缩没有声音和异常的问题
  • LeetCode-215.数组中的第K个最大元素
  • 『OpenCV-Python』视频的读取和保存
  • 什么是Spring Boot Actuator
  • 计算机网络:运输层 —— 运输层端口号
  • linux下编译安装memcached
  • 最短路径生成树的数量-黑暗城堡
  • 将已有的MySQL8.0单机架构变成主从复制架构
  • JSON.stringify的应用说明
  • pyflink datastream数据流ds经过一系列转换后转为table,t_env.from_data_stream(ds)
  • vxe-grid table 校验指定行单元格的字段,只校验某个列的字段
  • 【Java多线程】单例模式(饿汉模式和懒汉模式)
  • python 异步编程之协程
  • 现代密码学|古典密码学例题讲解|AES数学基础(GF(2^8)有限域上的运算问题)| AES加密算法
  • 算法沉淀一:双指针
  • Word_小问题解决_1
  • 基于opencv制作GUI界面
  • 微服务即时通讯系统的实现(客户端)----(2)
  • QT使用libssh2库实现sftp文件传输
  • 【Linux】进程的优先级
  • python实现十进制转换二进制,tkinter界面
  • 电子应用设计方案-12:智能窗帘系统方案设计
  • 力扣 回文链表-234
  • 采样率22050,那么CHUNK_SIZE 一次传输的音频数据大小设置多少合适?unity接收后出现卡顿的问题的思路
  • 网络初识--Java