当前位置：首页 > news >正文

Rewar Model的输出（不包含训练）

news 2025/9/12 11:24:53

这里写自定义目录标题

介绍
模型推理的输出过程方案
- 原始Token输出
- RM输出（回归任务）

介绍

奖励函数模型 (Reward Model) 是人工智能 (AI) 中的一种方法，模型因其对给定提示的响应而获得奖励或分数。现在的文章清一色的讲解RM的训练，但是没有讲解RM是如何输出一个分数的。本文只讲RM的输出，以补充资料的缺乏。RM通常采用Llama-7B模型，本文也沿用这一模型，同时模型的推理计算过程作为已知的知识，只讲解推理最后的输出部分。本文章先介绍传统Llama模型原始Token输出过程，再讲解RM的输出。以作为对比更好的学习。

模型推理的输出过程方案

原始Token输出

预训练语言模型（如LLaMA、GPT等）的默认任务是语言建模，它们的输出是针对每个token的概率分布（即词汇表中的每个词的概率）
在这里插入图片描述
注，W矩阵在llama-7b中是lm_head.weight

RM输出（回归任务）

写在前面：回归任务就不需要原始Token输出中的logits矩阵的计算（即图中H*W+B的部分）和softmax的计算。

处理每个token的隐藏状态以生成全局表示
隐藏状态的介绍：

1）平均池化（Mean Pooling）

2）最大池化（Max Pooling）
回归任务输出分数：

在这里插入图片描述

http://www.lryc.cn/news/486142.html

相关文章：

Python调用API翻译Excel中的英语句子并回填数据

SQL面试题——抖音SQL面试题最大在线用户数

前端知识点---Window对象(javascript)了解

llama factory lora 微调 qwen2.5 7B Instruct模型

类和对象——拷贝构造函数，赋值运算符重载（C++）

Android 关于使用videocompressor库压缩没有声音和异常的问题

LeetCode-215.数组中的第K个最大元素

『OpenCV-Python』视频的读取和保存

什么是Spring Boot Actuator

计算机网络：运输层 —— 运输层端口号

linux下编译安装memcached

最短路径生成树的数量-黑暗城堡

将已有的MySQL8.0单机架构变成主从复制架构

JSON.stringify的应用说明

pyflink datastream数据流ds经过一系列转换后转为table,t_env.from_data_stream(ds)

vxe-grid table 校验指定行单元格的字段，只校验某个列的字段

【Java多线程】单例模式（饿汉模式和懒汉模式）

python 异步编程之协程

现代密码学｜古典密码学例题讲解|AES数学基础（GF（2^8）有限域上的运算问题）| AES加密算法

算法沉淀一：双指针

Word_小问题解决_1

基于opencv制作GUI界面

微服务即时通讯系统的实现（客户端）----（2）

QT使用libssh2库实现sftp文件传输

【Linux】进程的优先级

python实现十进制转换二进制，tkinter界面

电子应用设计方案-12：智能窗帘系统方案设计

力扣回文链表-234

采样率22050，那么CHUNK_SIZE 一次传输的音频数据大小设置多少合适？unity接收后出现卡顿的问题的思路

网络初识--Java