当前位置：首页 > article >正文

DARLR用于具有动态奖励的推荐系统的双智能体离线强化学习（论文大白话）

article 2025/8/24 23:54:37

1. 概述

离线强化学习是现在强化学习研究的一个重点。相比与传统的强化学习它不需要大量的实时交互数据，仅仅依赖历史交互日志就可以进行学习。本文就是将离线强化学习用于推荐系统的一篇文章。

这篇文章主要解决的核心问题有以下几个：

1）静态的奖励函数，现有基于模型的离线RL方法使用冻结的世界模型（world models，包括奖励函数和状态转移函数），这些模型基于稀疏的离线数据训练，奖励估计常存在偏差。在这种方法中，奖励函数一般是作为固定的查找表（look-up-tables）使用这种会导致在策略学习中传播不准确性。例如，高估的物品可能被优先推荐，但实际效果不佳。

2）静态的不确定性惩罚，现有的方法引入的不确定性惩罚（uncertainty penalties）是固定的，无法动态适应策略训练过程中的风险变化。

2.框架

针对上面的问题，这篇文章提出了DARALR框架。

与传统静态方法不同，DARLR通过迭代更新奖励函数和不确定性惩罚，适应稀疏数据带来的挑战。

选择器智能体（Selector Agent）：负责识别参考用户（reference users），通过平衡相似性（similarity）和多样性（diversity）选择一组用户。相似性确保参考用户与目标用户的偏好接近，多样性则覆盖更广泛的物品交互数据，弥补目标用户数据的稀疏性。
推荐器智能体（Recommender Agent）：利用参考用户的信息，聚合其交互数据，迭代优化奖励估计（reward estimation），实现动态奖励塑造（dynamic reward shaping）。同时，根据所选用户的统计特征（如交互方差），动态调整不确定性惩罚（uncertainty penalty）

3. 技术细节

论文基于马尔可夫决策过程（MDP）描述任务，使用五元组来描述任务。

1）选择参考用户，选择器根据目标用户U的特征选择一组相似但是多样化的参考用户。例如用户U喜欢动作电影，参考用户可能包括喜欢动作电影但是也涉猎其他电影类型的人。

2）奖励估计。推荐器聚合参考用户的交互数据，估计U对某个物品的奖励。若是参考用户对该物品的反应是一致性的高，则奖励估计更加可信，若是方差则增大，则不确定性增加。

3）动态调整。根据参考用户的统计特征（方差/值信度），调整不确定性的惩罚。

r = \tilde{r} - \lambda_U P_U \)，其中 \( \tilde{r} \) 是估计奖励，\( P_U \) 是不确定性惩罚，\( \lambda_U \) 是动态系数。

4.代码实现

官方代码实现

https://github.com/ArronDZhang/DARLR

论文地址：

[2505.07257] DARLR: Dual-Agent Offline Reinforcement Learning for Recommender Systems with Dynamic Reward

http://www.lryc.cn/news/2385875.html

相关文章：

第35节：PyTorch与TensorFlow框架对比分析

企业级智能体 —— 企业 AI 发展的下一个风口？

【软考向】Chapter 2 程序设计语言基础知识

JavaWeb：SpringBootAOP切面实现统计方法耗时和源码解析

RabbitMQ的其中工作模式介绍以及Java的实现

vue2项目搭建

Spring AI 源码解析：Tool Calling链路调用流程及示例

2025年- H48-Lc156 --236. 二叉树的最近公共祖先(递归、深搜）--Java版

【人工智能】低代码-模版引擎

Hertz+Kitex快速上手开发

线程池配置经验总结

机器学习课程设计报告 —— 基于二分类的岩石与金属识别模型

分词算法BPE详解和CLIP的应用

STM32F103_Bootloader程序开发02 - Bootloader程序架构与STM32F103ZET6的Flash内存规划

通过Auto平台与VScode搭建远程开发环境（以Stable Diffusion Web UI为例）

Windows_Rider C#语言开发环境构建

Unity 打包程序全屏置顶无边框

GAMES104 Piccolo引擎搭建配置

第 29 场蓝桥·算法入门赛

用service 和 SCAN实现sqlplus/jdbc连接Oracle 11g RAC时负载均衡

Jenkins 中获取构建触发用户的完整指南

防火墙流量管理

uniapp+ts 多环境编译

Linux系统移植①：uboot概念

linux 学习之位图（bitmap）数据结构

理论篇一：了解webpack是什么，能解决什么问题，如何使用

AWS EC2实例安全远程访问最佳实践

集群、容器云与裸金属服务器的全面对比分析

【强化学习】#7 基于表格型方法的规划和学习