当前位置: 首页 > article >正文

DARLR用于具有动态奖励的推荐系统的双智能体离线强化学习(论文大白话)

1. 概述

离线强化学习是现在强化学习研究的一个重点。相比与传统的强化学习它不需要大量的实时交互数据,仅仅依赖历史交互日志就可以进行学习。本文就是将离线强化学习用于推荐系统的一篇文章。

这篇文章主要解决的核心问题有以下几个:

1)静态的奖励函数,现有基于模型的离线RL方法使用冻结的世界模型(world models,包括奖励函数和状态转移函数),这些模型基于稀疏的离线数据训练,奖励估计常存在偏差。在这种方法中,奖励函数一般是作为固定的查找表(look-up-tables)使用这种会导致在策略学习中传播不准确性。例如,高估的物品可能被优先推荐,但实际效果不佳。

2)静态的不确定性惩罚,现有的方法引入的不确定性惩罚(uncertainty penalties)是固定的,无法动态适应策略训练过程中的风险变化。

2.框架

针对上面的问题,这篇文章提出了DARALR框架。

与传统静态方法不同,DARLR通过迭代更新奖励函数和不确定性惩罚,适应稀疏数据带来的挑战。

  • 选择器智能体(Selector Agent):负责识别参考用户(reference users),通过平衡相似性(similarity)和多样性(diversity)选择一组用户。相似性确保参考用户与目标用户的偏好接近,多样性则覆盖更广泛的物品交互数据,弥补目标用户数据的稀疏性。

  • 推荐器智能体(Recommender Agent):利用参考用户的信息,聚合其交互数据,迭代优化奖励估计(reward estimation),实现动态奖励塑造(dynamic reward shaping)。同时,根据所选用户的统计特征(如交互方差),动态调整不确定性惩罚(uncertainty penalty)

3. 技术细节

论文基于马尔可夫决策过程(MDP)描述任务,使用五元组 来描述任务。

1)选择参考用户,选择器根据目标用户U的特征选择一组相似但是多样化的参考用户。例如用户U喜欢动作电影,参考用户可能包括喜欢动作电影但是也涉猎其他电影类型的人。

2)奖励估计。推荐器聚合参考用户的交互数据,估计U对某个物品的奖励。若是参考用户对该物品的反应是一致性的高,则奖励估计更加可信,若是方差则增大,则不确定性增加。

3)动态调整。根据参考用户的统计特征(方差/值信度),调整不确定性的惩罚。

 r = \tilde{r} - \lambda_U P_U \),其中 \( \tilde{r} \) 是估计奖励,\( P_U \) 是不确定性惩罚,\( \lambda_U \) 是动态系数。

4.代码实现

官方代码实现

https://github.com/ArronDZhang/DARLR

论文地址:

[2505.07257] DARLR: Dual-Agent Offline Reinforcement Learning for Recommender Systems with Dynamic Reward

http://www.lryc.cn/news/2385875.html

相关文章:

  • 第35节:PyTorch与TensorFlow框架对比分析
  • 企业级智能体 —— 企业 AI 发展的下一个风口?
  • 【软考向】Chapter 2 程序设计语言基础知识
  • JavaWeb:SpringBootAOP切面实现统计方法耗时和源码解析
  • RabbitMQ的其中工作模式介绍以及Java的实现
  • vue2项目搭建
  • Spring AI 源码解析:Tool Calling链路调用流程及示例
  • 2025年- H48-Lc156 --236. 二叉树的最近公共祖先(递归、深搜)--Java版
  • 【人工智能】低代码-模版引擎
  • Hertz+Kitex快速上手开发
  • 线程池配置经验总结
  • 机器学习课程设计报告 —— 基于二分类的岩石与金属识别模型
  • 分词算法BPE详解和CLIP的应用
  • STM32F103_Bootloader程序开发02 - Bootloader程序架构与STM32F103ZET6的Flash内存规划
  • 通过Auto平台与VScode搭建远程开发环境(以Stable Diffusion Web UI为例)
  • Windows_Rider C#语言开发环境构建
  • Unity 打包程序全屏置顶无边框
  • GAMES104 Piccolo引擎搭建配置
  • 第 29 场 蓝桥·算法入门赛
  • 用service 和 SCAN实现sqlplus/jdbc连接Oracle 11g RAC时负载均衡
  • Jenkins 中获取构建触发用户的完整指南
  • 防火墙流量管理
  • uniapp+ts 多环境编译
  • Linux系统移植①:uboot概念
  • linux 学习之位图(bitmap)数据结构
  • DAY 35
  • 理论篇一:了解webpack是什么,能解决什么问题,如何使用
  • AWS EC2实例安全远程访问最佳实践
  • 集群、容器云与裸金属服务器的全面对比分析
  • 【强化学习】#7 基于表格型方法的规划和学习