当前位置: 首页 > news >正文

借助 ListWise 提升推荐系统精排效能:技术、案例与优化策略

目录

    • 一、引言
    • 二、ListWise 方法概述
    • 三、ListWise 用于精排的优势
    • 四、ListWise 样本具体的构建过程
      • 4.1 确定样本的上下文
      • 4.2 收集候选物品及相关特征
      • 4.3 确定物品的真实排序标签
      • 4.4 构建样本列表
      • 4.5 划分训练集、验证集和测试集
    • 五、ListWise 方法案例分析
    • 六、ListWise 方法在精排中的挑战与解决方案
    • 七、结论


一、引言

在推荐系统的精排阶段,精准地对候选物品进行排序是提升用户体验和业务价值的关键。传统的排序方法存在一定局限,而 ListWise 方法作为一种先进的排序策略,将物品列表作为整体进行优化,备受关注。本文将深入探讨 ListWise 在精排中的应用,借助理论、案例和代码实现。

二、ListWise 方法概述

ListWise 方法直接对物品列表进行排序,区别于 PointWise(单个物品打分)和 PairWise(物品对比较)方法。其核心是通过特定损失函数,让模型学习到符合用户对物品列表整体偏好的排序。常见的 ListWise 方法有 LambdaMART、ListNet、ListMLE 等,各自适用于不同场景,目标均为提升排序的准确性与效率。

三、ListWise 用于精排的优势

  1. 考虑整体顺序:ListWise 能充分考量物品间的相对顺序,使排序结果更贴合用户真实偏好,因为用户不仅关注单个物品,还在意其排列顺序。
  2. 适应复杂场景:面对实际推荐系统中复杂的用户需求和行为,ListWise 可通过学习用户对不同物品列表的反馈,更好地应对,增强排序的准确性和鲁棒性。
  3. 提高推荐效果:合理的物品排序有助于提升推荐系统的点击率、转化率等指标,进而提升用户体验和业务收益。

四、ListWise 样本具体的构建过程

4.1 确定样本的上下文

样本的上下文确定至关重要,它可以是用户的一次搜索行为、一段时间内的浏览历史等。例如在电商推荐系统中,用户搜索“智能手机”这一行为就构成了样本的上下文。

4.2 收集候选物品及相关特征

明确上下文后,收集该情境下的所有候选物品,并提取其特征。这些特征涵盖物品基本属性(如品牌、型号、内存等)、销售数据(销量、销售额)、用户评价(评分、评论数)以及与用户相关的特征(用户对品牌的历史购买次数、浏览时长等)。

以“智能手机”搜索场景为例,候选物品的特征如下:

特征名称示例值
品牌苹果
型号iPhone 14
内存128GB
销量5000 台
品牌知名度得分0.9(0-1 之间)
用户评价分数4.7(满分 5 分)
用户对该品牌历史购买次数3 次

4.3 确定物品的真实排序标签

为引导模型学习正确排序,需确定候选物品的真实排序标签。获取方式多样,如:

  1. 用户点击行为:用户点击的物品可认为排序更靠前,依据点击先后确定相对顺序。
  2. 用户购买行为:购买行为是更强的偏好信号,购买的物品排序更优。
  3. 专家标注:必要时请领域专家人工标注物品排序,获取准确标签。

比如用户搜索“智能手机”后,依次点击了 A、B、C 三款手机,那么真实排序为 A > B > C。

4.4 构建样本列表

将候选物品特征与真实排序标签组合成样本。每个样本以列表形式呈现,列表元素是包含物品特征和真实排序标签的元组。

示例代码如下:

# 假设候选物品的特征存储在一个列表中,每个元素是一个特征向量
item_features = [[0, 14, 128, 5000, 0.9, 4.7, 3],  # 物品 1(iPhone 14)的特征,这里用简单编码表示品牌等信息[1, 22, 256, 4000, 0.8, 4.6, 2],  # 物品 2 的特征[2, 10, 64, 3000, 0.7, 4.5, 1]  # 物品 3 的特征
]
# 假设物品的真实排序标签为 2(物品 1)> 1(物品 2)> 0(物品 3)
true_ranks = [2, 1, 0]# 构建样本列表
sample = []
for i in range(len(item_features)):sample.append((item_features[i], true_ranks[i]))print(sample)

4.5 划分训练集、验证集和测试集

将构建好的样本列表按一定比例划分为训练集、验证集和测试集。训练集用于模型训练,验证集调整超参数,测试集评估模型性能。

from sklearn.model_selection import train_test_split# 假设 sample 是上述构建的样本列表
train_sample, test_sample = train_test_split(sample, test_size=0.2, random_state=42)
train_sample, val_sample = train_test_split(train_sample, test_size=0.2, random_state=42)print(f"训练集样本数量: {len(train_sample)}")
print(f"验证集样本数量: {len(val_sample)}")
print(f"测试集样本数量: {len(test_sample)}")

五、ListWise 方法案例分析

以 ListNet 为例,使用普通神经网络实现。假设我们是一个音乐推荐系统,要对用户搜索“流行音乐”后的歌曲列表进行精排。

  1. 数据准备

    • 特征:歌曲的播放量、收藏量、歌手知名度、发布年份等。
    • 标签:用户对歌曲的收藏行为(收藏为 1,未收藏为 0),并根据收藏先后确定真实排序。
  2. 构建神经网络模型

import torch
import torch.nn as nn
import torch.optim as optimclass ListNet(nn.Module):def __init__(self, input_size):super(ListNet, self).__init__()self.fc1 = nn.Linear(input_size, 128)self.relu = nn.ReLU()self.fc2 = nn.Linear(128, 64)self.fc3 = nn.Linear(64, 1)def forward(self, x):out = self.fc1(x)out = self.relu(out)out = self.fc2(out)out = self.relu(out)out = self.fc3(out)return out# 假设特征维度为 10
input_size = 10
model = ListNet(input_size)
  1. 训练模型
# 假设 X_train 是训练集特征,y_train 是训练集标签(真实排序)
X_train = torch.randn(100, input_size)
y_train = torch.randint(0, 2, (100,))criterion = nn.CrossEntropyLoss()
optimizer = optim.Adam(model.parameters(), lr=0.001)for epoch in range(100):optimizer.zero_grad()outputs = model(X_train)loss = criterion(outputs.squeeze(), y_train.float())loss.backward()optimizer.step()if (epoch + 1) % 10 == 0:print(f'Epoch [{epoch + 1}/100], Loss: {loss.item():.4f}')
  1. 模型评估
    使用测试集计算归一化折损累计增益(NDCG)等指标。
# 假设 X_test 是测试集特征,y_test 是测试集标签(真实排序)
X_test = torch.randn(20, input_size)
y_test = torch.randint(0, 2, (20,))def dcg_score(y_true, y_score, k=5):order = torch.argsort(y_score, descending=True)y_true = torch.take(y_true, order[:k])gains = 2 ** y_true - 1discounts = torch.log2(torch.arange(len(y_true), dtype=torch.float32) + 2)return torch.sum(gains / discounts)def ndcg_score(y_true, y_score, k=5):best_dcg = dcg_score(y_true, y_true, k)if best_dcg == 0:return 0return dcg_score(y_true, y_score, k) / best_dcgwith torch.no_grad():outputs = model(X_test)ndcg = ndcg_score(y_test, outputs.squeeze())print(f'NDCG: {ndcg.item()}')
  1. 模型应用
    将训练好的模型用于实际精排,对用户搜索“流行音乐”后的歌曲列表排序并展示。

六、ListWise 方法在精排中的挑战与解决方案

  1. 数据稀疏性:实际推荐系统中用户反馈稀疏,导致训练数据不足。可采用数据增强技术,如模拟用户行为、扩展物品特征,增加数据量和质量。
  2. 计算复杂度:ListWise 需对整个物品列表计算,计算复杂度高。可通过优化算法、分布式计算降低复杂度,提高效率。
  3. 模型可解释性:相比 PointWise 和 PairWise,ListWise 模型可解释性差。可通过特征重要性分析、模型可视化提高可解释性,帮助理解决策过程。

七、结论

ListWise 方法在推荐系统精排阶段优势显著。通过本文对其原理、优势、样本构建、案例及挑战的介绍。未来,ListWise 可结合深度学习、优化损失函数等,进一步提高排序准确性和效率。

http://www.lryc.cn/news/534905.html

相关文章:

  • C++中什么时候用. 什么时候用->
  • 从云原生到 AI 原生,谈谈我经历的网关发展历程和趋势
  • 【Python深入浅出】Python3正则表达式:开启高效字符串处理大门
  • Vue.js Vue CLI 安装与使用
  • 科技的尽头:在有限与永恒的夹缝中寻找文明的真谛
  • 【牛客】动态规划专题一:斐波那契数列
  • java8、9新特性
  • 作业:zuoye
  • redis底层数据结构——链表
  • 问题解决 4S 法
  • SQL-leetcode—1407. 排名靠前的旅行者
  • 机器学习(李宏毅)——Transformer
  • React进阶之React状态管理CRA
  • 攻克AWS认证机器学习工程师(AWS Certified Machine Learning Engineer) - 助理级别认证:我的成功路线图
  • 前端开发环境
  • Web自动化测试—测试用例流程设计
  • HTML全局属性与Meta元信息详解:优化网页的灵魂
  • day001 折半查找/二分查找
  • Linux 资源监控:优化与跟踪系统性能
  • java安全中的类加载
  • Node.js调用DeepSeek Api 实现本地智能聊天的简单应用
  • 分布式服务框架 如何设计一个更合理的协议
  • Unity使用iTextSharp导出PDF-02基础结构及设置中文字体
  • Kafka因文件句柄数过多导致挂掉的排查与解决
  • 【LeetCode Hot100 多维动态规划】最小路径和、最长回文子串、最长公共子序列、编辑距离
  • PRC框架-Dubbo
  • 智能检测摄像头模块在客流统计中的应用
  • [LLM面试题] 指示微调(Prompt-tuning)与 Prefix-tuning区别
  • 【CubeMX+STM32】SD卡 U盘文件系统 USB+FATFS
  • 在JVM的栈(虚拟机栈)中,除了栈帧(Stack Frame)还有什么?