当前位置：首页 > news >正文

RecSys：排序中的融分公式与视频播放建模

news 2025/8/19 12:45:43

引言

前置博客精排多目标模型

排序03：融合预估分数

在推荐系统中，如何将多个预估指标（如点击率、点赞率等）融合为一个综合分数是关键问题。以下是几种常见的融合方法：

1.简单的加权和

$pclick+w1⋅plike+w2⋅pcollect+...p_{click} + w_1 \cdot p_{like} + w_2 \cdot p_{collect} + ...$

2. 点击率乘以加权和（具有实际意义）

点赞、收藏、转发等用户交互行为本质上都是在点击行为发生之后才进行的，所以点击率*点赞率等指标实际上某个用户行为发生的概率
$pclick∗(1+w1⋅plike+w2⋅pcollect+....)p_{click} * (1 + w_1 \cdot p_{like} + w_2 \cdot p_{collect} + ....)$

$p_{click} * 1$ 表示点击率本身
$p_{click} * p_{like}$ 表示曝光后用户点赞的联合概率

3.海外某短视频平台的连乘融合

采用连乘方式，其中 $w_n$ 和 $a_n$ 为超参数, $p_{time}$ 是预估的播放时长
$w_1 \cdot p_{time})^{a_1} \times (1 + w_2 \cdot p_{like})^{a_2}$

4. 国内某短视频App的排名融合

独特之处在于先排序再融合：

先根据目标精排得分对候选视频进行排序,比如对预估时长进行排序
如果某视频排名第 $r_{time}$ ,那么他的得分就是 $1rtimeα1+β1\frac{1}{r_{time}^{\alpha_1} + \beta_1 }$ ,排名越小，得分越高
对点击、点赞等指标也进行同样处理
最终融合公式
$w1rtimea1+β1+w2rclicka2+β2+w3rlikea3+β3+...\frac{w_1}{r_{time}^{a_1} + \beta_1} + \frac{w_2}{r_{click}^{a_2} + \beta_2} + \frac{w_3}{r_{like}^{a_3} + \beta_3} + ...$

5. 国内某电商平台的转化路径融合

电商场景考虑完整转换路径：

电商转化过程：曝光 ->点击->加入购物车->付款
模型预估： $p_{click}, p_{cart}, p_{pay}$
融分公式（超参 $a_1$ - $a_4$ 需调优）：
$pclicka1×pcarta2×ppaya3p_{click}^{a_1} \times p_{cart}^{a_2} \times p_{pay}^{a_3}$
当该公式指数为1时，直接反映商品预期营收

排序04：视频播放建模

图文笔记排序的主要依据：

点击、点赞、收藏、转发、评论 …
- 用户的点击和交互反映出用户对图文笔记的兴趣
视频排序依据 还有播放时长和完播率
- 用户把视频视频播放完，自然而然也能说明用户喜欢该视频
直接用回归拟合播放时长效果不好，建议用Youtube的时长建模【1】

播放时长预估

Sigmoid的公式是 $\frac{1}{1 + e^{-z}} = \frac{e^z}{1 + e^z}$
拟合目标; $\frac{t}{ 1 + t}$ ,我们可以看到两者的形式非常像，如果 $p = y$ ,那么 $e^z$ 就等于t播放时长的预估，那么在模型预估的时候我们直接输出exp(z)即可

训练阶段：
- 目标变量： $\frac{t}{1 + t}$ （t为实际播放时长）
- 模型输出z经sigmoid转换： $\frac{exp(z)}{1 + exp(z)}$
- 损失函数（交叉熵）：
  $−(t1+t⋅logp+11+tlog(1−p))-(\frac{t}{1+t} \cdot logp + \frac{1}{1+t}log(1-p))$
- 实际中可简化去掉1+t项
推理阶段：
- 直接输出 $e x p (z)$ 作为时长预估
- 将 $e x p (z)$ 纳入融合公式