当前位置：首页 > news >正文

推荐系统中的相似度

news 2025/7/11 11:13:20

文章目录

前言
余弦相似度：衡量向量方向的 “指南针”
皮尔逊相关系数：修正均值的 “调节器”
欧氏距离：衡量空间距离的 “尺子”
Jaccard 相似度：衡量集合重叠的 “度量仪”
总结

前言

在信息爆炸的时代，推荐系统早已成为我们日常生活中不可或缺的一部分。无论是刷短视频时平台精准推送的感兴趣内容，还是网购时看到的 “猜你喜欢” 商品，背后都离不开推荐系统的功劳。而在推荐系统的核心技术中，相似度计算扮演着至关重要的角色，它就像一座隐形的桥梁，连接着用户与用户、用户与物品、物品与物品，帮助系统精准捕捉需求，实现个性化推荐。

来说，相似度是衡量两个对象（可以是用户、物品或特征）之间相似程度的指标。在推荐系统中，我们通过计算相似度来判断 “用户 A 是否和用户 B 有相似的喜好”、“物品 C 是否和物品 D 具有相似的属性”。基于这些判断，系统才能做出合理的推荐：比如给用户 A 推荐用户 B 喜欢的物品，或者给浏览过物品 C 的用户推荐物品 D。

不同的场景和数据类型需要搭配不同的相似度计算方法，选择合适的方法能让推荐效果事半功倍。接下来，我们就一起看看推荐系统中最常用的几种相似度计算方式。

余弦相似度：衡量向量方向的 “指南针”

余弦相似度是推荐系统中应用最广泛的相似度计算方法之一，它主要用于衡量两个向量在方向上的相似性。在推荐场景中，我们可以将用户或物品表示为向量，例如用户对物品的评分向量、物品的特征属性向量等。

对于两个向量 $a$ 和 $b$ ，它们的余弦相似度 $cos⁡θ\cos\theta$ 等于两个向量的点积除以两个向量模长的乘积，即：

$cos⁡θ=a⋅b∥a∥∥b∥=∑i=1naibi∑i=1nai2∑i=1nbi2\cos\theta=\frac{a\cdot b}{\|a\|\|b\|}=\frac{\sum_{i = 1}^{n}a_ib_i}{\sqrt{\sum_{i = 1}^{n}a_i^2}\sqrt{\sum_{i = 1}^{n}b_i^2}}$

其中， $a_i$ 和 $b_i$ 分别是向量 $a$ 和 $b$ 的第 $i$ 个分量， $n$ 是向量的维度。

余弦相似度的取值范围在 $[- 1, 1]$ 之间，值越接近 1，说明两个向量的方向越相似；值越接近 - 1，则说明方向越相反。

适用场景：当我们更关注两个对象的 “趋势” 而非 “绝对值” 时，余弦相似度是很好的选择。例如，在用户评分数据中，有些用户习惯给高分（比如都在 4-5 分之间），有些用户习惯给低分（比如都在 1-2 分之间），但他们对物品的相对喜好可能是相似的，这时余弦相似度就能有效捕捉这种相似性。

皮尔逊相关系数：修正均值的 “调节器”

注：对这个概念比较陌生，一下难以消化的朋友可以看一下文末参考【1】

皮尔逊相关系数广泛用于度量两个变量之间的相关程度，其值介于-1与1之间。下图展示了几组 $(x, y)$ 的点集，以及各个点集中 $x$ 和 $y$ 之间的相关系数。我们可以发现相关系数反映的是变量之间的线性关系和相关性的方向（第一排），而不是相关性的斜率（中间），也不是各种非线性关系（第三排）。请注意：中间的图中斜率为0，但相关系数是没有意义的，因为此时变量 $y$ 是0。

皮尔逊相关系数举例

两个变量之间的皮尔逊相关系数定义为两个变量之间的协方差和标准差的商：
$ρx,y=cov⁡(x,y)σxσy=E[(x−μx)(y−μy)]σxσy\rho_{x,y} = \frac{\operatorname{cov}(x,y)}{\sigma_x \sigma_y} = \frac{E\left[(x - \mu_x)(y - \mu_y)\right]}{\sigma_x \sigma_y}$ 上式定义了总体相关系数，常用希腊小写字母 $ρ\rho$ 作为代表符号。
估算样本的协方差和标准差，可得到皮尔逊相关系数，常用英文小写字母 $r$ 代表：
$r=∑i=1n(xi−xˉ)(yi−yˉ)∑i=1n(xi−xˉ)2∑i=1n(yi−yˉ)2=1n−1∑i=1n(xi−xˉsx)(yi−yˉsy)r=\frac{\sum_{i = 1}^{n}(x_i-\bar{x})(y_i-\bar{y})}{\sqrt{\sum_{i = 1}^{n}(x_i-\bar{x})^2}\sqrt{\sum_{i = 1}^{n}(y_i-\bar{y})^2}}= \frac{1}{n - 1} \sum_{i=1}^{n} \left( \frac{x_i - \bar{x}}{s_x} \right) \left( \frac{y_i - \bar{y}}{s_y} \right)$

注意第一个式子中分子和分母中的 $n - 1$ 被约分掉了， $sx=∑i=1n(xi−xˉ)2n−1s_x=\sqrt{\frac{\sum_{i = 1}^{n}(x_i-\bar{x})^2}{n-1}}$

其中， $xˉ\bar{x}$ 和 $yˉ\bar{y}$ 分别是向量 $x$ 和 $y$ 的均值， $s_x$ 和 $x_y$ 分别是向量 $x$ 和 $y$ 的标准差， $n$ 是向量的维度。
皮尔逊相关系数的取值范围同样在 $[- 1, 1]$ 之间，1 表示完全正相关，-1 表示完全负相关，0 表示无线性相关。