当前位置: 首页 > news >正文

1 推荐系统概述

推荐系统概述

  • 1 推荐系统的意义
    • 平台方
    • 信息生产者(物品)
    • 信息消费者(用户)
    • 推荐和搜索的区别
  • 2 推荐系统架构
    • 系统架构
    • 算法架构
  • 3 推荐系统技术栈
    • 算法
      • 画像层
      • 召回/粗排
      • 精排
      • 重排序
    • 工程

1 推荐系统的意义

信息生产者(平台方) -> 平台(推荐系统) <- 消费者(用户)

平台方

  1. 平台方为信息生产者提供物品展示位置,然后吸引用户来平台寻找感兴趣的物品。“流量”的产生对商家物品的展示,用户的浏览、观看、下单等行为
  2. 推荐系统改变了传统电商的树状拓扑结构,变成了更容易让流量流通的网络拓扑结构,给每个商品增加了如何和展示机会。如,传统的需要按照每个大类、小类一个个点击去筛选物品;而推荐系统则直接提供个性化推荐,让你直达感兴趣的商品。
  3. 推荐系统:最大限度吸引用户、留存用户、增加用户粘性、提高用户转换率,达到平台商业目标增长的目的。如(视频平台)点击率、完播率、内置广告点击率;(购物平台)商品点击率、用户转换率:点击->购买。

信息生产者(物品)

  1. 物品的长尾性和二八效应严重,需要推荐系统挖掘出那 80% 的长尾物品,推荐给有需要的用户。
  2. 推荐系统对长尾物品的曝光,对信息生产者(如视频平台的作者、商家)也是一种激励。
  3. 推荐系统的匹配需求和供给能力也成为衡量一个平台的重要标准,决定了该平台的商业价值。

信息消费者(用户)

提高用户体验(基本+惊喜):满足目标明确用户的基本要求,给没有明确需求用户以惊喜推荐。最终都可能提高平台的转换率。

推荐和搜索的区别

推荐搜索
用户意图不明确明确
个性化程度
优化目标广泛,如用户停留时长、点击、多样性、拼分等通常指标:归一化折损累计收益(NDCG),Precision 和 Recall(精确率和召回率)
马太效应和长尾理论也存在马太效应,长尾性非常明显存在马太效应(靠后的很少被关注)

2 推荐系统架构

系统架构

推荐系统架构,从数据驱动角度,可以分为如下三层:

  • 离线层:不用实时数据,不提供实时响应(批量完成,对数据量和算法复杂度限制少);
  • 近线层:使用实时数据,不保证实时响应;
  • 在线层:使用实时数据,保证实时在线服务(和用户交互,有实时性要求,限制算法复杂性和处理数据量);

网飞的设计架构如下图:
在这里插入图片描述
整个数据部分是一整个链路,包括三块:

  • 客户端及服务器实时数据处理: 记录用户行为,如看了哪些内容、和哪些内容交互,停留时间,使用设备,发生时间等(通过埋点)。
  • 流处理平台准实时数据处理:记录一些准实时数据,如用户行为数据。
  • 大数据平台离线数据处理:一些数据操作。

这三个模块具体来说,

  • 离线层,
    1. 数据处理
    2. 特征工程、离线特征计算
    3. 离线模型的训练
  • 近线层
  • 在线层,面向用户,需要考虑响应时延;用户请求发送到在线层,在线层快速返回结果
    1. 模型在线服务,包括快速召回和排序
    2. 在线特征快速处理拼接::根据传入的用户ID和场景,快速读取特征和处理
    3. AB实验或者分流:根据不同用户采用不一样的模型,比如冷启动用户和正常服务模型;
    4. 运筹优化和业务干预:比如要对特殊商家流量扶持、对某些内容限流;

算法架构

  • 召回
  • 粗排
  • 精排
  • 重排

3 推荐系统技术栈

算法

架构: 物料库 -> 召回 -> 粗排 -> 精排 -> 重排

  • 召回:要求轻量低延迟,量大(多采用多路召回)
  • 粗排:精排前过滤,兼顾精准性和低延迟
  • 精排:对粗排结果的候选集进行打分和排序,要在最大时延允许下保证打分的精准性
  • 重排:基于运营策略、多样性、上下文重新进行微调
  • 混排:多个业务都想在 feed 流上曝光,则需要混排。如推荐流中插入广告(基于规则策略,例如广告定坑)、视频流汇总插入图文(强化学习)

画像层

物料库:如何绘制一个用户画像和商品画像。用户画像:关于年龄、爱好等。商品画像:形式多样,如一个内容画像的内容理解可以包含,通过内容本身理解、通过用户理解。

其中涉及到技术包括:

  • 文本理解
  • 关键词标签
  • 内容理解
  • 知识图谱

召回/粗排

多路召回

  • 考虑用户层面
  • 考虑系统层面
  • 系统多样性内容分发
  • 可解释性推荐一部分召回是有明确推荐理由的

其中涉及到的技术包括:

  • 经典召回模型
  • 序列召回模型
  • 用户序列拆分
  • 知识图谱
  • 图模型

精排

其中涉及到的技术包括:

  • 特征交叉模型
  • 序列模型
  • 多模态信息融合
  • 多任务学习
  • 强化学习
  • 跨域推荐

重排序

经典算法有:MRR、DPP、RNN 等

工程

  • 语言:python 、 C++、Java
  • 机器学习框架:Tensorflow、Pytorch
  • 数据分析工具:Pandas、Hadoop、Spark

参考文献:

  1. FunRec 第一章推荐系统概述
http://www.lryc.cn/news/536504.html

相关文章:

  • Redis初阶笔记
  • electron.vite 项目创建以及better-sqlite3数据库使用
  • 【新品解读】AI 应用场景全覆盖!解码超高端 VU+ FPGA 开发平台 AXVU13F
  • Proxmox VE 8.3 qm 方式导入ESXi Linux OVA UEFI模式虚拟机
  • OpenAI 放王炸,将发布整合多项技术的 GPT-5,并免费无限使用,该模型有哪些技术亮点
  • 【前端框架与库】「深入理解 Vue 插槽」:类型、用法与实际场景解析,增强组件复用性的利器
  • 对比 LVS 负载均衡群集的 NAT 模式和 DR 模式,比较其各自的优势 与基于 openEuler 构建 LVS-DR 群集
  • matplotlib绘制频率分布直方图
  • 相得益彰,Mendix AI connector 秒连DeepSeek ,实现研发制造域场景
  • shell脚本自动安装MySQL8
  • Git | 相关命令
  • RealClip正式发布:重新定义轻量化数字内容交互体验
  • Linux内核 - 非仿生机器人之感知主控系统(协议栈)
  • CZML 格式详解,javascript加载导出CZML文件示例
  • 【gRPC-gateway】auth-通过拦截器从上下文中提取元数据用于认证,与从http header转发待认证数据到上下文进行验证,go案例
  • Sass基础知识以及常用知识整理
  • Redis 内存回收机制
  • docker安装mongo,导入、导出数据
  • Excel常用操作
  • 嵌入式EasyRTC实时通话支持海思hi3516cv610,编译器arm-v01c02-linux-musleabi-gcc
  • 在freertos中,中断优先级和任务优先级之间的关系和使用方法
  • 设置ollama接口能外部访问
  • Go GUI 框架, energy many-browser 示例解读
  • Docker 部署 MongoDB | 国内阿里镜像
  • 软件工程-软件设计
  • Elasticsearch:15 年来致力于索引一切,找到重要内容
  • DeepSeek大模型一键部署解决方案:全平台多机分布式推理与国产硬件优化异构计算私有部署
  • Docker 部署 MySQL-5.7 单机版
  • 打破AI黑盒,拥抱开源力量:基于openGauss+DeepSeek的本地知识库,打造你的专属AI助手!
  • java配置api,vue网页调用api从oracle数据库读取数据