当前位置: 首页 > news >正文

生成式推荐网络架构汇总

生成式推荐网络架构在工业界呈现多样化发展,以下是主要公司的典型方案及技术特点:

一、腾讯:AMGR 与 GeneRec 双范式

1. AMGR(全模态序列生成式推荐)
  • 技术亮点
    • 多模态编码器:整合 BERT 文本编码与 CLIP 视觉特征,通过时间衰减因子建模用户行为序列的时序依赖7。
    • Transformer 解码器:自回归生成推荐序列,引入图文对比学习和点击预测辅助任务,提升推荐准确性(Hit Rate@K+15%)7。
    • 工程优化:模型量化(INT8)和动态批处理技术,推理速度提升 3 倍7。
2. GeneRec(生成式推荐范式)
  • 创新架构
    • 三模块设计
      • Instructor:解析用户自然语言指令(如 “推荐适合徒步的轻便鞋子”),生成内容生成引导信号2。
      • AI Editor:基于扩散模型编辑现有商品(如修改图片风格),支持 “用户偏好 - 内容生成” 闭环2。
      • AI Creator:直接生成全新商品(如虚拟试穿视频),结合可信度检查模块过滤低质量内容2。
    • 应用场景:短视频推荐中,通过多模态指令生成个性化内容,观看时长提升显著2。

二、快手:OneRec 与非自回归生成

1. OneRec:统一生成式推荐框架
  • 核心技术
    • MoE(混合专家)架构:稀疏激活机制扩展模型容量,支持处理海量用户兴趣(如 “运动”“美妆” 等多领域)1。
    • DPO(直接偏好优化):通过奖励模型(RM)生成偏好数据,避免 RLHF 的训练不稳定性,在线 A/B 测试中观看时间提升 1.6%1。
    • 会话式生成:直接生成完整推荐列表,捕捉序列上下文依赖(如连续推荐同类视频时的用户疲劳效应)1。
2. 非自回归重排模型
  • 工程突破
    • 匹配模型设计:共享位置 Embedding 解决稀疏样本问题,生成序列耗时比自回归模型降低 90%5。
    • 序列不似然损失:最大化高收益序列概率,同时抑制低质量组合,离线 NDCG 提升 8.2%5。

三、Google:TIGER 生成式检索

1. 语义 ID 与层次化 VAE
  • 技术方案
    • 语义 ID 生成:基于 RQ-VAE 将商品文本(如标题、描述)转化为符号序列(如 “户外 - 防水 - 冲锋衣”),替代传统随机 ID7。
    • Transformer 自回归解码:直接预测下一个商品的语义 ID,冷启动商品检索准确率提升 12%7。
    • 对比优势:无需 ANN 索引,端到端生成候选,减少传统双塔模型的量化误差7。
2. 工业级优化
  • 多阶段训练
    1. 预训练:在公开文本数据上学习语义 ID 生成。
    2. 微调:在用户交互数据上优化推荐序列生成。
    3. 蒸馏:将大模型知识迁移至轻量级推理模型,响应时间 < 50ms7。

四、Meta:HSTU 与特征序列化

1. HSTU(层次化序列转换单元)
  • 架构创新
    • 特征序列化:将用户行为、商品 ID 等离散特征转换为长序列(最长 8192 token),丢弃冗余数值特征,模型参数量减少 40%8。
    • 高效注意力机制:基于 M-FALCON 算法实现动态批处理,推理速度比 FlashAttention2 快 5.3 倍8。
    • 多任务预测:在排序阶段同时输出 CTR、CVR 等指标,在线转化率提升 12.4%8。
2. Scaling Law 验证
  • 模型扩展
    • 序列长度:从 1024 扩展至 8192,捕捉更长期用户兴趣(如跨周的购物意图)。
    • 参数规模:嵌入维度从 512 增至 1024,HSTU 层数从 12 层增至 24 层,推荐准确性随模型规模线性提升8。

五、字节跳动:Infinity 与多模态生成

1. Infinity 高分辨率图像生成
  • 技术亮点
    • 位级自回归建模:将图像像素分解为二进制位,通过无限词汇量标记器提升细节重建能力(如服装纹理)6。
    • 自纠正机制:训练中随机翻转像素位模拟预测错误,模型具备自我修复能力,生成 1024x1024 图像仅需 0.8 秒6。
    • 推荐场景适配:与推荐系统结合生成商品详情图,点击率提升 9.3%6。
2. PaddleRec 生态
  • 工具链支持
    • 多模态训练:集成 CLIP、Stable Diffusion 等模型,支持图文跨模态对齐。
    • 在线服务:通过 TensorRT 加速生成模型,响应延迟 < 200ms,支撑抖音日活亿级用户的实时推荐6。

六、Spotify:Text2Tracks 与生成式检索

1. 基于 Prompt 的音乐推荐
  • 技术方案
    • ID 策略优化
      • artist-iid-track-seq:头部歌手 ID 加入词表(如 “周杰伦” 对应 < 1001>),生成序列如 “<1001>_夜曲”,检索准确率提升 18%3。
      • 整数 ID 映射:非头部歌曲用随机整数表示,平衡生成效率与召回率3。
    • 可微 Transformer:微调预训练 seq2seq 模型,直接生成歌曲 ID 序列,支持 “经典摇滚” 等自然语言指令3。
2. 工程实践
  • 实时生成
    • 缓存机制:热门歌手的语义嵌入预存 GPU 显存,生成延迟 < 100ms。
    • A/B 测试:用户主动输入指令的推荐场景中,播放时长提升 6.7%3。

七、技术趋势与对比

技术维度腾讯 AMGR快手 OneRecGoogle TIGERMeta HSTU
生成范式自回归序列生成会话式生成 + DPO 优化语义 ID 生成式检索特征序列化 + 多任务预测
核心技术多模态融合、时间衰减MoE、非自回归生成层次化 VAE、语义 IDHSTU、M-FALCON 算法
数据输入文本 + 视觉 + 行为序列短视频交互数据商品文本 + 用户行为离散特征序列化
在线指标提升CTR+8%、CVR+5%观看时间 + 1.6%冷启动召回 + 12%转化率 + 12.4%
推理速度INT8 量化后 3 倍加速非自回归比自回归快 90%端到端生成 < 50ms动态批处理提速 5.3 倍
未来方向
  1. 多模态深度融合:如腾讯 GeneRec 的图文生成与用户指令结合,快手 OneRec 的视频内容生成。
  2. 高效生成架构:非自回归模型(快手)、动态批处理(Meta)成为主流。
  3. 生成式检索:Google TIGER 和 Spotify Text2Tracks 验证了语义 ID 在冷启动场景的有效性。
  4. 可信生成:腾讯 GeneRec 的可信度检查模块、字节 Infinity 的自纠正机制,应对生成内容的安全风险。

通过上述架构对比可见,生成式推荐正从 “候选排序” 转向 “内容生成 + 意图理解” 的全链路优化,各家技术路径虽异,但均以提升用户体验和商业指标为核心目标。

http://www.lryc.cn/news/605228.html

相关文章:

  • Java注解与反射:从自定义注解到框架设计原理
  • CHI - Transaction介绍(4) - 原子操作
  • 工厂方法模式:从基础到C++实现
  • Spring Boot 数据源配置中为什么可以不用写 driver-class-name
  • 1. ESP开发之实体按键(KEYPADBUTTON)控制LVGL控件
  • 一文掌握最新版本Monocle3单细胞轨迹(拟时序)分析
  • 【Unity】在构建好的项目里创建自定义文件夹
  • Thales靶机
  • Redis知识点(1)
  • 【力扣热题100】哈希——字母异位词分组
  • 【c++】leetcode763 划分字母区间
  • LeetCode热题100--148. 排序链表--中等
  • 限流算法详解:固定窗口、滑动窗口、令牌桶与漏桶算法全面对比
  • 力扣-543.二叉树的直径
  • 【LeetCode】链表反转实现与测试
  • (补题)小塔的饭
  • sqLite 数据库 (3):以编程方式使用 sqLite,4 个函数,以及 sqLite 移植,合并编译
  • linux 执行sh脚本,提示$‘\r‘: command not found
  • C语言:函数指针、二级指针、常量指针常量、野指针
  • 【Kubernetes 指南】基础入门——Kubernetes 201(二)
  • Vite 模块动态导入之Glob导入
  • Cursor MCP搭建入门
  • 力扣热题100---------35.搜索插入为位置
  • jQuery UI Tabs切换功能实例
  • Python在自动化与运维领域的核心角色:工具化、平台化与智能化
  • Jaeger理论、实战、问题记录
  • TikTok 视频审核模型:用逻辑回归找出特殊类型的视频
  • Elasticsearch 文档操作管理:从增删改查到批量操作与数据类型
  • 硬性巩膜镜市场报告:深度解析行业现状与未来趋势
  • Java项目:基于SSM框架实现的济南旅游网站管理系统【ssm+B/S架构+源码+数据库+毕业论文+远程部署】