生成式推荐网络架构汇总
生成式推荐网络架构在工业界呈现多样化发展,以下是主要公司的典型方案及技术特点:
一、腾讯:AMGR 与 GeneRec 双范式
1. AMGR(全模态序列生成式推荐)
- 技术亮点:
- 多模态编码器:整合 BERT 文本编码与 CLIP 视觉特征,通过时间衰减因子建模用户行为序列的时序依赖7。
- Transformer 解码器:自回归生成推荐序列,引入图文对比学习和点击预测辅助任务,提升推荐准确性(Hit Rate@K+15%)7。
- 工程优化:模型量化(INT8)和动态批处理技术,推理速度提升 3 倍7。
2. GeneRec(生成式推荐范式)
- 创新架构:
- 三模块设计:
- Instructor:解析用户自然语言指令(如 “推荐适合徒步的轻便鞋子”),生成内容生成引导信号2。
- AI Editor:基于扩散模型编辑现有商品(如修改图片风格),支持 “用户偏好 - 内容生成” 闭环2。
- AI Creator:直接生成全新商品(如虚拟试穿视频),结合可信度检查模块过滤低质量内容2。
- 应用场景:短视频推荐中,通过多模态指令生成个性化内容,观看时长提升显著2。
- 三模块设计:
二、快手:OneRec 与非自回归生成
1. OneRec:统一生成式推荐框架
- 核心技术:
- MoE(混合专家)架构:稀疏激活机制扩展模型容量,支持处理海量用户兴趣(如 “运动”“美妆” 等多领域)1。
- DPO(直接偏好优化):通过奖励模型(RM)生成偏好数据,避免 RLHF 的训练不稳定性,在线 A/B 测试中观看时间提升 1.6%1。
- 会话式生成:直接生成完整推荐列表,捕捉序列上下文依赖(如连续推荐同类视频时的用户疲劳效应)1。
2. 非自回归重排模型
- 工程突破:
- 匹配模型设计:共享位置 Embedding 解决稀疏样本问题,生成序列耗时比自回归模型降低 90%5。
- 序列不似然损失:最大化高收益序列概率,同时抑制低质量组合,离线 NDCG 提升 8.2%5。
三、Google:TIGER 生成式检索
1. 语义 ID 与层次化 VAE
- 技术方案:
- 语义 ID 生成:基于 RQ-VAE 将商品文本(如标题、描述)转化为符号序列(如 “户外 - 防水 - 冲锋衣”),替代传统随机 ID7。
- Transformer 自回归解码:直接预测下一个商品的语义 ID,冷启动商品检索准确率提升 12%7。
- 对比优势:无需 ANN 索引,端到端生成候选,减少传统双塔模型的量化误差7。
2. 工业级优化
- 多阶段训练:
- 预训练:在公开文本数据上学习语义 ID 生成。
- 微调:在用户交互数据上优化推荐序列生成。
- 蒸馏:将大模型知识迁移至轻量级推理模型,响应时间 < 50ms7。
四、Meta:HSTU 与特征序列化
1. HSTU(层次化序列转换单元)
- 架构创新:
- 特征序列化:将用户行为、商品 ID 等离散特征转换为长序列(最长 8192 token),丢弃冗余数值特征,模型参数量减少 40%8。
- 高效注意力机制:基于 M-FALCON 算法实现动态批处理,推理速度比 FlashAttention2 快 5.3 倍8。
- 多任务预测:在排序阶段同时输出 CTR、CVR 等指标,在线转化率提升 12.4%8。
2. Scaling Law 验证
- 模型扩展:
- 序列长度:从 1024 扩展至 8192,捕捉更长期用户兴趣(如跨周的购物意图)。
- 参数规模:嵌入维度从 512 增至 1024,HSTU 层数从 12 层增至 24 层,推荐准确性随模型规模线性提升8。
五、字节跳动:Infinity 与多模态生成
1. Infinity 高分辨率图像生成
- 技术亮点:
- 位级自回归建模:将图像像素分解为二进制位,通过无限词汇量标记器提升细节重建能力(如服装纹理)6。
- 自纠正机制:训练中随机翻转像素位模拟预测错误,模型具备自我修复能力,生成 1024x1024 图像仅需 0.8 秒6。
- 推荐场景适配:与推荐系统结合生成商品详情图,点击率提升 9.3%6。
2. PaddleRec 生态
- 工具链支持:
- 多模态训练:集成 CLIP、Stable Diffusion 等模型,支持图文跨模态对齐。
- 在线服务:通过 TensorRT 加速生成模型,响应延迟 < 200ms,支撑抖音日活亿级用户的实时推荐6。
六、Spotify:Text2Tracks 与生成式检索
1. 基于 Prompt 的音乐推荐
- 技术方案:
- ID 策略优化:
- artist-iid-track-seq:头部歌手 ID 加入词表(如 “周杰伦” 对应 < 1001>),生成序列如 “<1001>_夜曲”,检索准确率提升 18%3。
- 整数 ID 映射:非头部歌曲用随机整数表示,平衡生成效率与召回率3。
- 可微 Transformer:微调预训练 seq2seq 模型,直接生成歌曲 ID 序列,支持 “经典摇滚” 等自然语言指令3。
- ID 策略优化:
2. 工程实践
- 实时生成:
- 缓存机制:热门歌手的语义嵌入预存 GPU 显存,生成延迟 < 100ms。
- A/B 测试:用户主动输入指令的推荐场景中,播放时长提升 6.7%3。
七、技术趋势与对比
技术维度 | 腾讯 AMGR | 快手 OneRec | Google TIGER | Meta HSTU |
---|---|---|---|---|
生成范式 | 自回归序列生成 | 会话式生成 + DPO 优化 | 语义 ID 生成式检索 | 特征序列化 + 多任务预测 |
核心技术 | 多模态融合、时间衰减 | MoE、非自回归生成 | 层次化 VAE、语义 ID | HSTU、M-FALCON 算法 |
数据输入 | 文本 + 视觉 + 行为序列 | 短视频交互数据 | 商品文本 + 用户行为 | 离散特征序列化 |
在线指标提升 | CTR+8%、CVR+5% | 观看时间 + 1.6% | 冷启动召回 + 12% | 转化率 + 12.4% |
推理速度 | INT8 量化后 3 倍加速 | 非自回归比自回归快 90% | 端到端生成 < 50ms | 动态批处理提速 5.3 倍 |
未来方向
- 多模态深度融合:如腾讯 GeneRec 的图文生成与用户指令结合,快手 OneRec 的视频内容生成。
- 高效生成架构:非自回归模型(快手)、动态批处理(Meta)成为主流。
- 生成式检索:Google TIGER 和 Spotify Text2Tracks 验证了语义 ID 在冷启动场景的有效性。
- 可信生成:腾讯 GeneRec 的可信度检查模块、字节 Infinity 的自纠正机制,应对生成内容的安全风险。
通过上述架构对比可见,生成式推荐正从 “候选排序” 转向 “内容生成 + 意图理解” 的全链路优化,各家技术路径虽异,但均以提升用户体验和商业指标为核心目标。