Skip to main content

生成式推荐系统综述

第一章 综述背景与贡献

第一作者来自意大利巴黎理工大学,已发表多篇推荐系统综述。作者近两年论文列表包括音乐PIC推荐、推荐系统评估等方向。推荐系统研究广泛,为清晰说明推荐任务,引用TKDE期刊综述:

  1. Top-K推荐:为用户推荐候选物品(商品、电影、餐厅等,后统称“物品”)。示例:根据用户观影历史推荐Top-5候选电影。
  2. 评分预测:根据用户历史评分预测对未交互物品的评分。
  3. 对话式推荐:通过自然语言对话了解用户需求并推荐。
  4. 解释生成:说明推荐理由。
  5. Next-Item推荐:考虑推荐顺序,预测用户下一个交互物品。

论文整体框架

数据、模型、场景三方面系统梳理生成式推荐系统:

  • 数据:交互历史、用户/物品数据、外部知识。
  • 模型:自编码器、自回归模型、生成对抗网络、扩散模型。
  • 场景:交互驱动、文本驱动、多模态推荐。
  • 评估:推荐系统评估指标、基准数据集。
  • 未来方向:给出发展建议。

与现有综述比较

  • 基于预训练大模型的推荐方法综述
  • 面向推荐系统的大模型训练/学习方法综述
  • 通过指令微调适配推荐任务的方法综述

本综述系统性更强:更深入梳理自编码器、大模型、扩散模型,按数据与模态划分。补充《计算机研究与发展》2025年综述,涵盖生成式以外的深度学习建模及各场景常用数据集。


第二章 面向交互推荐的生成式模型

聚焦交互驱动推荐:输入用户A与物品B交互,输出推荐列表。包括四类模型:

2.1 自编码器(AE)模型

目标:重构输入。
原理:编码器将输入压缩为低维潜在向量,解码器从潜在向量重构原始数据。
无监督优势:无需标签,优化重构误差。

2.1.1 去噪自编码器(DAE)

在输入注入噪声(如遮挡),从噪声输入还原原始输入,提升鲁棒性。

2.1.2 变分自编码器(VAE)

潜在空间连续化:

  • 编码器输出高斯分布参数(均值μ、方差σ²)。
  • 从分布采样潜在向量送入解码器。
  • 优化重构损失 + KL散度(分布对齐)。

代表方法

方法输入输出特点
Mult-VAE用户部分评分向量重构评分结合协同过滤预测评分
RecVAE用户交互序列下一个交互物品序列预测模式
VACF用户交互向量用户对所有物品概率分布Top-K排序
LACE-to-CAR用户偏好推荐列表分布适用于广告整体点击率场景

2.2 自回归(AR)模型

用过去值预测未来值,主要包括:

2.2.1 循环自回归模型

  • GRU4Rec:输入用户交互序列,输出下一交互物品。
  • 训练优化
    • 序列长度不均 → 按长度排序的变形Mini-batch
    • 采样策略:正样本为真实下一物品,负样本为同batch内其他用户下一物品。
  • 增强方法
    • 拼接物品特征向量(ID+属性),实验显示准确率接近纯ID。
    • 多任务互补训练(残差/交错训练提升显著)。
    • 引入停留时长特征(时长越长兴趣越大)。

2.2.2 自注意力自回归模型

  • SASRec
    • 输入:用户历史物品序列。
    • 输出:下一交互物品。
    • 每步关注前面所有物品,注意力权重取决于物品嵌入本身(顺序无关)。
    • 适用于稀疏数据集(如Beauty数据集表现最佳)。
    • 训练效率高
  • 集合自回归
    • 输入:过去多个时间步的物品集合序列。
    • 输出:下一时间步物品集合。
    • 构建基图(集合内元素两两连边,频率为权重)。
    • 动态图卷积学习元素关系 + 注意力持续依赖模块聚合历史隐藏状态。

2.3 生成对抗网络(GAN)

核心:生成器 vs 判别器对抗训练。
推荐应用

  • 选择信息丰富训练样本。
  • 生成用户偏好/交互数据。
  • 生成推荐列表。

代表方法

方法特点
IRGAN生成式检索,对负样本物品采样
AugHGCf条件GAN,以用户偏好类别为条件生成高质量用户-物品数据
行为模拟学习奖励函数

2.4 扩散模型(Diffusion)

原理:前向逐步加噪 → 反向迭代去噪重建。
推荐应用

  • 学习用户未来交互概率。
  • 数据增强缓解稀疏/长尾问题。

代表方法

方法角色特点
DiffRec核心预测器从部分交互推测完整交互分布
Diff4Rec数据增强器生成新交互样本增强原始序列

第三章 基于大语言模型的推荐方法

3.1 大模型作为文本编码器

3.1.1 稠密检索模式

  • 将用户偏好/物品信息编码为向量 → 高效相似度匹配。
  • 技术挑战:高效实时搜索。
  • 索引构建:物品文本(标题、描述、评论)作为文档。
  • 查询生成:用户自然语言、最近喜欢物品标题、对话语句。

聚合方式

  1. 晚期聚合:先算查询与每条评论相似度 → 平均/加权合成物品分数。
    优点:保留细节,单条相关评论即可召回。
  2. 早期聚合:先融合所有评论为单一物品向量 → 计算查询-物品相似度。
    缺点:可能丢失关键细节。

微调策略(无标注数据):

  • 质监督对比学习:同一物品评论向量更近,不同物品更远。
  • 正样本增强:同一物品+相同评分+文本最不相似的评论 → 学习深层语义。
  • 负样本增强:不同物品+文本最相似的评论 → 区分细微差异。

探针实验

  • BERT内部存储内容知识(电影类型)与协同知识(喜欢《霍比特人》→《指环王》)。

3.1.2 融合编码模式

  • 在大模型架构中联合嵌入自然语言物品/偏好描述。
  • 多层感知机评分预测头。
  • 用户-物品表征深度交互,但计算成本高,适合小规模物品集。

3.2 推荐任务转为文本生成(Seq2Seq)

3.2.1 Zero/Few-Shot生成

依托预训练知识(实体、偏好、常识推理)。

提示策略

  1. 补全式:列出用户偏好 + 待评估电影 → 生成评分。
  2. 指令式:自然语言指令引导推荐。
  3. 特例式:提供1-3个用户-推荐对作为示例。

局限:效果不如监督协同过滤,存在任务鸿沟。

3.2.2 微调为推荐语言模型

  • T0Rec框架
    • 输入:开源预训练模型(如LLaMA-7B)+ 少量推荐数据(交互历史+目标)+ 通用指令数据。
    • 输出:微调后的推荐专用大语言模型。
  • 序列推荐提升三路径
    1. 语义相似度推荐(编码器模式)。
    2. 微调推荐:需处理幻觉(生成重复/不存在物品)→ 向量相似度映射回真实物品。
    3. 大模型增强序列模型:用大模型编码物品向量初始化BERT4Rec → 结合语义+序列建模能力(实验最优)。

3.2.3 解释生成

  • 数据来源:用户评论提取动机/原因。
  • 技术:微调、提示调整、思维链(CoT)。
  • Zero-Shot不足
    • 缺乏个性化(无历史)。
    • 事实错误。
    • 模糊/可读性差。
  • CoT改进
    1. 从用户历史找相关电影。
    2. 提取细粒度特征(子类型)。
    3. 多步指令:找共同点 → 找证据 → 组装句子 → 总结。

3.3 检索增强生成(RAG)

优势

  • 在线更新。
  • 减少幻觉。
  • 外部知识挂载,参数需求少。

流程

  1. 检索器/推荐系统生成候选物品集。
  2. 大模型筛选/重排序。

解释生成:根据交互历史生成查询 → 检索评论 → 上下文生成解释。

对话式推荐范式

  • 检索用户偏好描述指导对话。
  • 检索评论回答问题。

优化维度:索引构建、检索前/中/后、生成过程。

3.4 大模型作为特征提取器

  1. 直接编码:物品向量输入下游推荐模型。
  2. 生成文本输入
    • 根据用户历史生成文本 → 输入推荐/检索器。
    • TIGER:为每物品生成独一无二多码字语义ID。

3.5 对话式推荐系统

涵盖:对话管理、推荐生成、解释、问答、批判性反馈。

实现方式

  • GPT-4直接驱动。
  • 大模型+传统推荐模块。
  • 多工具增强(对话管理+解释+检索)。

代表工作:TUTrack(2023)

  • 输入Prompt:用户画像 + 交互历史 + 对话历史 + 传统推荐结果。
  • 功能
    • 上下文学习用户偏好。
    • 优化传统推荐结果。
    • 多轮交互。
    • 可解释理由。
    • 冷启动:新物品与库匹配(RAG思想)。

第四章 生成式多模态推荐系统

4.1 多模态推荐的必要性

平台拥有丰富的多模态信息:物品描述、图像、视频、用户评论、购买历史等。

4.1.1 冷启动问题

  • 新用户/新物品:缺乏行为数据。
  • 解决方案:整合多维度信息(文本+图像)实现知识迁移。

4.1.2 跨模态理解用户请求

用户需感知产品适用性:

  • 可视化推荐:服装上身效果、家具摆放效果。
  • 复杂查询示例

    “适合我家客厅、价格<300美元的最佳金属玻璃黑色咖啡桌”

需分析外观、形状、环境匹配度,纯文本/图像搜索难以胜任。

4.1.3 其他多模态请求场景

  • 提供目标图像/音频 + 文本修改
    • 找“类似此音效片段的原生歌曲”。
    • 为图中自行车匹配脚踏板(互补推荐)。
  • 复杂输出系统
    • 虚拟试穿。
    • 智能多模态对话购物助手(深度理解模态间关联 + 高级交互)。

4.2 多模态推荐面临的挑战

挑战说明
1. 数据收集难度高图像-文本-交互三元组标注成本远高于单模态,某些模态标注不完整。
2. 有效融合难对比学习仅捕获共享信息(如描述视觉属性的文本),忽略互补信息(如非视觉属性文本)。
3. 数据量需求大多模态模型训练所需数据量远超单模态。

4.3 基于对比学习的多模态推荐

4.3.1 主流方法:先对齐后融合

  1. CLIP(核心思想)

    • 并行图像编码器 + 文本编码器 → 投射到同一嵌入空间。
    • 训练:计算所有图像-文本对相似度矩阵 → 对称交叉熵损失(行/列)。
  2. 先对齐后融合(CLIP增强版)

    • 增强多模态编码器融合文本+图像嵌入。
    • 三个优化目标
      1. 图像-文本对比学习。
      2. 掩码语言建模(MLM)。
      3. 图像-文本匹配(ITM)。
    • 动量蒸馏:为无/错文本描述提供伪标签。
    • 性能:多任务基准优于CLIP。

局限:受数据稀疏性/不确定性制约。


4.4 生成式模型在多模态中的结合

4.4.1 多模态变分自编码器(VAE)

  • 直接用于多模态数据。
  • 更优策略:输入/潜在空间按模态划分(图像/文本独立VAE)。
  • ConTest VAE
    • 目标函数增加单模态重建 + 跨模态对比损失
    • 实验:性能 > 纯对比模型。

4.4.2 多模态扩散模型

  • 文本生成倾向用Transformer,图像生成偏好扩散模型
  • 典型架构:文本编码器 + 图像扩散模型。
模型特点
DALL·E以CLIP嵌入空间为起点生成图像
Stable DiffusionUNet编码器 + 感知损失 + 分块对抗训练
TryOnDiffusion优化可控性 + 主体身份一致性 → 虚拟试穿

4.4.3 多模态大语言模型(MLLM)

  • 支持文本+图像输入 → 文本输出
  • 自然语言接口表达多模态查询。
代表方法:InstructRec
  • 输入:用户浏览网页实时截图序列。
  • 流程
    1. 截图 → 多模态大模型顺序处理。
    2. 生成结构化文本摘要(偏好总结)。
    3. 计算摘要与候选物品文本属性的语义相似度 → 重排序推荐列表。
  • 优势 vs 传统日志系统
    传统日志InstructRec
    非结构化,特征工程繁琐直接从截图捕获视觉注意力
    可解释性弱结构化摘要易理解
    难捕获外观/价格比较自然保留上下文

4.5 检索增强生成式多模态推荐(组内工作,KDD 2025)

背景:高点击率图像(如外卖平台)有商业价值。
发现:食物背景与用户参与度正相关。

问题

  • 扩散模型微调成本高。
  • 修复技术无法保证高点击率。
  • 缺乏高效、可迁移的食品图像生成框架。

提出方法:检索增强生成器(RAG-based)

  • 架构:基于Stable Diffusion + ControlNet。
  • 流程
    1. 构建多样化背景食品图像数据库
    2. 检索:输入食物主体 → 找相似食物+高质量背景。
    3. 条件生成:ControlNet以检索背景为条件引导合成。
    4. 筛选:多模态点击率预测模型选最优图像。
  • 线上实验:显著提升点击率。
  • 消融研究:揭示不同策略/配置影响。

第五章 推荐系统评估

5.1 离线评估

5.1.1 性能指标

  • 判别式任务:准确率(Recall@K, NDCG@K 等)。
  • 生成式任务:BLEU, ROUGE, Perplexity, Diversity 等。
  • 计算效率
    • 训练/推理代价。
    • 示例:130B大模型总代价 ≈ 2100 GPU·天。

5.1.2 基准数据集

  • 判别式推荐常用数据集在生成式任务中适用性有限
  • 更适合对话推荐场景的数据集已出现。
  • 大模型基准(如MMLU)含推荐相关任务。

5.1.3 公平性评估

  • 测量预训练大模型对保护属性(性别、种族)的敏感性。

5.2 在线评估(A/B测试)

维度指标
业务指标收入、转化率、参与度、时间消耗
用户影响日/月活跃用户数、情感倾向
短期/长期满意度、留存率
模拟评估Agent模拟用户行为

5.3 对话式推荐评估

指标说明
通用BLEU, ROUGE, Perplexity
任务特定召回率、响应多样性、相关性
大模型评估作为奖励模型(Reward Model)
黄金标准人工评估
工具包CMSLEB(简化构建与评估)

工业挑战:标注缺失。


5.4 社会影响与安全评估

六大潜在危害(需评估):

  1. 虚假信息传播
  2. 偏见放大
  3. 隐私泄露
  4. 成瘾性设计
  5. 操纵性推荐
  6. 社会极化

大模型领域已有整体性评估框架,需开发生成式推荐专用综合评估框架


第六章 总结与展望

6.1 本文贡献

  • 系统梳理生成式推荐在:
    • 用户-物品交互
    • 文本驱动
    • 多模态场景
  • 提出评估方法挑战
  • 列出未来研究主题:
    • RAG优化
    • 主动对话推荐
    • 个性化内容生成
    • 红队测试(安全性)

6.2 不足与建议

  1. 缺少针对推荐任务的优化策略对比分析
  2. 数据与实验综述可更深入(补充性能提升量化)。

6.3 推荐系统发展趋势

维度观察
模型层面AI技术进步 → 推荐技术同步演进
任务层面主流任务稳定,新技术催生新任务
数据层面需针对场景特征优化通用方法:
・旅游:引入距离
・视觉:图像生成增强
・动态:时间特征
・群组推荐:新范式