生成式推荐系统综述
第一章 综述背景与贡献
第一作者来自意大利巴黎理工大学,已发表多篇推荐系统综述。作者近两年论文列表包括音乐PIC推荐、推荐系统评估等方向。推荐系统研究广泛,为清晰说明推荐任务,引用TKDE期刊综述:
- Top-K推荐:为用户推荐候选物品(商品、电影、餐厅等,后统称“物品”)。示例:根据用户观影历史推荐Top-5候选电影。
- 评分预测:根据用户历史评分预测对未交互物品的评分。
- 对话式推荐:通过自然语言对话了解用户需求并推荐。
- 解释生成:说明推荐理由。
- Next-Item推荐:考虑推荐顺序,预测用户下一个交互物品。
论文整体框架
从数据、模型、场景三方面系统梳理生成式推荐系统:
- 数据:交互历史、用户/物品数据、外部知识。
- 模型:自编码器、自回归模型、生成对抗网络、扩散模型。
- 场景:交互驱动、文本驱动、多模态推荐。
- 评估:推荐系统评估指标、基准数据集。
- 未来方向:给出发展建议。
与现有综述比较
- 基于预训练大模型的推荐方法综述
- 面向推荐系统的大模型训练/学习方法综述
- 通过指令微调适配推荐任务的方法综述
本综述系统性更强:更深入梳理自编码器、大模型、扩散模型,按数据与模态划 分。补充《计算机研究与发展》2025年综述,涵盖生成式以外的深度学习建模及各场景常用数据集。
第二章 面向交互推荐的生成式模型
聚焦交互驱动推荐:输入用户A与物品B交互,输出推荐列表。包括四类模型:
2.1 自编码器(AE)模型
目标:重构输入。
原理:编码器将输入压缩为低维潜在向量,解码器从潜在向量重构原始数据。
无监督优势:无需标签,优化重构误差。
2.1.1 去噪自编码器(DAE)
在输入注入噪声(如遮挡),从噪声输入还原原始输入,提升鲁棒性。
2.1.2 变分自编码器(VAE)
潜在空间连续化:
- 编码器输出高斯分布参数(均值μ、方差σ²)。
- 从分布采样潜在向量送入解码器。
- 优化重构损失 + KL散度(分布对齐)。
代表方法
| 方法 | 输入 | 输出 | 特点 |
|---|---|---|---|
| Mult-VAE | 用户部分评分向量 | 重构评分 | 结合协同过滤预测评分 |
| RecVAE | 用户交互序列 | 下一个交互物品 | 序列预测模式 |
| VACF | 用户交互向量 | 用户对所有物品概率分布 | Top-K排序 |
| LACE-to-CAR | 用户偏好 | 推荐列表分布 | 适用于广告整体点击率场景 |
2.2 自回归(AR)模型
用过去值预测未来值,主要包括:
2.2.1 循环自回归模型
- GRU4Rec:输入用户交互序列,输出下一交互物品。
- 训练优化:
- 序列长度不均 → 按长度排序的变形Mini-batch。
- 采样策略:正样本为真实下一物品,负样本为同batch内其他用户下一物品。
- 增强方法:
- 拼接物品特征向量(ID+属性),实验显示准确率接近纯ID。
- 多任务互补训练(残差/交错训练提升显著)。
- 引入停留时长特征(时长越长兴趣越大)。
2.2.2 自注意力自回归模型
- SASRec:
- 输入:用户历史物品序列。
- 输出:下一交互物品。
- 每步关注前面所有物品,注意力权重取决于物品嵌入本身(顺序无关)。
- 适用于稀疏数据集(如Beauty数据集表现最佳)。
- 训练效率高。
- 集合自回归:
- 输入:过去多个时间步的物品集合序列。
- 输出:下一时间步物品集合。
- 构建基图(集合内元素两两连边,频率为权重)。
- 动态图卷积学习元素关系 + 注意力持续依赖模块聚合历史隐藏状态。
2.3 生成对抗网络(GAN)
核心:生成器 vs 判别器对抗训练。
推荐应用:
- 选择信息丰富训练样本。
- 生成用户偏好/交互数据。
- 生成推荐列表。
代表方法
| 方法 | 特点 |
|---|---|
| IRGAN | 生成式检索,对负样本物品采样 |
| AugHGCf | 条件GAN,以用户偏好类别为条件生成高质量用户-物品数据 |
| 行为模拟 | 学习奖励函数 |
2.4 扩散模型(Diffusion)
原理:前向逐步加噪 → 反向迭代去噪重建。
推荐应用:
- 学习用户未来交互概率。
- 数据增强缓解稀疏/长尾问题。
代表方法
| 方法 | 角色 | 特点 |
|---|---|---|
| DiffRec | 核心预测器 | 从部分交互推测完整交互分布 |
| Diff4Rec | 数据增强器 | 生成新交互样本增强原始序列 |
第三章 基于大语言模型的推荐方法
3.1 大模型作为文本编码器
3.1.1 稠密检索模式
- 将用户偏好/物品信息编码为向量 → 高效相似度匹配。
- 技术挑战:高效实时搜索。
- 索引构建:物品文本(标题、描述、评论)作为文档。
- 查询生成:用户自然语言、最近喜欢物品标题、对话语句。
聚合方式:
- 晚期聚合:先算查询与每条评论相似度 → 平均/加权合成物品分数。
优点:保留细节,单条相关评论即可召回。 - 早期聚合:先融合所有评论为单一物品向量 → 计算查询-物品相似度。
缺点:可能丢失关键细节。
微调策略(无标注数据):
- 质监督对比学习:同一物品评论向量更近,不同物品更远。
- 正样本增强:同一物品+相同评分+文本最不相似的评论 → 学习深层语义。
- 负样本增强:不同物品+文本最相似的评论 → 区分细微差异。
探针实验:
- BERT内部存储内容知识(电影类型)与协同知识(喜欢《霍比特人》→《指环王》)。
3.1.2 融合编码模式
- 在大模型架构中联合嵌入自然语言物品/偏好描述。
- 多层感知机评分预测头。
- 用户-物品表征深度交互,但计算成本高,适合小规模物品集。
3.2 推荐任务转为文本生成(Seq2Seq)
3.2.1 Zero/Few-Shot生成
依托预训练知识(实体、偏好、常识推理)。
提示策略:
- 补全式:列出用户偏好 + 待评估电影 → 生成评分。
- 指令式:自然语言指令引导推荐。
- 特例式:提供1-3个用户-推荐对作为示例。
局限:效果不如监督协同过滤,存在任务鸿沟。
3.2.2 微调为推荐语言模型
- T0Rec框架:
- 输入:开源预训练模型(如LLaMA-7B)+ 少量推荐数据(交互历史+目标)+ 通用指令数据。
- 输出:微调后的推荐专用大语言模型。
- 序列推荐提升三路径:
- 语义相似度推荐(编码器模式)。
- 微调推荐:需处理幻觉(生成重复/不存在物品)→ 向量相似度映射回真实物品。
- 大模型增强序列模型:用大模型编码物品向量初始化BERT4Rec → 结合语义+序列建模能力(实验最优)。
3.2.3 解释生成
- 数据来源:用户评论提取动机/原因。
- 技术:微调、提示调整、思维链(CoT)。
- Zero-Shot不足:
- 缺乏个性化(无历史)。
- 事实错误。
- 模糊/可读性差。
- CoT改进:
- 从用户历史找相关电影。
- 提取细粒度特征(子类型)。
- 多步指令:找共同点 → 找证据 → 组装句子 → 总结。
3.3 检索增强生成(RAG)
优势:
- 在线更新。
- 减少幻觉。
- 外部知识挂载,参数需求少。
流程:
- 检索器/推荐系统生成候选物品集。
- 大模型筛选/重排序。
解释生成:根据交互历史生成查询 → 检索评论 → 上下文生成解释。
对话式推荐范式:
- 检索用户偏好描述指导对话。
- 检索评论回答问题。
优化维度:索引构建、检索前/中/后、生成过程。
3.4 大模型作为特征提取器
- 直接编码:物品向量输入下游推荐模型。
- 生成文本输入:
- 根据用户历史生成文本 → 输入推荐/检索器。
- TIGER:为每物品生成独一无二多码字语义ID。
3.5 对话式推荐系统
涵盖:对话管理、推荐生成、解释、问答、批判性反馈。
实现方式:
- GPT-4直接驱动。
- 大模型+传统推荐模块。
- 多工具增强(对话管理+解释+检索)。
代表工作:TUTrack(2023)
- 输入Prompt:用户画像 + 交互历史 + 对话历史 + 传统推荐结果。
- 功能:
- 上下文学习用户偏好。
- 优化传统推荐结果。
- 多轮交互。
- 可解释理由。
- 冷启动:新物品与库匹配(RAG思想)。
第四章 生成式多模态推荐系统
4.1 多模态推荐的必要性
平台拥有丰富的多模态信息:物品描述、图像、视频、用户评论、购买历史等。
4.1.1 冷启动问题
- 新用户/新物品:缺乏行为数据。
- 解决方案:整合多维度信息(文本+图像)实现知识迁移。
4.1.2 跨模态理解用户请求
用户需感知产品适用性:
- 可视化推荐:服装上身效果、家具摆放效果。
- 复杂查询示例:
“适合我家客厅、价格<300美元的最佳金属玻璃黑色咖啡桌”
需分析外观、形状、环境匹配度,纯文本/图像搜索难以胜任。
4.1.3 其他多模态请求场景
- 提供目标图像/音频 + 文本修改:
- 找“类似此音效片段的原生歌曲”。
- 为图中自行车匹配脚踏板(互补推荐)。
- 复杂输出 系统:
- 虚拟试穿。
- 智能多模态对话购物助手(深度理解模态间关联 + 高级交互)。
4.2 多模态推荐面临的挑战
| 挑战 | 说明 |
|---|---|
| 1. 数据收集难度高 | 图像-文本-交互三元组标注成本远高于单模态,某些模态标注不完整。 |
| 2. 有效融合难 | 对比学习仅捕获共享信息(如描述视觉属性的文本),忽略互补信息(如非视觉属性文本)。 |
| 3. 数据量需求大 | 多模态模型训练所需数据量远超单模态。 |
4.3 基于对比学习的多模态推荐
4.3.1 主流方法:先对齐后融合
-
CLIP(核心思想)
- 并行图像编码器 + 文本编码器 → 投射到同一嵌入空间。
- 训练:计算所有图像-文本对相似度矩阵 → 对称交叉熵损失(行/列)。
-
先对齐后融合(CLIP增强版)
- 增强多模态编码器融合文本+图像嵌入。
- 三个优化目标:
- 图像-文本对比学习。
- 掩码语言建模(MLM)。
- 图像-文本匹配(ITM)。
- 动量蒸馏:为无/错文本描述提供伪标签。
- 性能:多任务基准优于CLIP。
局限:受数据稀疏性/不确定性制约。
4.4 生成式模型在多模态中的结合
4.4.1 多模态变分自编码器(VAE)
- 直接用于多模态数据。
- 更优策略:输入/潜在空间按模态划分(图像/文本独立VAE)。
- ConTest VAE:
- 目标函数增加单模态重建 + 跨模态对比损失。
- 实验:性能 > 纯对比模型。
4.4.2 多模态扩散模型
- 文本生成倾向用Transformer,图像生成偏好扩散模型。
- 典型架构:文本 编码器 + 图像扩散模型。
| 模型 | 特点 |
|---|---|
| DALL·E | 以CLIP嵌入空间为起点生成图像 |
| Stable Diffusion | UNet编码器 + 感知损失 + 分块对抗训练 |
| TryOnDiffusion | 优化可控性 + 主体身份一致性 → 虚拟试穿 |
4.4.3 多模态大语言模型(MLLM)
- 支持文本+图像输入 → 文本输出。
- 自然语言接口表达多模态查询。
代表方法:InstructRec
- 输入:用户浏览网页实时截图序列。
- 流程:
- 截图 → 多模态大模型顺序处理。
- 生成结构化文本摘要(偏好总结)。
- 计算摘要与候选物品文本属性的语义相似度 → 重排序推荐列表。
- 优势 vs 传统日志系统:
传统日志 InstructRec 非结构化,特征工程繁琐 直接从截图捕获视觉注意力 可解释性弱 结构化摘要易理解 难捕获外观/价格比较 自然保留上下文
4.5 检索增强生成式多模态推荐(组内工作,KDD 2025)
背景:高点击率图像(如外卖平台)有商业价值。
发现:食物背景与用户参与度正相关。
问题:
- 扩散模型微调成本高。
- 修复技术无法保证高点击率。
- 缺乏高效、可迁移的食品图像生成框架。
提出方法:检索增强生成器(RAG-based)
- 架构:基于Stable Diffusion + ControlNet。
- 流程:
- 构建多样化背景食品图像数据库。
- 检索:输入食物主体 → 找相似食物+高质量背景。
- 条件生成:ControlNet以检索背景为条件引导合成。
- 筛选:多模态点击率预测模型选最优图像。
- 线上实验:显著提升点击率。
- 消融研究:揭示不同策略/配置影响。
第五章 推荐系统评估
5.1 离线评估
5.1.1 性能指标
- 判别式任务:准确率(Recall@K, NDCG@K 等)。
- 生成式任务:BLEU, ROUGE, Perplexity, Diversity 等。
- 计算效率:
- 训练/推理代价。
- 示例:130B大模型总代价 ≈ 2100 GPU·天。
5.1.2 基准数据集
- 判别式推荐常用数据集在生成式任务中适用性有限。
- 更适合对话推荐场景的数据集已出现。
- 大模型基准(如MMLU)含推荐相关任务。
5.1.3 公平性评估
- 测量预训练大模型对保护属性(性别、种族)的敏感性。
5.2 在线评估(A/B测试)
| 维 度 | 指标 |
|---|---|
| 业务指标 | 收入、转化率、参与度、时间消耗 |
| 用户影响 | 日/月活跃用户数、情感倾向 |
| 短期/长期 | 满意度、留存率 |
| 模拟评估 | Agent模拟用户行为 |
5.3 对话式推荐评估
| 指标 | 说明 |
|---|---|
| 通用 | BLEU, ROUGE, Perplexity |
| 任务特定 | 召回率、响应多样性、相关性 |
| 大模型评估 | 作为奖励模型(Reward Model) |
| 黄金标准 | 人工评估 |
| 工具包 | CMSLEB(简化构建与评估) |
工业挑战:标注缺失。
5.4 社会影响与安全评估
六大潜在危害(需评估):
- 虚假信息传播
- 偏见放大
- 隐私泄露
- 成瘾性设计
- 操纵性推荐
- 社会极化
大模型领域已有整体性评估框架,需开发生成式推荐专用综合评估框架。
第六章 总结与展望
6.1 本文贡献
- 系统梳理生成式推荐在:
- 用户-物品交互
- 文本驱动
- 多模态场景
- 提出评估方法与挑战
- 列出未来研究主题:
- RAG优化
- 主动对话推荐
- 个性化内容生成
- 红队测试(安全性)
6.2 不足与建议
- 缺少针对推荐任务的优化策略对比分析。
- 数据与实验综述可更深入(补充性能提升量化)。
6.3 推荐系统发展趋势
| 维度 | 观察 |
|---|---|
| 模型层面 | AI技术进步 → 推荐技术同步演进 |
| 任务层面 | 主流任务稳定,新技术催生新任务 |
| 数据层面 | 需针对场景特征优化通用方法: ・旅游:引入距离 ・视觉:图像生成增强 ・动态:时间特征 ・群组推荐:新范式 |