生成式推荐系统综述

第一章　综述背景与贡献

第一作者来自意大利巴黎理工大学，已发表多篇推荐系统综述。作者近两年论文列表包括音乐PIC推荐、推荐系统评估等方向。推荐系统研究广泛，为清晰说明推荐任务，引用TKDE期刊综述：

Top-K推荐：为用户推荐候选物品（商品、电影、餐厅等，后统称“物品”）。示例：根据用户观影历史推荐Top-5候选电影。
评分预测：根据用户历史评分预测对未交互物品的评分。
对话式推荐：通过自然语言对话了解用户需求并推荐。
解释生成：说明推荐理由。
Next-Item推荐：考虑推荐顺序，预测用户下一个交互物品。

论文整体框架

从数据、模型、场景三方面系统梳理生成式推荐系统：

数据：交互历史、用户/物品数据、外部知识。
模型：自编码器、自回归模型、生成对抗网络、扩散模型。
场景：交互驱动、文本驱动、多模态推荐。
评估：推荐系统评估指标、基准数据集。
未来方向：给出发展建议。

与现有综述比较

基于预训练大模型的推荐方法综述
面向推荐系统的大模型训练/学习方法综述
通过指令微调适配推荐任务的方法综述

本综述系统性更强：更深入梳理自编码器、大模型、扩散模型，按数据与模态划分。补充《计算机研究与发展》2025年综述，涵盖生成式以外的深度学习建模及各场景常用数据集。

第二章　面向交互推荐的生成式模型

聚焦交互驱动推荐：输入用户A与物品B交互，输出推荐列表。包括四类模型：

2.1 自编码器（AE）模型

目标：重构输入。
原理：编码器将输入压缩为低维潜在向量，解码器从潜在向量重构原始数据。
无监督优势：无需标签，优化重构误差。

2.1.1 去噪自编码器（DAE）

在输入注入噪声（如遮挡），从噪声输入还原原始输入，提升鲁棒性。

2.1.2 变分自编码器（VAE）

潜在空间连续化：

编码器输出高斯分布参数（均值μ、方差σ²）。
从分布采样潜在向量送入解码器。
优化重构损失 + KL散度（分布对齐）。

代表方法

方法	输入	输出	特点
Mult-VAE	用户部分评分向量	重构评分	结合协同过滤预测评分
RecVAE	用户交互序列	下一个交互物品	序列预测模式
VACF	用户交互向量	用户对所有物品概率分布	Top-K排序
LACE-to-CAR	用户偏好	推荐列表分布	适用于广告整体点击率场景

2.2 自回归（AR）模型

用过去值预测未来值，主要包括：

2.2.1 循环自回归模型

GRU4Rec：输入用户交互序列，输出下一交互物品。
训练优化：
- 序列长度不均 → 按长度排序的变形Mini-batch。
- 采样策略：正样本为真实下一物品，负样本为同batch内其他用户下一物品。
增强方法：
- 拼接物品特征向量（ID+属性），实验显示准确率接近纯ID。
- 多任务互补训练（残差/交错训练提升显著）。
- 引入停留时长特征（时长越长兴趣越大）。

2.2.2 自注意力自回归模型

SASRec：
- 输入：用户历史物品序列。
- 输出：下一交互物品。
- 每步关注前面所有物品，注意力权重取决于物品嵌入本身（顺序无关）。
- 适用于稀疏数据集（如Beauty数据集表现最佳）。
- 训练效率高。
集合自回归：
- 输入：过去多个时间步的物品集合序列。
- 输出：下一时间步物品集合。
- 构建基图（集合内元素两两连边，频率为权重）。
- 动态图卷积学习元素关系 + 注意力持续依赖模块聚合历史隐藏状态。

2.3 生成对抗网络（GAN）

核心：生成器 vs 判别器对抗训练。
推荐应用：

选择信息丰富训练样本。
生成用户偏好/交互数据。
生成推荐列表。

代表方法

方法	特点
IRGAN	生成式检索，对负样本物品采样
AugHGCf	条件GAN，以用户偏好类别为条件生成高质量用户-物品数据
行为模拟	学习奖励函数

2.4 扩散模型（Diffusion）

原理：前向逐步加噪 → 反向迭代去噪重建。
推荐应用：

学习用户未来交互概率。
数据增强缓解稀疏/长尾问题。

代表方法

方法	角色	特点
DiffRec	核心预测器	从部分交互推测完整交互分布
Diff4Rec	数据增强器	生成新交互样本增强原始序列

第三章　基于大语言模型的推荐方法

3.1 大模型作为文本编码器

3.1.1 稠密检索模式

将用户偏好/物品信息编码为向量 → 高效相似度匹配。
技术挑战：高效实时搜索。
索引构建：物品文本（标题、描述、评论）作为文档。
查询生成：用户自然语言、最近喜欢物品标题、对话语句。

聚合方式：

晚期聚合：先算查询与每条评论相似度 → 平均/加权合成物品分数。
优点：保留细节，单条相关评论即可召回。
早期聚合：先融合所有评论为单一物品向量 → 计算查询-物品相似度。
缺点：可能丢失关键细节。

微调策略（无标注数据）：

质监督对比学习：同一物品评论向量更近，不同物品更远。
正样本增强：同一物品+相同评分+文本最不相似的评论 → 学习深层语义。
负样本增强：不同物品+文本最相似的评论 → 区分细微差异。

探针实验：

BERT内部存储内容知识（电影类型）与协同知识（喜欢《霍比特人》→《指环王》）。

3.1.2 融合编码模式

在大模型架构中联合嵌入自然语言物品/偏好描述。
多层感知机评分预测头。
用户-物品表征深度交互，但计算成本高，适合小规模物品集。

3.2 推荐任务转为文本生成（Seq2Seq）

3.2.1 Zero/Few-Shot生成

依托预训练知识（实体、偏好、常识推理）。

提示策略：

补全式：列出用户偏好 + 待评估电影 → 生成评分。
指令式：自然语言指令引导推荐。
特例式：提供1-3个用户-推荐对作为示例。

局限：效果不如监督协同过滤，存在任务鸿沟。

3.2.2 微调为推荐语言模型

T0Rec框架：
- 输入：开源预训练模型（如LLaMA-7B）+ 少量推荐数据（交互历史+目标）+ 通用指令数据。
- 输出：微调后的推荐专用大语言模型。
序列推荐提升三路径：
1. 语义相似度推荐（编码器模式）。
2. 微调推荐：需处理幻觉（生成重复/不存在物品）→ 向量相似度映射回真实物品。
3. 大模型增强序列模型：用大模型编码物品向量初始化BERT4Rec → 结合语义+序列建模能力（实验最优）。

3.2.3 解释生成

数据来源：用户评论提取动机/原因。
技术：微调、提示调整、思维链（CoT）。
Zero-Shot不足：
- 缺乏个性化（无历史）。
- 事实错误。
- 模糊/可读性差。
CoT改进：
1. 从用户历史找相关电影。
2. 提取细粒度特征（子类型）。
3. 多步指令：找共同点 → 找证据 → 组装句子 → 总结。

3.3 检索增强生成（RAG）

优势：

在线更新。
减少幻觉。
外部知识挂载，参数需求少。

流程：

检索器/推荐系统生成候选物品集。
大模型筛选/重排序。

解释生成：根据交互历史生成查询 → 检索评论 → 上下文生成解释。

对话式推荐范式：

检索用户偏好描述指导对话。
检索评论回答问题。

优化维度：索引构建、检索前/中/后、生成过程。

3.4 大模型作为特征提取器

直接编码：物品向量输入下游推荐模型。
生成文本输入：
- 根据用户历史生成文本 → 输入推荐/检索器。
- TIGER：为每物品生成独一无二多码字语义ID。

3.5 对话式推荐系统

涵盖：对话管理、推荐生成、解释、问答、批判性反馈。

实现方式：

GPT-4直接驱动。
大模型+传统推荐模块。
多工具增强（对话管理+解释+检索）。

代表工作：TUTrack（2023）

输入Prompt：用户画像 + 交互历史 + 对话历史 + 传统推荐结果。
功能：
- 上下文学习用户偏好。
- 优化传统推荐结果。
- 多轮交互。
- 可解释理由。
- 冷启动：新物品与库匹配（RAG思想）。

第四章　生成式多模态推荐系统

4.1 多模态推荐的必要性

平台拥有丰富的多模态信息：物品描述、图像、视频、用户评论、购买历史等。

4.1.1 冷启动问题

新用户/新物品：缺乏行为数据。
解决方案：整合多维度信息（文本+图像）实现知识迁移。

4.1.2 跨模态理解用户请求

用户需感知产品适用性：

可视化推荐：服装上身效果、家具摆放效果。
复杂查询示例：

“适合我家客厅、价格<300美元的最佳金属玻璃黑色咖啡桌”

需分析外观、形状、环境匹配度，纯文本/图像搜索难以胜任。

4.1.3 其他多模态请求场景

提供目标图像/音频 + 文本修改：
- 找“类似此音效片段的原生歌曲”。
- 为图中自行车匹配脚踏板（互补推荐）。
复杂输出系统：
- 虚拟试穿。
- 智能多模态对话购物助手（深度理解模态间关联 + 高级交互）。

4.2 多模态推荐面临的挑战

挑战	说明
1. 数据收集难度高	图像-文本-交互三元组标注成本远高于单模态，某些模态标注不完整。
2. 有效融合难	对比学习仅捕获共享信息（如描述视觉属性的文本），忽略互补信息（如非视觉属性文本）。
3. 数据量需求大	多模态模型训练所需数据量远超单模态。

4.3 基于对比学习的多模态推荐

4.3.1 主流方法：先对齐后融合

CLIP（核心思想）
- 并行图像编码器 + 文本编码器 → 投射到同一嵌入空间。
- 训练：计算所有图像-文本对相似度矩阵 → 对称交叉熵损失（行/列）。
先对齐后融合（CLIP增强版）
- 增强多模态编码器融合文本+图像嵌入。
- 三个优化目标：
  1. 图像-文本对比学习。
  2. 掩码语言建模（MLM）。
  3. 图像-文本匹配（ITM）。
- 动量蒸馏：为无/错文本描述提供伪标签。
- 性能：多任务基准优于CLIP。

局限：受数据稀疏性/不确定性制约。

4.4 生成式模型在多模态中的结合

4.4.1 多模态变分自编码器（VAE）

直接用于多模态数据。
更优策略：输入/潜在空间按模态划分（图像/文本独立VAE）。
ConTest VAE：
- 目标函数增加单模态重建 + 跨模态对比损失。
- 实验：性能 > 纯对比模型。

4.4.2 多模态扩散模型

文本生成倾向用Transformer，图像生成偏好扩散模型。
典型架构：文本编码器 + 图像扩散模型。

模型	特点
DALL·E	以CLIP嵌入空间为起点生成图像
Stable Diffusion	UNet编码器 + 感知损失 + 分块对抗训练
TryOnDiffusion	优化可控性 + 主体身份一致性 → 虚拟试穿

4.4.3 多模态大语言模型（MLLM）

支持文本+图像输入 → 文本输出。
自然语言接口表达多模态查询。

代表方法：InstructRec

输入：用户浏览网页实时截图序列。
流程：
1. 截图 → 多模态大模型顺序处理。
2. 生成结构化文本摘要（偏好总结）。
3. 计算摘要与候选物品文本属性的语义相似度 → 重排序推荐列表。
优势 vs 传统日志系统：
传统日志 InstructRec
非结构化，特征工程繁琐直接从截图捕获视觉注意力
可解释性弱结构化摘要易理解
难捕获外观/价格比较自然保留上下文

传统日志	InstructRec
非结构化，特征工程繁琐	直接从截图捕获视觉注意力
可解释性弱	结构化摘要易理解
难捕获外观/价格比较	自然保留上下文

4.5 检索增强生成式多模态推荐（组内工作，KDD 2025）

背景：高点击率图像（如外卖平台）有商业价值。
发现：食物背景与用户参与度正相关。

问题：

扩散模型微调成本高。
修复技术无法保证高点击率。
缺乏高效、可迁移的食品图像生成框架。

提出方法：检索增强生成器（RAG-based）

架构：基于Stable Diffusion + ControlNet。
流程：
1. 构建多样化背景食品图像数据库。
2. 检索：输入食物主体 → 找相似食物+高质量背景。
3. 条件生成：ControlNet以检索背景为条件引导合成。
4. 筛选：多模态点击率预测模型选最优图像。
线上实验：显著提升点击率。
消融研究：揭示不同策略/配置影响。

第五章　推荐系统评估

5.1 离线评估

5.1.1 性能指标

判别式任务：准确率（Recall@K, NDCG@K 等）。
生成式任务：BLEU, ROUGE, Perplexity, Diversity 等。
计算效率：
- 训练/推理代价。
- 示例：130B大模型总代价 ≈ 2100 GPU·天。

5.1.2 基准数据集

判别式推荐常用数据集在生成式任务中适用性有限。
更适合对话推荐场景的数据集已出现。
大模型基准（如MMLU）含推荐相关任务。

5.1.3 公平性评估

测量预训练大模型对保护属性（性别、种族）的敏感性。

5.2 在线评估（A/B测试）

维度	指标
业务指标	收入、转化率、参与度、时间消耗
用户影响	日/月活跃用户数、情感倾向
短期/长期	满意度、留存率
模拟评估	Agent模拟用户行为

5.3 对话式推荐评估

指标	说明
通用	BLEU, ROUGE, Perplexity
任务特定	召回率、响应多样性、相关性
大模型评估	作为奖励模型（Reward Model）
黄金标准	人工评估
工具包	CMSLEB（简化构建与评估）

工业挑战：标注缺失。

5.4 社会影响与安全评估

六大潜在危害（需评估）：

虚假信息传播
偏见放大
隐私泄露
成瘾性设计
操纵性推荐
社会极化

大模型领域已有整体性评估框架，需开发生成式推荐专用综合评估框架。

第六章　总结与展望

6.1 本文贡献

系统梳理生成式推荐在：
- 用户-物品交互
- 文本驱动
- 多模态场景
提出评估方法与挑战
列出未来研究主题：
- RAG优化
- 主动对话推荐
- 个性化内容生成
- 红队测试（安全性）

6.2 不足与建议

缺少针对推荐任务的优化策略对比分析。
数据与实验综述可更深入（补充性能提升量化）。

6.3 推荐系统发展趋势

维度	观察
模型层面	AI技术进步 → 推荐技术同步演进
任务层面	主流任务稳定，新技术催生新任务
数据层面	需针对场景特征优化通用方法：・旅游：引入距离・视觉：图像生成增强・动态：时间特征・群组推荐：新范式

第一章 综述背景与贡献​

论文整体框架​

与现有综述比较​

第二章 面向交互推荐的生成式模型​

2.1 自编码器（AE）模型​

2.1.1 去噪自编码器（DAE）​

2.1.2 变分自编码器（VAE）​

代表方法​

2.2 自回归（AR）模型​

2.2.1 循环自回归模型​

2.2.2 自注意力自回归模型​

2.3 生成对抗网络（GAN）​

代表方法​

2.4 扩散模型（Diffusion）​

代表方法​

第三章 基于大语言模型的推荐方法​

3.1 大模型作为文本编码器​

3.1.1 稠密检索模式​

3.1.2 融合编码模式​

3.2 推荐任务转为文本生成（Seq2Seq）​

3.2.1 Zero/Few-Shot生成​

3.2.2 微调为推荐语言模型​

3.2.3 解释生成​

3.3 检索增强生成（RAG）​

3.4 大模型作为特征提取器​

3.5 对话式推荐系统​

代表工作：TUTrack（2023）​

第四章 生成式多模态推荐系统​

4.1 多模态推荐的必要性​

4.1.1 冷启动问题​

4.1.2 跨模态理解用户请求​

4.1.3 其他多模态请求场景​

4.2 多模态推荐面临的挑战​

4.3 基于对比学习的多模态推荐​

4.3.1 主流方法：先对齐后融合​

4.4 生成式模型在多模态中的结合​

4.4.1 多模态变分自编码器（VAE）​

4.4.2 多模态扩散模型​

4.4.3 多模态大语言模型（MLLM）​

代表方法：InstructRec​

4.5 检索增强生成式多模态推荐（组内工作，KDD 2025）​

提出方法：检索增强生成器（RAG-based）​

第五章 推荐系统评估​

5.1 离线评估​

5.1.1 性能指标​

5.1.2 基准数据集​

5.1.3 公平性评估​

5.2 在线评估（A/B测试）​

5.3 对话式推荐评估​

5.4 社会影响与安全评估​

六大潜在危害（需评估）：​

第六章 总结与展望​

6.1 本文贡献​

6.2 不足与建议​

6.3 推荐系统发展趋势​

第一章　综述背景与贡献

论文整体框架

与现有综述比较

第二章　面向交互推荐的生成式模型

2.1 自编码器（AE）模型

2.1.1 去噪自编码器（DAE）

2.1.2 变分自编码器（VAE）

代表方法

2.2 自回归（AR）模型

2.2.1 循环自回归模型

2.2.2 自注意力自回归模型

2.3 生成对抗网络（GAN）

代表方法

2.4 扩散模型（Diffusion）

代表方法

第三章　基于大语言模型的推荐方法

3.1 大模型作为文本编码器

3.1.1 稠密检索模式

3.1.2 融合编码模式

3.2 推荐任务转为文本生成（Seq2Seq）

3.2.1 Zero/Few-Shot生成

3.2.2 微调为推荐语言模型

3.2.3 解释生成

3.3 检索增强生成（RAG）

3.4 大模型作为特征提取器

3.5 对话式推荐系统

代表工作：TUTrack（2023）

第四章　生成式多模态推荐系统

4.1 多模态推荐的必要性

4.1.1 冷启动问题

4.1.2 跨模态理解用户请求

4.1.3 其他多模态请求场景

4.2 多模态推荐面临的挑战

4.3 基于对比学习的多模态推荐

4.3.1 主流方法：先对齐后融合

4.4 生成式模型在多模态中的结合

4.4.1 多模态变分自编码器（VAE）

4.4.2 多模态扩散模型

4.4.3 多模态大语言模型（MLLM）

代表方法：InstructRec

4.5 检索增强生成式多模态推荐（组内工作，KDD 2025）

提出方法：检索增强生成器（RAG-based）

第五章　推荐系统评估

5.1 离线评估

5.1.1 性能指标

5.1.2 基准数据集

5.1.3 公平性评估

5.2 在线评估（A/B测试）

5.3 对话式推荐评估

5.4 社会影响与安全评估

六大潜在危害（需评估）：

第六章　总结与展望

6.1 本文贡献

6.2 不足与建议

6.3 推荐系统发展趋势