《行动胜于言语:万亿参数序列转导器用于生成式推荐》
1. 引言
Actions Speak Louder than Words: Trillion-Parameter Sequential Transducers for Generative Recommendations,发表于ICML 2024。该文由Meta AI的MRS(Meta Recommendation Systems )小组撰写,提出了一种新型推荐系统架构。该架构将推荐问题重构为生成式建模框架下的序列转导任务,不仅引入核心推荐算法,还在真实业务场景中实现了显著性能提升。
2. 背景
2.1 Meta AI与MRS小组
MRS小组是Meta在推荐系统、社交网络、内容分发及用户体验领域的核心部门,负责Instagram、WhatsApp和Facebook等平台的海量推荐系统模型研发、部署与优化。
Meta(前身为Facebook)于2021年更名,以反映其业务从社交媒体向虚拟现实等领域的扩展。Meta创始人马克·扎克伯格将推荐系统比作“地球上最大的软件引擎”,凸显其战略重要性。2024年7月,Meta AI启动人才引进计划,从OpenAI等公司招募多名研究人员(其中逾半为中国学者),组建Meta超级智能实验室。该举措进一步强调推荐系统作为Meta业务核心引擎的地位,以及该领域的巨大增长潜力。
2.2 推荐系统概述
推荐系统通常分为两个阶段:检索(retrieval)和排序(ranking)。检索阶段从海量数据中快速筛选出与用户兴趣相关的候选集(如针对对运动无兴趣的用户排除体育内容)。排序阶段则利用用户行为序列和上下文特征对这些候选进行精细评分(如基于近期活 动优先推送宠物相关内容而非蔬果)。
3. 现有架构
3.1 深度学习推荐模型(DLRM)
2019年,Facebook推出深度学习推荐模型(DLRM),这是工业界经典的深度学习推荐系统。该模型基于CPU+GPU训练平台,确立了推荐系统的标准范式。其架构处理两类特征:
- 稀疏特征:类别特征(如物品ID)通过嵌入(embedding)编码。
- 连续特征:数值特征(如点击率)转换为向量。
这些特征经多层感知机(MLP)处理为统一维度向量,随后通过交互层实现特征交叉,最终输出概率。DLRM采用模型并行和数据并行技术加速训练,在工程上高度实用。
DLRM将检索和排序分离:检索阶段处理粗粒度匹配,排序阶段整合更多特征进行精细评估。这种双塔式结构在早期推荐系统中广为应用,但后续优化研究(如多任务学习、特征交互增强)已持续近十年。
3.2 生成式模型的兴起
随着Transformer架构的流行,生成式模型在推荐系统中日益增多。该类模型以生成新输出为目标,而非单纯判别(如熟读唐诗三百首后能吟诗作赋)。典型示例包括NAR等模 型,将生成式思想融入推荐领域,提升了系统的泛化能力。
4. 传统系统的挑战
论文从三个维度分析传统推荐系统(尤其是DLRM)的不足:
- 缺乏显式结构特征:传统特征工程仅聚合异构特征(如类别ID和数值指标),无明确结构,导致关键信息淹没于冗余中。高基数类别特征(如用户ID、创作者ID)达数十亿维。
- 动态词汇表与非平稳性:推荐数据流式涌入(如每日新增商品),词汇表需实时更新(以天或小时为单位),远超自然语言的静态性。
- 计算限制:DLRM在算力充足下无法持续通过增加特征提升性能,存在饱和点。自注意力机制的O(N³d + N²d²)复杂度对长序列(每日达10⁵令牌)构成瓶颈,且印象级训练导致数据利用率低。
这些问题导致DLRM难以扩展至万亿参数规模,而生成式模型(如LLM)虽可随算力提升,但与DLRM的数据驱动优势难以融合。论文论证,推荐性能随算力呈幂律增长(scaling law),类似于LLM。
5. 解决方案与新范式
论文从Meta工业视角提出工业级解决方案:生成式推荐器(Generative Recommenders, GRs),将推荐重构为生成式序列转导任务。核心创新包括:
- 行为模态优先:标题“行动胜于言语”强调用户行为(actions)作为首要模态,序列化正负反馈交互(包含物品/用户ID、行为类型),摒弃数值特征,转而通过长序列隐式建模(如点击率)。
- 序列化统一:主序列记录高频互动(如物品交互),辅助序列捕捉慢变特征(如地理位置、社区归属,仅在变化时更新)。样本生成延迟至会话结束,减少冗余(复杂度降一个量级)。
- 检索与排序统一:交错序列(内容-动作)实现生成式处理:动作位预测内容(检索),内容位预测动作(排序)。正反馈加入序列,负反馈标记为空。
此范式系统解决特征/计算/推理冗余:复用算力实现一次前向多候选评估,节省资源用于复杂推理。在传统架构下叠加大模型不可行,但新范式支持整体系统优化。
6. 核心贡献
- 生成式推荐器(GRs):统一检索/排序于单序列生成流程,支持万亿参数规模。实验显示,在真实数据集上NDCG提升65.8%,推理速度较FlashAttention2-based Transformer快5.3x–15.2x。
- 分层序列转导单元(HSTU):新型编码器,采用点式聚合注意力(pointwise aggregated attention)、相对注意力偏差(relative attention bias)和元素级门控(element-wise gating),针对高基数、非平稳长序列优化。取代DLRM的特征提取/交互模块,支持2x更深网络。
- 效率优化:
- 随机长度(Stochastic Length, SL):训练中引入稀疏(达84%),复杂度降至O(N^α d),α∈(1,2],提升长序列泛化(NE降幅<0.1%)。
- M-FALCON算法:分批推理摊销排序成本,从O(b_m n² d)降至O((n + b_m)² d), 支持285x更复杂模型,吞吐量提升1.5x–3x。
- 部署成果:1.5万亿参数GRs在线A/B测试中指标提升12.4%。
- 扩展定律:GR性能随训练计算呈幂律增长(跨三个数量级,至GPT-3/LLaMA-2规模),首次证明该定律适用于推荐系统。
7. 模型细节:GR框架
GR框架统一推荐过程,将用户行为视为核心模态。传统DLRM需独立模块处理重复样本,而GR序列化建模:
- 特征划分:类别特征为主/辅助序列,数值特征隐式捕捉(长序列替代预聚合统计)。
- 自回归设定:Decoder底层交错动作-内容,实现早期交叉。检索:动作位生成候选内容;排序:内容位预测动作分布。
- 训练优化:会话级样本打包,监督仅正反馈,减少冗余计算。
- HSTU细节:残差连接层堆叠,包括点式投影、空间聚合(无softmax的归一化注意力)和点式变换(SiLU激活+层归一化)。相对偏差融入位置/时间信息,支持GPU优化。
与DLRM对比,GR主序列主导+辅助慢变,生成式检索/排序隐式学习数值特征。示例:序列“猫1-点赞、狗1-跳过、猫2-点击”后,动作位生成下一内容分布,经M-FALCON批处理候选动作。
此框架在减少重复计算的同时,提升监督信号密度,支持工业级扩展。