《行动胜于言语:万亿参数序列转导器用于生成式推荐》
1. 引言
Actions Speak Louder than Words: Trillion-Parameter Sequential Transducers for Generative Recommendations,发表于ICML 2024。该文由Meta AI的MRS(Meta Recommendation Systems)小组撰写,提出了一种新型推荐系统架构。该架构将推荐问题重构为生成式建模框架下的序列转导任务,不仅引入核心推荐算法,还在真实业务场景中实现了显著性能提升。
2. 背景
2.1 Meta AI与MRS小组
MRS小组是Meta在推荐系统、社交网络、内容分发及用户体验领域的核心部门,负责Instagram、WhatsApp和Facebook等平台的海量推荐系统模型研发、部署与优化。
Meta(前身为Facebook)于2021年更名,以反映其业务从社交媒体向虚拟现实等领域的扩展。Meta创始人马克·扎克伯格将推荐系统比作“地球上最大的软件引擎”,凸显其战略重要性。2024年7月,Meta AI启动人才引进计划,从OpenAI等公司招募多名研究人员(其中逾半为中国学者),组建Meta超级智能实验室。该举措进一步强调推荐系统作为Meta业务核心引擎的地位,以及该领域的巨大增长潜力。
2.2 推荐系统概述
推荐系统通常分为两个阶段:检索(retrieval)和排序(ranking)。检索阶段从海量数据中快速筛选出与用户兴趣相关的候选集(如针对对运动无兴趣的用户排除体育内容)。排序阶段则利用用户行为序列和上下文特征对这些候选进行精细评分(如基于近 期活动优先推送宠物相关内容而非蔬果)。
3. 现有架构
3.1 深度学习推荐模型(DLRM)
2019年,Facebook推出深度学习推荐模型(DLRM),这是工业界经典的深度学习推荐系统。该模型基于CPU+GPU训练平台,确立了推荐系统的标准范式。其架构处理两类特征:
- 稀疏特征:类别特征(如物品ID)通过嵌入(embedding)编码。
- 连续特征:数值特征(如点击率)转换为向量。
这些特征经多层感知机(MLP)处理为统一维度向量,随后通过交互层实现特征交叉,最终输出概率。DLRM采用模型并行和数据并行技术加速训练,在工程上高度实用。
DLRM将检索和排序分离:检索阶段处理粗粒度匹配,排序阶段整合更多特征进行精细评估。这种双塔式结构在早期推荐系统中广为应用,但后续优化研究(如多任务学习、特征交互增强)已持续近十年。
3.2 生成式模型的兴起
随着Transformer架构的流行,生成式模型在推荐系统中日益增多。该类模型以生成新输出为目标,而非单纯判别(如熟读唐诗三百首后能吟诗作赋)。典型示例包括NAR 等模型,将生成式思想融入推荐领域,提升了系统的泛化能力。
4. 传统系统的挑战
论文从三个维度分析传统推荐系统(尤其是DLRM)的不足:
- 缺乏显式结构特征:传统特征工程仅聚合异构特征(如类别ID和数值指标),无明确结构,导致关键信息淹没于冗余中。高基数类别特征(如用户ID、创作者ID)达数十亿维。
- 动态词汇表与非平稳性:推荐数据流式涌入(如每日新增商品),词汇表需实时更新(以天或小时为单位),远超自然语言的静态性。
- 计算限制:DLRM在算力充足下无法持续通过增加特征提升性能,存在饱和点。自注意力机制的O(N³d + N²d²)复杂度对长序列(每日达10⁵令牌)构成瓶颈,且印象级训练导致数据利用率低。
这些问题导致DLRM难以扩展至万亿参数规模,而生成式模型(如LLM)虽可随算力提升,但与DLRM的数据驱动优势难以融合。论文论证,推荐性能随算力呈幂律增长(scaling law),类似于LLM。
5. 解决方案与新范式
论文从Meta工业视角提出工业级解决方案:生成式推荐器(Generative Recommenders, GRs),将推荐重构为生成式序列转导任务。核心创新包括:
- 行为模态优先:标题“行动胜于言语”强调用户行为(actions)作为首要模态,序列化正负反馈交互(包含物品/用户ID、行为类型),摒弃数值特征,转而通过长序列隐式建模(如点击率)。
- 序列化统一:主序列记录高频互动(如物品交互),辅助序列捕捉慢变特征(如地理位置、社区归属,仅在变化时更新)。样本生成延迟至会话结束,减少冗余(复杂度降一个量级)。
- 检索与排序统一:交错序列(内容-动作)实现生成式处理:动作位预测内容(检索),内容位预测动作(排序)。正反馈加入序列,负反馈标记为空。
此范式系统解决特征/计算/推理冗余:复用算力实现一次前向多候选评估,节省资源用于复杂推理。在传统架构下叠加大模型不可行,但新范式支持整体系统优化。
6. 核心贡献
- 生成式推荐器(GRs):统一检索/排序于单序列生成流程,支持万亿参数规模。实验显示,在真实数据集上NDCG提升65.8%,推理速度较FlashAttention2-based Transformer快5.3x–15.2x。
- 分层序列转导单元(HSTU):新型编码器,采用点式聚合注意力(pointwise aggregated attention)、相对注意力偏差(relative attention bias)和元素级门控(element-wise gating),针对高基数、非平稳长序列优化。取代DLRM的特征提取/交互模块,支持2x更深网络。
- 效率优化:
- 随机长度(Stochastic Length, SL):训练中引入稀疏(达84%),复杂度降至O(N^α d),α∈(1,2],提升长序列泛化(NE降幅<0.1%)。
- M-FALCON算法:分批推理摊销排序成本,从O(b_m n² d)降至O((n + b_m)² d),支持285x更复杂模型,吞吐量提升1.5x–3x。
- 部署成果:1.5万亿参数GRs在线A/B测试中指标提升12.4%。
- 扩展定律:GR性能随训练计算呈幂律增长(跨三个数量级,至GPT-3/LLaMA-2规模),首次证明该定律适用于推荐系统。
7. 模型细节:GR框架
GR框架统一推荐过程,将用户行为视为核心模态。传统DLRM需独立模块处理重复样本,而GR序列化建模:
- 特征划分:类别特征为主/辅助序列,数值特征隐式捕捉(长序列替代预聚合统计)。
- 自回归设定:Decoder底层交错动作-内容,实现早期交叉。检索:动作位生成候选内容;排序:内容位预测动作分布。
- 训练优化:会话级样本打包,监督仅正反馈,减少冗余计算。
- HSTU细节:残差连接层堆叠,包括点式投影、空间聚合(无softmax的归一化注意力)和点式变换(SiLU激活+层归一化)。相对偏差融入位置/时间信息,支持GPU优化。
与DLRM对比,GR主序列主导+辅助慢变,生成式检索/排序隐式学习数值特征。示例:序列“猫1-点赞、狗1-跳过、猫2-点击”后,动作位生成下一内容分布,经M-FALCON批处理候选动作。
此框架在减少重复计算的同时,提升监督信号密度,支持工业级扩展。
架构
1. HSTU(分层序列转导单元)
1.1 设计目标与背景
Meta AI团队为工业级推荐系统设计了分层序列转导单元(Hierarchical Sequential Transduction Unit, HSTU),以应对高基数、非平稳推荐流数据在大规模长序列条件下的挑战。HSTU的目标是实现可扩展性,同时保证训练和推理效率,适配万亿参数规模的生成式推荐器(Generative Recommenders, GR)。相较于传统Transformer架构,HSTU针对推荐系统的独特需求进行了深度优化,尤其在处理动态、长序列数据时表现出显著优势。
1.2 HSTU架构核心组件
HSTU通过堆叠多个层构建,每层之间采用残差连接(residual connections),包含以下三个主要组件:
- 点式投影层(Pointwise Projection Layer)
在传统自注意力机制的查询-键-值(Query-Key-Value, QKV)基础上,新增一个投影层,压缩用户长期历史行为信息。该层增强模型对长序列特征的理解能力,并在后续特征交互中实现信息筛选与增强。 - 点式聚合注意力(Pointwise Aggregated Attention)
取代传统Transformer的Softmax归一化注意力机制,点式聚合注意力不强制总和为1,允许更强的信息保留能力。这避免了Softmax导致的“稀释问题”(如用户90%关注服装、10%关注电子产品,Softmax可能过度放大次要兴趣)。该机制在动态、非平稳推荐场景(如特征表快速变化)中更稳定。 - 相对注意力偏置(Relative Attention Bias)
引入位置和时间偏置,提升模型对序列中行为位置的建模能力,增强对用户行为序列的上下文感知。
1.3 与Transformer的对比优势
相较于传统Transformer(文中称为“Transma”),HSTU在以下方面展现优势:
- 信息保留:点式聚合注意力避免Softmax归一化的信息损失,提升对高基数特征的建模能力。
- 稳定性:实验表明,Softmax在流式推荐环境中需10倍更低的学习率,且仍面临损失不稳定问题(训练损失波动)。HSTU通过点式聚合和偏置设计显著提高稳定性。
- 效率提升:HSTU通过分组矩阵乘法(Grouped GEMM)替代全连接注意力计算,结合GPU核融合(kernel fusion),实现2–5倍吞吐量提升。训练效率比FlashAttention2快15.2倍,推理效率快5.3–15.2倍。
实验结果显示,HSTU在公开数据集(如Movielens、Amazon)上的Top-10和Top-50命中率(HR@10、HR@50)及归一化折损累计增益(NDCG@10)均优于SASRec等经典模型,最高提升达20%–60%。
2. 优化策略
2.1 随机长度(Stochastic Length, SL)
为应对用户行为序列的长度不均(从几条到数千条)及高度冗余性,HSTU引入随机长度(SL)策略。核心思想是随机截取子序列(而非完整序列)进行训练,模拟行为冗余。例如,长期偏好猫视频的用户可能有数千条交互记录,SL可随机选取3000条,覆盖主要兴趣点。实验表明,SL稀疏率达84.4%(α=1.6),训练样本减少84.4%,而模型性能(NDCG)损失小于0.1%,显著降低计算开销。
2.2 内存优化
推荐系统需处理百亿级词汇表,内存是主要瓶颈。HSTU通过以下优化降低内存消耗:
- 线性层精简:将注意力层外的线性层从6个减少至2个,融合归一化(LayerNorm)与激活函数(SiLU),内存消耗从33D降至14D(降低超50%)。这允许HSTU支持两倍深度的网络。
- 优化器状态转移:采用ROPE(Rotary Position Embedding)并将优化器状态(如Adam状态)从GPU高速内存(HBM)转移至低速内存,每参数占用空间从12字节降至2字节。
2.3 M-FALCON算法
在排序阶段,HSTU面临数万候选项的高计算成本。论文提出M-FALCON算法,通过分批推理(mini-batch processing)和快速注意力机制(fast attention)结合缓存(cache)复用,将排序复杂度从降至,支持285倍更复杂模型。实验表明,M-FALCON在1024候选时提升1.5倍吞吐量,在16384候选时提升2.48倍,显著降低推理延迟。
3. 实验验证
3.1 公开数据集实验
实验采用Movielens和Amazon数据集,均为推荐系统领域权威基准:
- Movielens:数据干净,规模适中,适合验证序列建模。
- Amazon:数据量大,天然带有长尾效应,反映真实推荐环境的稀疏性和多样性。
HSTU在HR@10、HR@50和NDCG@10上全面优于SASRec等基线,最高提升60%。然而,公开数据集实验采用全洗牌(full shuffle)与多次遍历(multi-epoch)训练,不完全符合工业界单次遍历(single-pass)流式数据场景,学术说服力稍显不足。