《行动胜于言语：万亿参数序列转导器用于生成式推荐》

1. 引言

Actions Speak Louder than Words: Trillion-Parameter Sequential Transducers for Generative Recommendations，发表于ICML 2024。该文由Meta AI的MRS（Meta Recommendation Systems）小组撰写，提出了一种新型推荐系统架构。该架构将推荐问题重构为生成式建模框架下的序列转导任务，不仅引入核心推荐算法，还在真实业务场景中实现了显著性能提升。

2. 背景

2.1 Meta AI与MRS小组

MRS小组是Meta在推荐系统、社交网络、内容分发及用户体验领域的核心部门，负责Instagram、WhatsApp和Facebook等平台的海量推荐系统模型研发、部署与优化。

Meta（前身为Facebook）于2021年更名，以反映其业务从社交媒体向虚拟现实等领域的扩展。Meta创始人马克·扎克伯格将推荐系统比作“地球上最大的软件引擎”，凸显其战略重要性。2024年7月，Meta AI启动人才引进计划，从OpenAI等公司招募多名研究人员（其中逾半为中国学者），组建Meta超级智能实验室。该举措进一步强调推荐系统作为Meta业务核心引擎的地位，以及该领域的巨大增长潜力。

2.2 推荐系统概述

推荐系统通常分为两个阶段：检索（retrieval）和排序（ranking）。检索阶段从海量数据中快速筛选出与用户兴趣相关的候选集（如针对对运动无兴趣的用户排除体育内容）。排序阶段则利用用户行为序列和上下文特征对这些候选进行精细评分（如基于近期活动优先推送宠物相关内容而非蔬果）。

3. 现有架构

3.1 深度学习推荐模型（DLRM）

2019年，Facebook推出深度学习推荐模型（DLRM），这是工业界经典的深度学习推荐系统。该模型基于CPU+GPU训练平台，确立了推荐系统的标准范式。其架构处理两类特征：

稀疏特征：类别特征（如物品ID）通过嵌入（embedding）编码。
连续特征：数值特征（如点击率）转换为向量。

这些特征经多层感知机（MLP）处理为统一维度向量，随后通过交互层实现特征交叉，最终输出概率。DLRM采用模型并行和数据并行技术加速训练，在工程上高度实用。

DLRM将检索和排序分离：检索阶段处理粗粒度匹配，排序阶段整合更多特征进行精细评估。这种双塔式结构在早期推荐系统中广为应用，但后续优化研究（如多任务学习、特征交互增强）已持续近十年。

3.2 生成式模型的兴起

随着Transformer架构的流行，生成式模型在推荐系统中日益增多。该类模型以生成新输出为目标，而非单纯判别（如熟读唐诗三百首后能吟诗作赋）。典型示例包括NAR等模型，将生成式思想融入推荐领域，提升了系统的泛化能力。

4. 传统系统的挑战

论文从三个维度分析传统推荐系统（尤其是DLRM）的不足：

缺乏显式结构特征：传统特征工程仅聚合异构特征（如类别ID和数值指标），无明确结构，导致关键信息淹没于冗余中。高基数类别特征（如用户ID、创作者ID）达数十亿维。
动态词汇表与非平稳性：推荐数据流式涌入（如每日新增商品），词汇表需实时更新（以天或小时为单位），远超自然语言的静态性。
计算限制：DLRM在算力充足下无法持续通过增加特征提升性能，存在饱和点。自注意力机制的O(N³d + N²d²)复杂度对长序列（每日达10⁵令牌）构成瓶颈，且印象级训练导致数据利用率低。

这些问题导致DLRM难以扩展至万亿参数规模，而生成式模型（如LLM）虽可随算力提升，但与DLRM的数据驱动优势难以融合。论文论证，推荐性能随算力呈幂律增长（scaling law），类似于LLM。

5. 解决方案与新范式

论文从Meta工业视角提出工业级解决方案：生成式推荐器（Generative Recommenders, GRs），将推荐重构为生成式序列转导任务。核心创新包括：

行为模态优先：标题“行动胜于言语”强调用户行为（actions）作为首要模态，序列化正负反馈交互（包含物品/用户ID、行为类型），摒弃数值特征，转而通过长序列隐式建模（如点击率）。
序列化统一：主序列记录高频互动（如物品交互），辅助序列捕捉慢变特征（如地理位置、社区归属，仅在变化时更新）。样本生成延迟至会话结束，减少冗余（复杂度降一个量级）。
检索与排序统一：交错序列（内容-动作）实现生成式处理：动作位预测内容（检索），内容位预测动作（排序）。正反馈加入序列，负反馈标记为空。

此范式系统解决特征/计算/推理冗余：复用算力实现一次前向多候选评估，节省资源用于复杂推理。在传统架构下叠加大模型不可行，但新范式支持整体系统优化。

6. 核心贡献

生成式推荐器（GRs）：统一检索/排序于单序列生成流程，支持万亿参数规模。实验显示，在真实数据集上NDCG提升65.8%，推理速度较FlashAttention2-based Transformer快5.3x–15.2x。
分层序列转导单元（HSTU）：新型编码器，采用点式聚合注意力（pointwise aggregated attention）、相对注意力偏差（relative attention bias）和元素级门控（element-wise gating），针对高基数、非平稳长序列优化。取代DLRM的特征提取/交互模块，支持2x更深网络。
效率优化：
- 随机长度（Stochastic Length, SL）：训练中引入稀疏（达84%），复杂度降至O(N^α d)，α∈(1,2]，提升长序列泛化（NE降幅<0.1%）。
- M-FALCON算法：分批推理摊销排序成本，从O(b_m n² d)降至O((n + b_m)² d)，支持285x更复杂模型，吞吐量提升1.5x–3x。
部署成果：1.5万亿参数GRs在线A/B测试中指标提升12.4%。
扩展定律：GR性能随训练计算呈幂律增长（跨三个数量级，至GPT-3/LLaMA-2规模），首次证明该定律适用于推荐系统。

7. 模型细节：GR框架

GR框架统一推荐过程，将用户行为视为核心模态。传统DLRM需独立模块处理重复样本，而GR序列化建模：

特征划分：类别特征为主/辅助序列，数值特征隐式捕捉（长序列替代预聚合统计）。
自回归设定：Decoder底层交错动作-内容，实现早期交叉。检索：动作位生成候选内容；排序：内容位预测动作分布。
训练优化：会话级样本打包，监督仅正反馈，减少冗余计算。
HSTU细节：残差连接层堆叠，包括点式投影、空间聚合（无softmax的归一化注意力）和点式变换（SiLU激活+层归一化）。相对偏差融入位置/时间信息，支持GPU优化。

与DLRM对比，GR主序列主导+辅助慢变，生成式检索/排序隐式学习数值特征。示例：序列“猫1-点赞、狗1-跳过、猫2-点击”后，动作位生成下一内容分布，经M-FALCON批处理候选动作。

此框架在减少重复计算的同时，提升监督信号密度，支持工业级扩展。

架构

1. HSTU（分层序列转导单元）

1.1 设计目标与背景

Meta AI团队为工业级推荐系统设计了分层序列转导单元（Hierarchical Sequential Transduction Unit, HSTU），以应对高基数、非平稳推荐流数据在大规模长序列条件下的挑战。HSTU的目标是实现可扩展性，同时保证训练和推理效率，适配万亿参数规模的生成式推荐器（Generative Recommenders, GR）。相较于传统Transformer架构，HSTU针对推荐系统的独特需求进行了深度优化，尤其在处理动态、长序列数据时表现出显著优势。

1.2 HSTU架构核心组件

HSTU通过堆叠多个层构建，每层之间采用残差连接（residual connections），包含以下三个主要组件：

点式投影层（Pointwise Projection Layer）
在传统自注意力机制的查询-键-值（Query-Key-Value, QKV）基础上，新增一个投影层，压缩用户长期历史行为信息。该层增强模型对长序列特征的理解能力，并在后续特征交互中实现信息筛选与增强。
点式聚合注意力（Pointwise Aggregated Attention）
取代传统Transformer的Softmax归一化注意力机制，点式聚合注意力不强制总和为1，允许更强的信息保留能力。这避免了Softmax导致的“稀释问题”（如用户90%关注服装、10%关注电子产品，Softmax可能过度放大次要兴趣）。该机制在动态、非平稳推荐场景（如特征表快速变化）中更稳定。
相对注意力偏置（Relative Attention Bias）
引入位置和时间偏置，提升模型对序列中行为位置的建模能力，增强对用户行为序列的上下文感知。

1.3 与Transformer的对比优势

相较于传统Transformer（文中称为“Transma”），HSTU在以下方面展现优势：

信息保留：点式聚合注意力避免Softmax归一化的信息损失，提升对高基数特征的建模能力。
稳定性：实验表明，Softmax在流式推荐环境中需10倍更低的学习率，且仍面临损失不稳定问题（训练损失波动）。HSTU通过点式聚合和偏置设计显著提高稳定性。
效率提升：HSTU通过分组矩阵乘法（Grouped GEMM）替代全连接注意力计算，结合GPU核融合（kernel fusion），实现2–5倍吞吐量提升。训练效率比FlashAttention2快15.2倍，推理效率快5.3–15.2倍。

实验结果显示，HSTU在公开数据集（如Movielens、Amazon）上的Top-10和Top-50命中率（HR@10、HR@50）及归一化折损累计增益（NDCG@10）均优于SASRec等经典模型，最高提升达20%–60%。

2. 优化策略

2.1 随机长度（Stochastic Length, SL）

为应对用户行为序列的长度不均（从几条到数千条）及高度冗余性，HSTU引入随机长度（SL）策略。核心思想是随机截取子序列（而非完整序列）进行训练，模拟行为冗余。例如，长期偏好猫视频的用户可能有数千条交互记录，SL可随机选取3000条，覆盖主要兴趣点。实验表明，SL稀疏率达84.4%（α=1.6），训练样本减少84.4%，而模型性能（NDCG）损失小于0.1%，显著降低计算开销。

2.2 内存优化

推荐系统需处理百亿级词汇表，内存是主要瓶颈。HSTU通过以下优化降低内存消耗：

线性层精简：将注意力层外的线性层从6个减少至2个，融合归一化（LayerNorm）与激活函数（SiLU），内存消耗从33D降至14D（降低超50%）。这允许HSTU支持两倍深度的网络。
优化器状态转移：采用ROPE（Rotary Position Embedding）并将优化器状态（如Adam状态）从GPU高速内存（HBM）转移至低速内存，每参数占用空间从12字节降至2字节。

2.3 M-FALCON算法

在排序阶段，HSTU面临数万候选项的高计算成本。论文提出M-FALCON算法，通过分批推理（mini-batch processing）和快速注意力机制（fast attention）结合缓存（cache）复用，将排序复杂度从 $O (b_{m} n^{2} d)$ 降至 $O ((n + b_{m})^{2} d)$ ，支持285倍更复杂模型。实验表明，M-FALCON在1024候选时提升1.5倍吞吐量，在16384候选时提升2.48倍，显著降低推理延迟。

3. 实验验证

3.1 公开数据集实验

实验采用Movielens和Amazon数据集，均为推荐系统领域权威基准：

Movielens：数据干净，规模适中，适合验证序列建模。
Amazon：数据量大，天然带有长尾效应，反映真实推荐环境的稀疏性和多样性。

HSTU在HR@10、HR@50和NDCG@10上全面优于SASRec等基线，最高提升60%。然而，公开数据集实验采用全洗牌（full shuffle）与多次遍历（multi-epoch）训练，不完全符合工业界单次遍历（single-pass）流式数据场景，学术说服力稍显不足。

3.2 工业场景实验

为贴近工业场景，Meta在内部流式数据集（1000亿样本，64–256张H100 GPU）上测试HSTU，采用归一化熵（NE）作为核心指标（NE越低越好，下降0.001对应线上指标提升0.5%）。结果显示：

召回任务：HSTU的Log Popularity（预测不确定性）最低，优于Transformer、SASRec等基线。
排序任务：HSTU在异构（Heterogeneous）和C类（C-oriented）排序任务中NE最优，整体提升18.6%（召回6.2% + 排序12.4%），CTR提升9.4%（召回5.0% + 排序4.4%）。
在线A/B测试：HSTU替换现有召回路径后，Itas指标提升6.2%，C指标提升5.0%；作为新增召回路径，效果略低但仍为正向收益。

3.3 消融实验

特征消融：仅保留GR核心特征（剔除DLRM冗余特征）后，DLRM性能显著下降，证明GR架构在特征选择上的优势。
仅行为属性：仅建模正反馈（忽略负反馈如未点击曝光）导致召回效果大幅下降，凸显负反馈建模的重要性。
仅交互项：仅考虑用户交互项（忽略非交互曝光）效果优于DLRM但低于GR，表明GR序列建模充分利用正负反馈。

3.4 Scaling Law验证

HSTU和GR展现类似LLM的幂律扩展规律（scaling law）。传统DLRM在算力增加到一定程度后性能饱和，而GR随每日训练预算（而非单次预算）增长持续提升。长序列建模（每日10⁵令牌）捕捉更多上下文依赖，性能随序列长度线性增强，打破DLRM的分块架构瓶颈。

4. 结论与未来展望

4.1 核心贡献总结

GR框架：统一检索与排序于生成式序列转导，性能提升18.6%（Itas）与9.4%（CTR），推理速度比FlashAttention2快5.3–15.2倍。
HSTU架构：点式聚合注意力、相对偏置与分组计算支持万亿参数规模，训练效率提升15.2倍，推理效率提升5.6倍。
工业部署：在Meta流式数据上实现显著提升，验证了GR在真实场景的可扩展性。
隐私与长期目标：GR减少对短期特征依赖，融入用户长期行为建模，提升隐私保护与内容一致性，减少点击诱导内容。
可持续发展：通过内存优化与M-FALCON降低碳足迹，支持可持续模型开发。

4.2 未来意义

GR与HSTU为推荐系统奠定了基础模型（foundation model）方向，预计将成为未来多年研究的标杆。其架构合理性与高效性为工业级推荐系统提供了新范式。小红书和拼多多2025年的相关工作（如序列推荐优化）可作为进一步阅读参考。

1. 引言​

2. 背景​

2.1 Meta AI与MRS小组​

2.2 推荐系统概述​

3. 现有架构​

3.1 深度学习推荐模型（DLRM）​

3.2 生成式模型的兴起​

4. 传统系统的挑战​

5. 解决方案与新范式​

6. 核心贡献​

7. 模型细节：GR框架​

架构

1. HSTU（分层序列转导单元）​

1.1 设计目标与背景​

1.2 HSTU架构核心组件​

1.3 与Transformer的对比优势​

2. 优化策略​

2.1 随机长度（Stochastic Length, SL）​

2.2 内存优化​

2.3 M-FALCON算法​

3. 实验验证​

3.1 公开数据集实验​

3.2 工业场景实验​

3.3 消融实验​

3.4 Scaling Law验证​

4. 结论与未来展望​

4.1 核心贡献总结​

4.2 未来意义​