中科大华为发布生成式推荐大模型：昇腾 NPU 可部署，背后认知一同公开-鑫昌软件园

中科大华为发布生成式推荐大模型：昇腾 NPU 可部署，背后认知一同公开

2025-04-07 17:53:34 小编：鑫昌软件园

推荐大模型也可生成式，并且首次在国产昇腾 NPU 上成功部署！

在信息爆炸时代，推荐系统已成为生活中不可或缺的一部分。Meta 率先提出了生成式推荐范式 HSTU，将推荐参数扩展至万亿级别，取得显著成果。

近期，中科大与华为合作开发了推荐大模型部署方案，可应用于多个场景。探索过程中还有哪些经验与发现？最新公开分享来了。

报告亮点包括：

总结推荐范式发展历程，指出具备扩展定律的生成式推荐范式是未来趋势；

复现并研究不同架构的生成式推荐模型及其扩展定律；通过消融实验和参数分析，解析 HSTU 的扩展定律来源，并赋予 SASRec 以可扩展性；

验证 HSTU 在复杂场景和排序任务中的表现及扩展性；

团队展望并总结未来研究方向。

具备扩展定律的生成式推荐范式正在成为未来趋势

如图 1 所示，推荐系统的发展趋势是逐渐减少对手工设计特征工程和模型结构的依赖。在深度学习兴起之前，受限于计算资源，人们倾向于使用手工设计的特征和简单模型（图 1A）。

随着深度学习的发展，研究者专注于复杂模型的设计，以更好地拟合用户偏好，并提升对 GPU 并行计算的利用率（图 1B）。

然而，随着深度学习能力的瓶颈，特征工程再次受到关注（图 1C）。

如今，大语言模型扩展定律的成功启发了推荐领域的研究者。扩展定律描述了模型性能与关键指标（如参数规模、数据集规模和训练资源）之间的幂律关系。通过增加模型深度和宽度，并结合大量数据，可以提升推荐效果（图 1D），这种方法被称为推荐大模型。

近期，HSTU 等生成式推荐框架在此方向取得了显著成果，验证了推荐领域的扩展定律，引发了生成式推荐大模型研究的热潮。团队认为，生成式推荐大模型正在成为颠覆当前推荐系统的下一个新范式。

在此背景下，探索哪些模型真正具备可扩展性，理解其成功应用扩展定律的原因，以及如何利用这些规律提升推荐效果，已成为当前推荐系统领域的热门课题。

基于不同架构的生成式推荐大模型扩展性分析

为了评估生成式推荐大模型在不同架构下的扩展性，团队对比了 HSTU、Llama、GPT 和 SASRec 四种基于 Transformer 的架构。

在三个公开数据集上，通过不同注意力模块数量下的性能表现进行分析（见表 1）。结果显示，当模型参数较小时，各架构表现相似，且最优架构因数据集而异。

然而，随着参数扩展，HSTU 和 Llama 的性能显著提升，而 GPT 和 SASRec 的扩展性不足。尽管 GPT 在其他领域表现良好，但在推荐任务上未达预期。团队认为，这是因为 GPT 和 SASRec 的架构缺乏专为推荐任务设计的关键组件，无法有效利用扩展定律。

生成式推荐模型的可扩展性来源分析

为了探究 HSTU 等生成式推荐模型的可扩展性来源，团队进行了消融实验，分别去除了 HSTU 中的关键组件：相对注意力偏移（RAB）、SiLU 激活函数，以及特征交叉机制。

实验结果（见表 2）显示，单一模块的缺失并未显著影响模型的扩展性，但 RAB 的移除导致性能明显下降，表明其关键作用。

为了进一步分析赋予模型扩展定律的因素，团队比较了 SASRec 与扩展性良好的 HSTU 和 Llama 的区别，发现主要差异在于 RAB 和注意力模块内的残差连接方式。

为验证这些差异是否为扩展性的关键，团队为 SASRec 引入了 HSTU 的 RAB，并调整其注意力模块的实现方式。

实验结果（见表 3）显示，单独添加 RAB 或修改残差连接并未显著改善 SASRec 的扩展性。然而，当同时修改两个组件后，SASRec 展现出良好的扩展性。这表明，残差连接模式与 RAB 的结合，为传统推荐模型赋予了扩展性，为未来推荐系统的扩展性探索提供了重要启示。

生成式推荐模型在复杂场景和排序任务中的表现

复杂场景中的表现

HSTU 在多域、多行为和辅助信息等复杂场景中表现出色。以多域为例，HSTU 在 AMZ-MD 的四个域中始终优于基线模型 SASRec 和 C2DSR（见表 4）。

与单域独立训练的 HSTU-single 相比，多域联合训练的 HSTU 表现更佳，证明了多域联合建模的优势。表 5 显示，HSTU 在多域行为数据上的扩展性显著，尤其在规模较小的场景如 Digital Music 和 Video Games 上。这表明 HSTU 在解决冷启动问题上具有潜力。

在排序任务中的表现

排序是推荐系统中重要的一环，团队深入探讨了生成式推荐模型在排序任务中的有效性和扩展性。正如表 6 所示，生成式推荐大模型在性能上显著优于 DIN 等传统推荐模型。尽管在小规模模型下，Llama 的表现优于 HSTU，但 HSTU 在扩展性方面更具优势，而 Llama 在扩展性上显得不足。

团队还研究了负采样率和评分网络架构对排序任务的影响，并进行了全面分析。此外，还探讨了缩减 embedding 维度对性能的影响。缩小 embedding 维度（表 7）提升了小数据集 ML-1M 和 AMZ-Books 的性能，但在大数据集 ML-20M 上则有所下降。这表明，推荐大模型的扩展定律不仅受垂直扩展（注意力模块数量）影响，也受水平规模（embedding 维度）影响。