Scaling Laws for Online Advertisement Retrieval
预备知识
核心思想
- 作者团队希望验证一下在广告场景下是否也有类似于 NLP 中的 scaling law, 即探究是否随着广告预测模型地增大, 是否能够有规律地提升一些线上指标. (因为关注的是实际的线上指标, 这也衍生出了一些独特的问题, 这里就不讲了).

- 注意到, 实际的推荐系统通常是包含多个阶段, 每个阶段可能还包含不同指标导向的模型, 因此相当复杂. 为了探究 scaling law, 作者团队主要针对 Pre-ranking 阶段探究一个排序模型 (MLPs):
- 特征: 同时包括 sparse 和 dense features, 对于 dense features 应用 log1p transformation.
- 模型: 5-layer 的 MLPs, 每一层包括一个 batch normalization, linear mapping 和 PReLU. 通过 He initialization 初始化权重.

- 如上图所示, FLOPs 和作者设定的指标 R/R* 随着 MLPs 变大所产生的变化情况, 可以通过 Broken Neural Scaling Law (BNSL) 的公式很好的拟合.
参考文献
- Wang Y., Yang Z., Zhang Z., Wang Z., Yang J.,
Wen S., Jiang P., and Gai K.
Scaling Laws for Online Advertisement Retrieval.
arXiv, 2024.
[PDF]
[Code]