快手在NeurIPS 2024顶级大赛中双杀，与1500多支国内外队伍同台竞技

2024-12-16 17:57:40 发布在软件教程58

1500多支国内外队伍同台竞技，快手在NeurIPS 2024顶级大赛中双杀

最近几天，学术圈的小伙伴们一定都在关注加拿大温哥华举办的机器学习顶级会议——NeurIPS 2024。本届会议于今日圆满结束，共收到 15671 篇有效论文投稿，比去年增长了 27%，最终接收率为 25.8%。

除了精彩的论文展示，本届会议还举办了一场备受瞩目的赛事——“NeurIPS 2024 Auto-Bidding in Large-Scale Auctions”（大规模拍卖中的自动出价）。这项赛事旨在探索强化学习、生成模型和 Agent 等前沿 AI 技术在广告投放和决策智能场景中的应用。

这场赛事不仅是业内首次广告出价比赛，也是 NeurIPS 2024 唯一的搜广推比赛，规格和含金量都非常高。因此，赛事吸引了超过 1500 支队伍参赛，其中包括国内外知名高校和公司、专业研究机构以及决策智能领域的知名团队。

比赛分为两个赛道：通用赛道和 AIGB（AI-Generated Bidding）赛道。通用赛道关注不确定环境中的自动出价，需要解决数据稀疏性、转化方差、多坑等不确定问题；AIGB 赛道则使用生成模型来学习自动出价 Agent，需要采用生成模型来端到端输出决策。

经过近半年的激烈角逐，快手商业化算法团队（简称快手团队）从千余支队伍中脱颖而出，包揽了两个赛道的第一名，成为本次赛事的最大赢家。

通用赛道

在通用赛道中，参赛者需要在大规模拍卖环境中做出有效的竞价决策，应对客户到达的随机性、转化预测的方差、数据稀疏性等问题。快手团队创新地提出了一种基于强化学习的在线探索技术方案。

1. 问题建模：基于竞胜率和多坑的曝光率，将问题建模成约束优化问题，并求解出离线最优出价系数。

2. 关系建模：建模出价系数与未来预期消耗及预期转化的关系，综合考虑稠密的先验转化和稀疏的后验转化。

3. 在线搜索：搭建竞价模拟器环境，学习不同出价对应的序列长期价值，基于离线最优出价系数划定区间进行采样，最终挑选出价值最优的出价系数。

AIGB 赛道

在 AIGB 赛道中，参赛者需要采用生成模型，将自动出价建模为生成式序列决策问题。快手团队选择了决策 Transformer 模型，并提出了一种 RTG 引导的出价系数探索方案——Decision Transformer with RTG-driven Explorations。

1. 模型选择：决策 Transformer 相比于扩散模型具有更强的目标对齐能力和更高的训练效率。

2. 探索方案：通过 RTG 引导的出价系数探索方案，保证探索性的同时兼顾安全性，增强模型学习。

广告投放的目的是将广告传递给受众，但实现这一目标需要考虑多个因素，如竞争出价、投放预算与成本、投放收益等。快手在广告推荐、预算分配策略、效果预估等方面进行了算法优化，特别是在自动出价调整方面。

快手的出价算法经历了从 PID、MPC 到强化学习的“三代”演化路径：

- PID（被动反馈式控制）：通过动态调整出价将广告平均成交价稳定在目标成交价，但对未来消耗和预期消耗没有预估和规划。

- MPC（Model Predictive Control）：引入对未来的预测，可以做出更精准的出价规划，但建模能力较弱，无法做出多步长期决策。

- 强化学习：建模能力大大增强，可以优化序列整体长期价值，根据实时市场环境变化调整出价，并预估长期广告效果。

目前，基于强化学习的自动出价模型已在快手广告系统全量推广，在成本达标不降约束下实现了 5% 以上的广告收入提升。

此次 NeurIPS 2024 大赛不仅展示了快手商业化算法团队的 AI 技术积累，也体现了他们在实际业务中的应用能力。参赛成员来自清华大学、香港中文大学、香港城市大学、南洋理工大学等国内外名校，他们在几个月的时间里克服了诸多难关，最终取得了双赛道夺冠的成绩。

参赛成员表示，通过这次比赛，他们对几类出价算法的优劣有了定性和定量的分析，并对未来出价技术的演进做出了清晰的判断。此外，比赛中的创新点在快手的广告业务中也得到了初步验证。

作为快手的核心算法部门，商业化算法团队负责国内及海外多场景的变现算法研发，致力于通过算法驱动商业营销增长，优化用户体验。团队在多个国际顶级会议如 KDD、ICLR、NeurIPS、CVPR 等发表论文，并在 CIKM 等赛事中屡获佳绩。