KDD 2023 获奖论文公布，港中文、港科大等获最佳论文奖

ACM SIGKDD（国际数据挖掘与知识发现大会，KDD）是数据挖掘领域历史最悠久、规模最大的国际顶级学术会议，也是首个引入大数据、数据科学、预测分析、众包等概念的会议。

今年，第29届 KDD 大会于上周在美国加州长滩圆满结束，大会包含研究方向（Research）和应用数据科学方向（Applied Data Science，ADS）两个 track，共公布了8篇获奖论文。

KDD最佳论文奖

研究方向

All in One: Multi-task Prompting for Graph Neural Networks

标题：All in One: 多任务提示用于图神经网络

作者：Xiangguo Sun, Hong Cheng, Jia Li, Bo Liu, Jihong Guan

内容：受自然语言处理(NLP)中提示学习的启发，提示学习在利用先验知识进行各种NLP任务方面展示了显著的有效性，我们研究图形提示的主题，目的是填补预训练模型和各种图形任务之间的差距。

在本文中，作者为图形模型提出了一种新的多任务提示方法。具体来说，首先使用提示词、词汇结构和插入模式统一了图形提示和语言提示的格式。通过这种方式，NLP中的提示想法可以无缝地引入图形领域。然后，为了进一步缩小各种图形任务与最先进的预训练策略之间的差距，作者进一步研究了各种图形应用的任务空间，并将下游问题重构为图形级任务。之后，作者引入元学习来有效地学习图形多任务提示的更好初始化。以便提示框架对不同的任务更可靠和通用。经实验，结果证明了该方法的优越性。

应用数据科学方向

Improving Training Stability for Multitask Ranking Models in Recommender Systems

标题：改进推荐系统中多任务排序模型的训练稳定性

作者：Jiaxi Tang, Yoel Drori, Daryl Chang, Maheswaran Sathiamoorthy, Justin Gilmer, Li Wei, Xinyang Yi, Lichan Hong, Ed H. Chi

内容：在本文中，作者分享了对改进YouTube推荐的真实世界多任务排序模型训练稳定性方面的发现和最佳实践，展示了导致模型训练不稳定的一些特性，并猜测原因。此外，根据作者对训练不稳定点附近的训练动态的观察，作者推测为什么现有的解决方案会失败，并提出了一种新的算法来缓解现有解决方案的局限性。在YouTube生产数据集上的实验表明，与几种常用的基线方法相比，所提出的算法可以显着改善训练稳定性而不损害收敛性。

KDD最佳学生论文奖

研究方向

Feature-based Learning for Diverse and Privacy-Preserving Counterfactual Explanations

标题：基于特征的学习方法用于生成多样且保护隐私的反事实解释

作者：Vy Vo, Trung Le, Van Nguyen, He Zhao, Edwin Bonilla, Gholamreza Haffari, Dinh Phung

内容：可解释的机器学习旨在理解长期以来因缺乏可解释性而臭名昭著的复杂黑盒系统的推理过程。一种繁荣的方法是通过反事实解释，它提供了建议，告诉用户可以做些什么来改变结果。反事实示例不仅必须反驳黑盒分类器的原始预测，还应满足实际应用的各种约束。多样性是讨论较少的关键约束之一，虽然多样的反事实解释是理想的，但同时满足一些其他约束在计算上具有挑战性。

此外，针对发布的反事实数据的隐私问题日益受到关注。为此，作者提出了一个基于特征的学习框架，可以有效处理反事实约束，并为有限的私密解释模型池贡献自身。作者展示了该方法在生成具有可行性和合理性的多样反事实解释方面的灵活性和有效性。与同等容量的对应部分相比，作者的反事实引擎更高效，而重新识别风险也最低。

KDD时间检验奖

研究方向

Auto-WEKA: Combined Selection and Hyperparameter Optimization of Classification Algorithms

标题：Auto-WEKA: 分类算法的组合选择和超参数优化

作者：Chris Thornton ,Frank Hutter, Holger H. Hoos, Kevin Leyton-Brown

内容：存在许多不同的机器学习算法，考虑到每个算法的超参数，总体上有令人难以置信的大量可能的替代方案。作者考虑同时选择学习算法并设置其超参数的问题，这超越了以前仅单独解决这些问题的工作。作者表明这个问题可以通过一个完全自动化的方法来解决，利用贝叶斯优化的最新创新。

具体而言，作者考虑了广泛的特征选择技术(组合3种搜索方法和8种评估方法)以及WEKA中实现的所有分类方法，跨越2种集成方法、10种元方法、27种基本分类器以及每个分类器的超参数设置。在来自UCI仓库、KDD Cup 09、MNIST数据集的变体和CIFAR-10的21个流行数据集上，作者展示的分类性能通常比使用标准选择/超参数优化方法好很多。

应用数据科学方向

Ad Click Prediction: A View From the Trenches

标题：广告点击预测：来自第一线的视角

作者：Hugh Brendan McMahan, Gary Holt, David Sculley, Michael Young, Dietmar Ebner, Julian Grady, Lan Nie, Todd Phillips, Eugene Davydov, Daniel Golovin, Sharat Chikkerur, Dan Liu, Martin Wattenberg, Arnar Mar Hrafnkelsson, Tom Boulos, Jeremy Kubica

内容：预测广告点击率(CTR)是在数十亿美元的在线广告业中处于核心地位的大规模学习问题。作者介绍了一些案例研究和话题，这些内容来自部署的CTR预测系统的最近实验。这包括在传统监督学习框架下的改进，该框架基于FTRL-Proximal在线学习算法(具有出色的稀疏性和收敛特性)以及每坐标学习率。

作者还探讨了一些在实际系统中出现但乍一看似乎不在传统机器学习研究领域内的挑战。这包括用于内存节省的有用技巧、评估和可视化性能的方法、为预测概率提供置信度估计的实际方法、校准方法以及自动管理特征的方法。本文的目标是强调理论进步与该工业环境下的实际工程之间的密切关系，并展示将传统机器学习方法应用于复杂动态系统时出现的深层挑战。

杰出论文奖

On the Predictive Power of Graph Neural Networks

标题：关于图神经网络的预测能力

作者：Weihua Hu

内容：在本论文中，作者旨在通过理解、改进和基准测试GNNs的预测能力来构建强大的预测性GNNs，预测能力指GNNs进行准确预测的能力。本文由三个部分组成。在第I部分中，作者为理解GNNs的预测能力开发了一个理论框架。具体关注表达能力，询问GNNs是否可以表达期望的图函数。作者使用理论框架为给定GNN是否足够强大提供洞见，以对数据中的地面真值目标函数建模。

作者还提出了一个可以证明对图的大多数函数建模的最大表达能力GNN模型。在配备了设计表达能力强的GNN模型的框架之后，在第II部分中，作者继续提高它们在未见/未标记的数据上的预测能力，即提高GNNs的泛化能力。出于实际应用的考虑，作者在两个常见的有限数据场景下开发了提高GNN泛化能力的方法：有限标签数据和有限边连接性。最后，在第III部分中，作者创建了新的图基准数据集，以解决现有基准的问题，并促进社区提高GNN的预测能力。

杰出论文奖（亚军）

Characterization and Detection of Disinformation Spreading in Online Social Networks

标题：在线社交网络中虚假信息传播的特征和检测

作者：Francesco Pierri

内容：在这项工作中，作者利用网络和计算机科学方法来解决在线社交网络中虚假信息传播的问题。关注Twitter和Facebook，研究在政治选举和新冠疫情等相关事件期间，虚假信息和其他恶意内容传播所涉及的机制和参与者，因为公众此时对可靠信息的需求更高。作者对主流和传统新闻网站发布的可靠信息与反复被曝光传播虚假信息、误导信息、恶作剧、假新闻和极端宣传的网站传播的不可靠信息进行了系统性比较。

作者建立了一个回归模型，考虑了人口统计学、社会经济和政治因素，发现在线虚假信息与疫苗结果之间存在显著关联。最后，基于上述分析的结果，作者部署了一种方法来准确分类Twitter上用户自然交互的新闻文章。按照用户根据分享内容塑造不同传播模式的直觉，训练和测试现成的机器学习分类器，可以对新闻文章的真实性进行分类，而无需查看其内容。