kaggle近三年NLP比赛top方案汇总及新赛推荐

NLP的赛题任务主要有文本分类、情感分析、关系抽取、文本匹配、阅读理解、问答系统等，自Google开发的NLP处理模型BERT被广泛应用后，目前解决NLP任务的首选方案就是深度学习方法（textCNN、LSTM、GRU、BiLSTM、Attention等），至于用哪种方法，得要看具体的比赛要求。

kaggle上NLP相关的比赛还是比较少的，我这次就整理了2021-2023近三年的NLP比赛，有缺漏欢迎大家补充，金牌方案也全部分享出来了。NLP方向的同学建议收藏。

整理好的比赛baseline以及开源代码合集文末直接领取

1.kaggle-LLM Science Exam大赛（大模型）

比赛链接：Kaggle - LLM Science Exam

比赛背景：随着大型语言模型能力范围的扩大，越来越多的研究领域正在使用LLM来表征自己。由于许多现有的 NLP 基准已被证明对于最先进的模型来说是微不足道的，因此也有一些有趣的工作表明LLM 可用于创建更具挑战性的任务来测试更强大的模型。

本次竞赛要求参与者回答由大型语言模型编写的基于科学的困难问题。参赛者的工作将帮助研究人员更好地了解大型语言模型自我测试的能力，以及大型语言模型可以在资源有限的环境中运行的潜力。

评估标准：提交根据平均精度 @ 3 （MAP@3）进行评估：

比赛时间：2023.7-2023.10

金牌方案：

竞赛尚未结束，10月10日最终提交截止，同学们注意时间啦！

2.kaggle-鸟类叫声识别大赛（语音识别）

比赛链接：BirdCLEF 2023 | Kaggle

比赛背景：鸟类是生物多样性变化的极好指标，因为它们具有高度流动性并且具有多样化的栖息地要求。因此物种组合和鸟类数量的变化可以表明恢复项目的成功或失败。然而经常对大面积进行传统的基于观察者的鸟类生物多样性调查是昂贵的，而且在后勤方面具有挑战性。相比之下，被动声学监测 (PAM) 与基于机器学习的新分析工具相结合，使保护主义者能够以更高的时间分辨率对更大的空间尺度进行采样，并深入探索恢复干预与生物多样性之间的关系。

在这次比赛中，你将使用先进的机器学习技能，通过声音识别东非鸟类物种。通过算法以处理连续的音频数据，并通过其呼叫来识别物种。尤其是一些低资源的鸟叫数据上。

评估标准：本次比赛的评估指标是 padded cmAP，它是 scikit-learn 实现的宏观平均精度分数的衍生物。

比赛时间：2023.3-2023.5

金牌方案：

第一名：BirdCLEF 2023 | Kaggle

第二名：BirdCLEF 2023 | Kaggle

第三名：BirdCLEF 2023 | Kaggle

第四名：BirdCLEF 2023 | Kaggle

第五名：BirdCLEF 2023 | Kaggle

第六名：BirdCLEF 2023 | Kaggle

第七名：BirdCLEF 2023 | Kaggle

第九名：BirdCLEF 2023 | Kaggle

3.kaggle-学生表现预测大赛（多模态）

比赛链接：Predict Student Performance from Game Play | Kaggle

比赛背景：学习意味着有趣，这就是基于游戏的学习的用武之地。这种教育方法允许学生在游戏框架内参与教育内容，使其愉快和动态。尽管基于游戏的学习正在越来越多的教育环境中使用，但可用于应用数据科学和学习分析原则来改进基于游戏的学习的开放数据集数量仍然有限。

本次竞赛旨在利用数据科学方法分析学生在游戏中的行为，从而预测他们的学术表现。如果成功，参赛者将使游戏开发人员能够改进教育游戏，并通过仪表板和分析工具进一步支持使用这些游戏的教育工作者。反过来，我们可能会看到对基于游戏的学习平台的更广泛支持。

评估标准：竞赛采用均方误差（Mean Squared Error, MSE）作为评估标准，以衡量参赛者构建的模型在预测学生学术表现方面的性能。

比赛时间：2023.2-2023.6

金牌方案：

第一名：Predict Student Performance from Game Play | Kaggle

第二名：Predict Student Performance from Game Play | Kaggle

第三名：Predict Student Performance from Game Play | Kaggle

第四名：Predict Student Performance from Game Play | Kaggle

第七名：Predict Student Performance from Game Play | Kaggle

第八名：Predict Student Performance from Game Play | Kaggle

第九名：Predict Student Performance from Game Play | Kaggle

第十名：Predict Student Performance from Game Play | Kaggle

第十三名：Predict Student Performance from Game Play | Kaggle

第十四名：Predict Student Performance from Game Play | Kaggle

4.kaggle-K12主题-内容检索大赛（文本分类）

比赛链接：Learning Equality - Curriculum Recommendations | Kaggle

比赛背景：目前将数字材料与国家课程保持一致的努力是手动的，需要时间、资源和课程专业知识，并且需要提高流程的效率，以实现可扩展性和可持续性。随着新材料的出现，它们需要额外的努力来重新调整，从而导致一个永无止境的过程。目前没有算法或其他人工智能干预措施来解决与改进课程调整过程相关的资源限制。

本次竞赛的目标是简化将教育内容与课程中的特定主题相匹配的过程。参赛者将开发一个准确有效的模型，该模型在K-12教育材料库上进行训练，这些材料已被组织成各种主题分类法。这些材料使用多种语言，涵盖广泛的主题，特别是在STEM（科学，技术，工程和数学）中。

评估标准：提交将根据其平均 F2 分数进行评估。均值以按样本方式计算，这意味着为每个预测行计算 F2 分数，然后取平均值。

比赛时间：2022.12-2023.3

金牌方案：

第一名：Learning Equality - Curriculum Recommendations | Kaggle

第二名：Learning Equality - Curriculum Recommendations | Kaggle

第三名：https://www.kaggle.com/competitions/learning-equality-curriculum-recommendations/discussion/394838

第四名：https://www.kaggle.com/competitions/learning-equality-curriculum-recommendations/discussion/394984

第五名：Learning Equality - Curriculum Recommendations | Kaggle

第六名：Learning Equality - Curriculum Recommendations | Kaggle

第九名：Learning Equality - Curriculum Recommendations | Kaggle

第十名：Learning Equality - Curriculum Recommendations | Kaggle

第十二名：Learning Equality - Curriculum Recommendations | Kaggle

5.kaggle-feedback英语学习者能力评估大赛（文本分类）

比赛链接：https://www.kaggle.com/competitions/feedback-prize-english-language-learning

比赛背景：现有工具无法根据学生的语言能力提供反馈，导致最终评估可能会对学习者产生不利影响。数据科学也许能够改进自动反馈工具，以更好地支持这些学习者的独特需求。

本次比赛的目的是评估8-12年级英语学习者（ELL）的语言能力。利用ELL撰写的论文数据集将有助于开发更好地支持所有学生的能力模型。

评估标准：提交使用 MCRMSE 评分，均值按列均方根误差：

比赛时间：2022.8-2022.11

金牌方案：

第一名：Feedback Prize - English Language Learning | Kaggle

第二名：https://www.kaggle.com/competitions/feedback-prize-english-language-learning/discussion/369369

第三名：Feedback Prize - English Language Learning | Kaggle

第四名：Feedback Prize - English Language Learning | Kaggle

第五名：https://www.kaggle.com/competitions/feedback-prize-english-language-learning/discussion/369578

第六名：https://www.kaggle.com/competitions/feedback-prize-english-language-learning/discussion/369567

第七名：https://www.kaggle.com/competitions/feedback-prize-english-language-learning/discussion/369736

第八名：Feedback Prize - English Language Learning | Kaggle

第九名：Feedback Prize - English Language Learning | Kaggle

第十名：Feedback Prize - English Language Learning | Kaggle

第十一名：Feedback Prize - English Language Learning | Kaggle

第十二名：Feedback Prize - English Language Learning | Kaggle

第十三名：Feedback Prize - English Language Learning | Kaggle

第十四名：Feedback Prize - English Language Learning | Kaggle

第十五名：Feedback Prize - English Language Learning | Kaggle

6.kaggle-feedback议论文评分大赛（AES任务）

比赛链接：Feedback Prize - Predicting Effective Arguments | Kaggle

比赛背景：目前有许多可用的自动写作反馈工具，但它们都有局限性，尤其是在议论文写作方面。现有的工具往往无法评估论证要素的质量，例如组织、证据和想法发展。最重要的是，由于成本高昂，教育工作者无法使用其中的许多写作工具，这在很大程度上影响了已经服务不足的学校。

目前有许多可用的自动写作反馈工具，但它们都有局限性，尤其是在议论文写作方面。现有的工具往往无法评估论证要素的质量，例如组织、证据和想法发展。最重要的是，由于成本高昂，教育工作者无法使用其中的许多写作工具，这在很大程度上影响了已经服务不足的学校。

评估标准：本次比赛的第一场比赛侧重于分类的准确性。此轨道的提交使用多类对数损失进行评估。

比赛时间：2022.5-2022.8

金牌方案：

第一名：Feedback Prize - Predicting Effective Arguments | Kaggle

第二名：Feedback Prize - Predicting Effective Arguments | Kaggle

第三名：Feedback Prize - Predicting Effective Arguments | Kaggle

第四名：Feedback Prize - Predicting Effective Arguments | Kaggle

第五名：Feedback Prize - Predicting Effective Arguments | Kaggle

第六名：Feedback Prize - Predicting Effective Arguments | Kaggle

第七名：Feedback Prize - Predicting Effective Arguments | Kaggle

第十一名：Feedback Prize - Predicting Effective Arguments | Kaggle

第十二名：Feedback Prize - Predicting Effective Arguments | Kaggle

7.kaggle-美国专利短语相似度大赛

比赛链接：U.S. Patent Phrase to Phrase Matching | Kaggle

比赛背景：美国专利商标局（USPTO）通过其开放数据门户提供世界上最大的科学、技术和商业信息库之一。专利是一种授予知识产权的形式，以换取公开披露新的和有用的发明。由于专利在授予之前经过密集的审查过程，并且由于美国的创新历史跨越了两个世纪和 11 万项专利，因此美国专利档案馆是数据量、质量和多样性的罕见组合。

在本次竞赛中，参赛者将在新颖的语义相似性数据集上训练模型，通过匹配专利文献中的关键短语来提取相关信息。在专利检索和审查过程中，确定短语之间的语义相似性至关重要，以确定发明之前是否被描述过。

评估标准：提交的方法会基于预测的相似度分数和实际的相似度分数之间的皮尔逊相关系数进行评估。

比赛时间：2022.3-2022.6

金牌方案：

第一名：U.S. Patent Phrase to Phrase Matching | Kaggle

第二名：U.S. Patent Phrase to Phrase Matching | Kaggle

第三名：U.S. Patent Phrase to Phrase Matching | Kaggle

第五名：U.S. Patent Phrase to Phrase Matching | Kaggle

第七名：U.S. Patent Phrase to Phrase Matching | Kaggle

第八名：U.S. Patent Phrase to Phrase Matching | Kaggle

第十名：U.S. Patent Phrase to Phrase Matching | Kaggle

第十一名：U.S. Patent Phrase to Phrase Matching | Kaggle

8.kaggle-临床患者病历评分大赛（ToKen分类）

比赛链接：NBME - Score Clinical Patient Notes | Kaggle

比赛背景：当您去看医生时，他们如何解释您的症状可以决定您的诊断是否准确。当他们获得许可时，医生已经有很多练习写病人笔记，记录病人的投诉历史、体格检查结果、可能的诊断和后续护理。学习和评估撰写患者笔记的技能需要其他医生的反馈，这是一个耗时的过程，可以通过添加机器学习来改进。然而，让医生对患者笔记检查进行评分需要大量时间，以及人力和财力资源。已经创建了使用自然语言处理的方法来解决这个问题，但是患者笔记仍然难以进行计算评分，因为特征可能以多种方式表达。

在本次竞赛中，参赛者将在患者笔记中确定特定的临床概念。具体来说，参赛者将开发一种自动化方法，将临床概念从考试量规（例如，“食欲减退”）映射到这些概念在医学生撰写的临床患者笔记中表达的各种方式（例如，“少吃”，“衣服更宽松”）。

评估标准：该比赛由微观平均F1分数评估。

比赛时间：2022.2-2022.5

金牌方案：

第一名：NBME - Score Clinical Patient Notes | Kaggle

第二名：NBME - Score Clinical Patient Notes | Kaggle

第三名：NBME - Score Clinical Patient Notes | Kaggle

第四名：NBME - Score Clinical Patient Notes | Kaggle

第五名：NBME - Score Clinical Patient Notes | Kaggle

第六名：NBME - Score Clinical Patient Notes | Kaggle

第七名：NBME - Score Clinical Patient Notes | Kaggle

第八名：NBME - Score Clinical Patient Notes | Kaggle

第九名：NBME - Score Clinical Patient Notes | Kaggle

第十一名：NBME - Score Clinical Patient Notes | Kaggle

9.kaggle-有毒性评论识别大赛

比赛链接：Jigsaw Rate Severity of Toxic Comments | Kaggle

比赛背景：一个容易得多的任务是询问个人他们认为两个评论中的哪一个更有毒。但如果两个评论都是无毒的，人们往往会随机选择。当一条评论显然是正确的选择时，注释者之间的协议结果要高得多。

在本次比赛中，我们将要求参赛者对一组大约一万四千条评论进行评分。成对的评论被提交给专家评估者，他们标记了两个评论中的一个更有害 - 每个评论都根据他们自己的毒性概念。在本次比赛中，当参赛者提供评论分数时，它们将与数十万个排名进行比较。参赛者与评分者的平均协议将决定个人分数。通过这种方式，我们希望专注于将评论毒性的严重程度从无害到令人发指进行排序，其中中间和极端一样重要。

评估标准：提交的内容根据与注释者的平均协议进行评估。

比赛时间：2021.11-2022.2

金牌方案：

第一名：Jigsaw Rate Severity of Toxic Comments | Kaggle

第二名：Jigsaw Rate Severity of Toxic Comments | Kaggle

第三名：Jigsaw Rate Severity of Toxic Comments | Kaggle

第四名：Jigsaw Rate Severity of Toxic Comments | Kaggle

第五名：Jigsaw Rate Severity of Toxic Comments | Kaggle

第六名：Jigsaw Rate Severity of Toxic Comments | Kaggle

第七名：Jigsaw Rate Severity of Toxic Comments | Kaggle

第九名：Jigsaw Rate Severity of Toxic Comments | Kaggle

第十名：Jigsaw Rate Severity of Toxic Comments | Kaggle

第十一名：Jigsaw Rate Severity of Toxic Comments | Kaggle

第十二名：Jigsaw Rate Severity of Toxic Comments | Kaggle

第十四名：Jigsaw Rate Severity of Toxic Comments | Kaggle

10.kaggle-文本复杂性识别大赛

比赛链接：CommonLit Readability Prize | Kaggle

比赛背景：目前，大多数教育文本都使用传统的可读性方法或市售公式与读者相匹配。但是，每个都有其问题。像Flesch-Kincaid Grade Level这样的工具基于文本解码的弱代理（即每个单词的字符或音节）和句法复杂性（即每个句子的数字或单词）。因此，它们缺乏结构和理论有效性。同时，市售公式（如 Lexile）可能成本高昂，缺乏合适的验证研究，并且在公式功能不公开时会遇到透明度问题。

在本次竞赛中，参赛者将构建算法来评估 3-12 年级课堂使用的阅读段落的复杂性。为此，参赛者需要将机器学习技能与数据集配对，该数据集包括来自各种年龄段的读者和从各个领域获取的大量文本。获胜的模型将确保包含文本凝聚力和语义。

评估标准：提交的内容根据均方根误差进行评分。RMSE 定义为：