大模型数据集全面整理:444个数据集下载地址

news2025/2/11 18:52:34

本文针对Datasets for Large Language Models: A Comprehensive Survey 中的 444 个数据集(涵盖8种语言类别和32个领域)进行完整下载地址整理收集。

2024-02-28,由杨刘、曹家欢、刘崇宇、丁凯、金连文等作者编写,深入探讨了大型语言模型数据集,这些数据集在大语言模型中取得的显著进步中发挥着至关重要的作用。

调查从五个方面对LLM的 444个 数据集进行了整理和分类:

一、预训练语料库(59个):

49个 通用预训练语料库

10个 领域特定预训练语料库

二、指令微调数据集(103个)

69个通用指令微调数据集

34个特定领域指令微调数据集

三、偏好数据集 (16个)

16个偏好数据集

四、评估数据集(112个)

112个评估数据集

五、传统自然语言处理(NLP)数据集(154个)

37个阅读理解数据集、 13个知识问答数据集、13个推理问答数据集

10个识别文本蕴含数据集、9个数学数据集、6个共指消解数据集

4个情感分析数据集、10个语义匹配数据集、4个文本生成数据集

3个文本翻译数据集、 14个文本摘要数据集、6个文本分类数据集

4个文本质量评估数据集、4个文本转代码数据集、10个命名实体识别数据集

4个关系抽取数据集、3个多任务数据集信息汇总

一、Pre-training Corpora (预训练语料库)

预训练语料库是在预训练过程中使用的文本数据的大型集合LLMs。在所有类型的数据集中,预训练语料库的规模通常是最大的。在预训练阶段,LLMs从大量未标记的文本数据中学习广泛的知识,然后将其存储在其模型参数中。它能够LLMs拥有一定程度的语言理解和生成能力。预训练语料库可以包含各种类型的文本数据,例如网页、学术材料、书籍,同时还可以容纳来自不同领域的相关文本,例如法律文件、年度财务报告、医学教科书和其他特定领域的数据

49个通用预训练语料库(General Pre-training Corpora)

通用预训练语料库由来自不同领域和主题的大量文本数据组成,例如网页(Webpages)、语言文本(Language Texts)、书籍(Books)、学术材料(Academic Materials)、代码(Code)、平行语料库(Parallel Corpus)、社交媒体(Social Media)、百科全书(Encyclopedia)等。这类语料库的目标是为 NLP 任务提供通用的语言知识和数据资源。

49个 通用预训练语料库:

语料库:ANC

数据集地址:ANC|语料库数据集|自然语言处理数据集

语料库:Anna’s Archive

数据集地址:Anna’s Archive|学术资源数据集|版权数据集

语料库:ArabicText 2022

数据集地址:ArabicText 2022|阿拉伯语数据集|语言模型训练数据集

语料库:arXiv

数据集地址:arXiv

语料库:Baidu baike

数据集地址:Baike2018qa|问答系统数据集|预训练数据集数据集

语料库:BIGQUERY

数据集地址:BigQuery Public Datasets|公共数据集数据集|数据分析数据集

语料库:BNC

数据集地址:British National Corpus (BNC)|语言学数据集|语料库数据集

语料库:BookCorpusOpen

数据集地址:defunct-datasets/bookcorpusopen|自然语言处理数据集|文本生成数据集

语料库:CC-Stories

数据集地址:spacemanidol/cc-stories|自然语言处理数据集|文本分析数据集

语料库:CC100

数据集地址:statmt/cc100|自然语言处理数据集|语言模型预训练数据集

语料库:CLUECorpus2020

数据集地址:statmt/cc100|自然语言处理数据集|语言模型预训练数据集

语料库:Common Crawl

数据集地址:Common Crawl|网络爬取数据集|文本挖掘数据集

语料库:CulturaX

数据集地址:CulturaX|多语言数据集数据集|语言模型训练数据集

语料库:C4

数据集地址:allenai/c4|网络爬取数据集|文本分析数据集

语料库:Dolma

数据集地址:allenai/dolma|自然语言处理数据集|机器学习数据集

语料库:Github

数据集地址:Github|代码托管数据集|开源项目数据集

语料库:mC4

数据集地址:legacy-datasets/mc4|多语言数据集数据集|语言模型预训练数据集

语料库:MNBVC

数据集地址:liwu/MNBVC

语料库:MTP

数据集地址:BAAI-MTP|机器翻译数据集|文本分析数据集

语料库:MultiUN

数据集地址:MultiUN|平行语料库数据集|语言技术数据集

语料库:News-crawl

数据集地址:News-crawl|多语言新闻数据集|机器翻译数据集

语料库:OpenWebText

数据集地址:Skylion007/openwebtext|自然语言处理数据集|语言模型训练数据集

语料库:OSCAR

数据集地址:OSCAR|自然语言处理数据集|机器学习数据集

语料库:ParaCrawl

数据集地址:ParaCrawl/para_crawl|多语言翻译数据集|机器翻译数据集

语料库:PG-19

数据集地址:deepmind/pg19|语言建模数据集|长范围序列建模数据集

语料库:phi-1

数据集地址: teleprint-me/phi-1|教育数据集|自然语言处理数据集

语料库:Project Gutenberg

数据集地址: Project Gutenberg|电子书数据集|公共领域数据集

语料库:Pushshift Reddit

数据集地址: Pushshift Reddit|社交媒体分析数据集|文本挖掘数据集

语料库:RealNews

数据 集地址:RealNews|新闻分析数据集|数据挖掘数据集

语料库:Reddit

数据集地址:Reddit|社交网络分析数据集|机器学习数据集

语料库:RedPajama-V1

数据集地址:togethercomputer/RedPajama-Data-1T

语料库:RedPajama-V2

数据集地址:togethercomputer/RedPajama-Data-V2|文本处理数据集|语言模型训练数据集

语料库:RefinedWeb

数据集地址:tiiuae/falcon-refinedweb|网络数据数据集|文本挖掘数据集

语料库:ROOTS

数据集地址:ROOTS Corpus|多语言数据集数据集|语言模型训练数据集

语料库:Smashwords

数据集地址:Smashwords|电子书出版数据集|语料库数据集

语料库:StackExchange

数据集地址:stackexchange_stats|在线社区数据集|用户交互数据集

语料库:S2ORC

数据集地址:S2ORC|学术研究数据集|文本挖掘数据集

语料库:The Pile

数据集地址:EleutherAI/pile

语料库:The Stack

数据集地址:The Stack v2|编程语言数据集|源代码分析数据集

语料库:TigerBot pretrain en

数据集地址:TigerResearch/pretrain_en|自然语言处理数据集|预训练模型数据集

语料库:TigerBot pretrain zh

数据集地址:TigerResearch/pretrain_zh|对话系统数据集|预训练数据集数据集

语料库:TigerBot-wiki

数据集地址:TigerResearch/tigerbot-cmu-wiki-en|问答系统数据集|自然语言处理数据集

语料库:Toronto Book Corpus

数据集地址:bookcorpus/bookcorpus|文本生成数据集|语言模型数据集

语料库:UNCorpus v1.0

数据集地址:联合国中英对照语料UNv1.0.en-zh.tar|语言资源数据集|联合国数据集

语料库:WanJuanText-1.0

数据集地址:WanJuan1.0(万卷多模态)|多模态学习数据集|预训练数据集数据集

语料库:WebText

数据集地址:WebText|文本挖掘数据集|网络分析数据集

语料库:Wikipedia

数据集地址:Wikipedia Dump|维基百科数据集|XML数据数据集

语料库:WuDaoCorpora-Text

数据集地址:WuDaoCorpora Text文本预训练数据集|自然语言处理数据集|文本预训练数据集

语料库:Zhihu

数据集地址:zhihu|社交媒体数据集|知识分享数据集

10个领域特定预训练语料库 (Domain-specific Pre-training Corpora)

特定领域的预训练语料库的领域类别

领域特定预训练语料库仅包含特定领域或主题的相关数据,例如金融领域(Financial Domain)、医疗领域(Medical Domain)、其他领域(Other Domains)等。这类语料库的目标是为 LLM 提供特定领域的专业知识。

      

语料库:BBT-FinCorpus

数据集地址:BBT-FinCorpus|金融NLP数据集|预训练数据集数据集

语料库:FinCorpus

数据集地址:Duxiaoman-DI/FinCorpus|金融资讯数据集|教育培训数据集

语料库:FinGLM

数据集地址:FinGLM|金融数据集|人工智能数据集

语料库:Medical-pt

数据集地址:shibing624/medical|医疗,偏好数据集数据集

语料库:Proof-Pile-2

数据集地址:EleutherAI/proof-pile-2|机器学习数据集|人工智能数据集

语料库:PubMed Central

数据集地址:Pile-PubMed_Central|自然语言处理数据集|生物医学文献数据集

语料库:TigerBot-earning

数据集地址:TigerResearch/tigerbot-earning-plugin|财务报告分析数据集|机器学习数据集

语料库:TigerBot-law

数据集地址:TigerResearch/tigerbot-law-plugin|法律知识管理数据集|自动化法律服务数据集

语料库:TigerBot-research

数据集地址:TigerResearch/tigerbot-research-plugin|机器学习数据集|研报数据数据集

语料库:TransGPT-pt

数据集地址:TransGPT-pt

预训练语料库的预处理 通常包括以下步骤:

      预训练语料库的预处理流程图

二、Instruction Fine-tuning Datasets(指令微调数据集)

指令类别

指令可以分为15种主要类别,包括:推理(Reasoning)、数学(Math)、头脑风暴 (Brainstorming)、闭卷问答 (Closed QA)、开放问答 (Open QA)、代码 (Code)、提取 (Extraction)、生成 (Generation)、改写 (Rewrite)、

摘要 (Summarization)、分类 (Classification)、翻译 (Translation)、角色扮演 (Role-playing)、社会规范 (Social Norms)、其他 (Others)。

指令类别摘要

数据集构建方法

Instruction Fine-tuning Datasets 可以通过以下四种方法构建:

人工生成 (HG): 由人类标注者手动创建指令,无需模型辅助。

模型构建 (MC): 利用 LLM 生成指令,例如使用 Self-Instruct 方法。

现有数据集收集和改进 (CI): 整合和改进现有开源数据集。

多种方法结合 (HG & CI & MC): 结合上述三种方法的优势。

通用指令微调数据集对应的构建方法

69个通用指令微调数据集如下:

数据集:Alpaca data

数据集地址:tatsu-lab/alpaca|自然语言处理数据集|指令学习数据集

数据集:Alpaca GPT4 data

数据集地址:vicgalle/alpaca-gpt4|自然语言处理数据集|机器学习数据集

数据集:Alpaca GPT4 data zh

数据集地址:shibing624/alpaca-zh|自然语言处理数据集|语言模型数据集

数据集:Aya Collection

数据集地址:CohereForAI/aya_collection|多语言处理数据集|自然语言处理数据集

数据集:Aya Dataset

数据集地址:CohereForAI/aya_dataset|多语言处理数据集|大型语言模型数据集

数据集:Bactrain-X

数据集地址:MBZUAI/Bactrian-X|多语言数据集|文本生成数据集

数据集:Baize

数据集地址:linkanjarad/baize-chat-data|聊天机器人数据集|文本生成数据集

数据集:BELLE Generated Chat

数据集地址:BelleGroup/generated_chat_0.4M|自然语言处理数据集|角色生成数据集

数据集:BELLE Multiturn Chat

数据集地址:BelleGroup/multiturn_chat_0.8M|对话系统数据集|自然语言处理数据集

数据集:BELLE train 0.5M CN

数据集地址:BelleGroup/train_0.5M_CN|自然语言处理数据集|中文语言模型数据集

数据集:BELLE train 1M CN

数据集地址:BelleGroup/train_1M_CN|自然语言处理数据集|文本生成数据集

数据集:BELLE train 2M CN

数据集地址:BelleGroup/train_2M_CN|自然语言处理数据集|中文语音识别数据集

数据集:BELLE train 3.5M CN

数据集地址:BelleGroup/train_3.5M_CN|自然语言处理数据集|文本生成数据集

数据集:CAMEL

数据集地址:CAMEL|多语言对话数据集|代码生成数据集

数据集:ChatGPT corpus

数据集地址:chatgpt-corpus|自然语言处理数据集|数据训练数据集

数据集:COIG

数据集地址:COIG-CQIA|自然语言处理数据集|指令微调数据集

数据集:CrossFit

数据集地址:CrossFit|自然语言处理数据集|少样本学习数据集

数据集:databricks-dolly-15K

数据集地址:databricks/databricks-dolly-15k|自然语言处理数据集|文本生成数据集

数据集:DialogStudio

数据集地址:DialogStudio|对话技术数据集|数据集资源数据集

数据集:Dynosaur

数据集地址:Dynosaur/dynosaur-full

数据集:Firefly

数据集地址:YeungNLP/firefly-train-1.1M|自然语言处理数据集|对话系统数据集

数据集:Flan-mini

数据集地址:declare-lab/flan-mini|自然语言处理数据集|编程语言理解数据集

数据集:Flan 2021

数据集地址:Flan 2021|自然语言处理数据集|机器学习数据集

数据集:Flan 2022

数据集地址:philschmid/flanv2

数据集:GPT4All

数据集地址:GPT4all|自然语言处理数据集|指令数据集数据集

数据集:GuanacoDataset

数据集地址:GuanacoDataset|自然语言处理数据集|跨语言任务数据集

数据集:HC3

数据集地址:Hello-SimpleAI/HC3|自然语言处理数据集|人工智能对话系统数据集

数据集:InstructDial

数据集地址:InstructDial|对话系统数据集|自然语言处理数据集

数据集:InstructGPT-sft

数据集地址:InstructGPT-sft

数据集:InstructionWild v1

数据集地址:InstructionWild v1|自然语言处理数据集|指令生成数据集

数据集:InstructionWild v2

数据集地址:InstructionWild v2|自然语言处理数据集|指令理解数据集

数据集:LaMini-LM

数据集地址:MBZUAI/LaMini-instruction|文本生成数据集|语言模型微调数据集

数据集:LCCC

数据集地址:thu-coai/lccc|中文对话数据集|数据清洗数据集

数据集:LIMA-sft

数据集地址:undefined|机器学习数据集|自然语言处理数据集

数据集:LMSYS-Chat-1M

数据集地址:LMSYS-Chat-1M|语言模型数据集|对话数据数据集

数据集:LogiCoT

数据集地址:LogiCoT|逻辑推理数据集|自然语言处理数据集

数据集:LongForm

数据集地址:LongForm|自然语言处理数据集|指令生成数据集

数据集:Luotuo-QA-B

数据集地址:遇见数据集-让每个数据集都被发现,让每一次遇见都有价值

数据集:MOSS 002 sft data

数据集地址:fnlp/moss-002-sft-data|对话系统数据集|文本生成数据集

数据集:MOSS 003 sft data

数据集地址:fnlp/moss-003-sft-data|对话系统数据集|自然语言处理数据集

数据集:MOSS 003 sft plugin data

数据集地址:moss-003-sft-plugin-data|多轮对话数据集|插件增强数据集

数据集:NATURAL INSTRUCTIONS

数据集地址:Natural Instructions|自然语言处理数据集|机器学习数据集

数据集:OASST1

数据集地址:OpenAssistant/oasst1|自然语言处理数据集|数据科学数据集

数据集:OIG

数据集地址:laion/OIG|自然语言处理数据集|机器学习数据集

数据集:OL-CC

数据集地址:lorinma/BAAI_OL-CC|中文问答数据集|对话系统数据集

数据集:OpenChat

数据集地址:openchat/openchat_sharegpt4_dataset|自然语言处理数据集|机器学习数据集

数据集:OpenOrca

数据集地址:Open-Orca/OpenOrca|自然语言处理数据集|机器学习模型训练数据集

数据集:Open-Platypus

数据集地址:garage-bAInd/Open-Platypus|自然语言处理数据集|机器学习数据集

数据集:OPT-IML Bench

数据集地址:OPT-IML Bench|自然语言处理数据集|指令微调数据集

数据集:Phoenix-sft-data-v1

数据集地址:Phoenix-sft-data-v1|多语言对话数据集|自然语言处理数据集

数据集:PromptSource

数据集地址:PromptSource|自然语言处理数据集|提示工程数据集

数据集:RedGPT-Dataset-V1-CN

数据集地址:RedGPT 通过参考信息增强的对话生成模型|对话生成数据集|自然语言处理数据集

数据集:Self-Instruct

数据集地址:Self-Instruct

数据集:ShareChat

数据集地址:ShareChat

数据集:ShareGPT-Chinese-English-90k

数据集地址:shareAI/ShareGPT-Chinese-English-90k|自然语言处理数据集|指令微调数据集

数据集:ShareGPT90K

数据集地址:ShareGPT90K

数据集:SUPER-NATURAL INSTRUCTIONS

数据集地址:andersonbcdefg/supernatural-instructions-2m

数据集:TigerBot sft en

数据集地址:TigerResearch/sft_en|自然语言处理数据集|模型微调数据集

数据集:TigerBot sft zh

数据集地址:TigerResearch/sft_zh|中文问答数据集|指令微调数据集

数据集:T0

数据集地址:bigscience/P3|自然语言处理数据集|数据模板数据集

数据集:UltraChat

数据集地址:HuggingFaceH4/ultrachat_200k|聊天机器人数据集|自然语言处理数据集

数据集:UnifiedSKG

数据集地址:UnifedSKG|知识接地数据集|多任务学习数据集

数据集:Unnatural Instructions

数据集地址:mrm8488/unnatural-instructions-core|自然语言处理数据集|指令遵循数据集

数据集:WebGLM-QA

数据集地址:THUDM/webglm-qa|机器学习数据集|自然语言处理数据集

数据集:Wizard evol instruct zh

数据集地址:silk-road/Wizard-LM-Chinese-instruct-evol|自然语言处理数据集|中文语言模型数据集

数据集:Wizard evol instruct 196K

数据集地址:WizardLMTeam/WizardLM_evol_instruct_V2_196k|数学模型数据集|数据集构建数据集

数据集:Wizard evol instruct 70K

数据集地址:WizardLMTeam/WizardLM_evol_instruct_70k|数学数据集|编程数据集

数据集:xP3

数据集地址:bigscience/xP3

数据集:Zhihu-KOL

数据集地址:wangrui6/Zhihu-KOL|社交媒体分析数据集|自然语言处理数据集

34个 特定领域指令微调数据集

数据集:BELLE_School_Math

数据集地址:BelleGroup/school_math_0.25M|数学教育数据集|自然语言处理数据集

数据集:ChatDoctor

数据集地址:ChatDoctor

数据集:ChatMed_Consult_Dataset

数据集地址:michaelwzhu/ChatMed_Consult_Dataset|医疗咨询数据集|自然语言处理数据集

数据集:Child_chat_data

数据集地址:Child_chat_data

数据集:CMtMedQA

数据集地址:CMtMedQA|医疗对话数据集|模型训练数据集

数据集:Code_Alpaca_20K

数据集地址:Code_Alpaca_20K

数据集:CodeContest

数据集地址:CodeContests|机器学习数据集|编程竞赛数据集

数据集:CommitPackFT

数据集地址:bigcode/commitpackft|代码提交数据集|数据分析数据集

数据集:DISC-Fin-SFT

数据集地址:DISC-Fin-SFT|金融数据集|指令处理数据集

数据集:DISC-Law-SFT

数据集地址:DISC-Law-SFT 高质量中文法律监督微调数据集|法律数据集|自然语言处理数据集

数据集:DISC-Med-SFT

数据集地址:Flmc/DISC-Med-SFT|医疗问答数据集|对话系统数据集

数据集:Educhat-sft-002-data-osm

数据集地址:ecnu-icalk/educhat-sft-002-data-osm|对话系统数据集|自然语言处理数据集

数据集:GeoSignal

数据集地址:daven3/geosignal|科学领域适应数据集|语言模型训练数据集

数据集:Goat

数据集地址:tiedong/goat|算术任务数据集|问答系统数据集

数据集:HanFei 1.0

数据集地址:HanFei数据集

数据集:HuatuoGPT-sft-data-v1

数据集地址:HuatuoGPT-sft-data-v1|医疗咨询数据集|自然语言处理数据集

数据集:Huatuo-26M

数据集地址:Huatuo-26M|医疗问答数据集|医疗知识数据集

数据集:LawGPT_zh

数据集地址:LawGPT_zh

数据集:Lawyer LLaMA_sft

数据集地址:Lawyer LLaMA_sft

数据集:MeChat

数据集地址:MeChat|心理健康数据集|对话生成数据集

数据集:MedDialog

数据集地址:UCSD26/medical_dialog|医疗对话数据集|问答系统数据集

数据集:Medical Meadow

数据集地址:Medical Meadow

数据集:Medical-sft

数据集地址:shibing624/medical|医疗,偏好数据集数据集

数据集:Mol-Instructions

数据集地址:zjunlp/Mol-Instructions|生物分子数据集|大型语言模型数据集

数据集:MWP

数据集地址:Medical Meadow

数据集:OpenMathInstruct-1

数据集地址:nvidia/OpenMathInstruct-1|数学教育数据集|机器学习数据集

数据集:Owl-Instruction

数据集地址:Owl-Instruction

数据集:PROSOCIALDIALOG

数据集地址:allenai/prosocial-dialog|对话系统数据集|人工智能伦理数据集

数据集:QiZhenGPT-sft-20k

数据集地址:QiZhenGPT-sft-20k

数据集:ShenNong_TCM_Dataset

数据集地址:TCMD|中医数据集|人工智能评估数据集

数据集:TaoLi_data

数据集地址:TaoLi_data

数据集:ToolAlpaca

数据集地址:ToolAlpaca

数据集:ToolBench

数据集地址:ToolBench

数据集:TransGPT-sft

数据集地址:TransGPT-sft

三、Preference Datasets (偏好数据集)

偏好评估方法:

投票 (Vote): 人类或模型对多个响应进行投票,选择其中最好的一个或几个。

排序 (Sort): 将多个响应按照预定义的标准进行排序,反映它们之间的相对偏好顺序。

评分 (Score): 给多个响应分配分数,提供更灵活的偏好强度表示。

其他: 一些偏好数据集采用其他评估方法,例如步骤对齐和源差异分析。

对应各种偏好评估方法的不同偏好数据集

16个偏好数据集

数据集:Alpaca comparison data

数据集地址:Alpaca comparison data|模型比较数据集|偏好反馈数据集

数据集:Chatbot arena conversations

数据集地址:undefined|聊天机器人数据集|自然语言处理数据集

数据集:CValues

数据集地址:CValues-Comparison|价值观评估数据集|人工智能文本生成数据集

数据集:hh-rlhf

数据集地址:Anthropic/hh-rlhf

数据集:Medical-rlhf

数据集地址:shibing624/medical|医疗,偏好数据集数据集

数据集:MT-Bench human judgments

数据集地址:lmsys/mt_bench_human_judgments|自然语言处理数据集|机器学习模型评估数据集

数据集:OASST1 pairwise rlhf reward

数据集地址:tasksource/oasst1_pairwise_rlhf_reward|奖励建模数据集|多语言数据数据集

数据集:PKU-SafeRLHF

数据集地址:PKU-SafeRLHF|大型语言模型数据集|安全对齐数据集

数据集:PRM800K

数据集地址:euclaise/prm800k_preferences|偏好学习数据集|数学推理数据集

数据集:SHP

数据集地址:stanfordnlp/SHP|机器学习数据集|数据集难度评估数据集

数据集:Stable Alignment

数据集地址:Stable Alignment|社交智能数据集|响应调整数据集

数据集:Stack-Exchange-Preferences

数据集地址:HuggingFaceH4/stack-exchange-preferences|用户偏好分析数据集|自然语言处理数据集

数据集:Summarize from Feedback

数据集地址:openai/summarize_from_feedback|自然语言处理数据集|机器学习数据集

数据集:UltraFeedback

数据集地址:openbmb/UltraFeedback|自然语言处理数据集|偏好数据集数据集

数据集:WebGPT

数据集地址:openai/webgpt_comparisons|自然语言处理数据集|问答系统数据集

数据集:Zhihu rlhf 3k

数据集地址:https://www.selectdataset.com/dataset/70607709831f83178eb08689ca7accc4

四、Evaluation Datasets (评估数据集)

评估数据集的评估类别

三种评价方法

112个评估数据集

数据集:AgentBench

数据集地址:AgentBench

数据集:AGIEval

数据集地址:AGIEval|教育评估数据集|人工智能测试数据集

数据集:ALCUNE

数据集地址:ALCUNE

数据集:AlpacaEval

数据集地址:AlpacaEval|自然语言处理数据集|模型评估数据集

数据集:API-Bank

数据集地址:API-Bank|人工智能数据集|API集成数据集

数据集:APIBench

数据集地址:gorilla-llm/APIBench

数据集:APPS

数据集地址:codeparrot/apps|自然语言处理数据集|编程语言生成数据集

数据集:ARB

数据集地址:ARB

数据集:BayLing-80

数据集地址:BayLing-80|语言模型数据集|跨语言评估数据集

数据集:BBF-CFLEB

数据集地址:BBF-CFLEB|金融数据集|自然语言处理数据集

数据集:BBH

数据集地址:BBH

数据集:BELLE eval

数据集地址:BELLE eval

数据集:BIG-Bench

数据集地址:google/bigbench

数据集:BIRD

数据集地址:BIRD

数据集:BOSS

数据集地址:BOSS|自然语言处理数据集|模型鲁棒性数据集

数据集:CBLUE

数据集地址:中文医疗信息处理评测基准CBLUE|医疗信息处理数据集|自然语言处理数据集

数据集:C-CLUE

数据集地址:C-CLUE

数据集:CELLO

数据集地址:CELLO

数据集:C-Eval

数据集地址:ceval/ceval-exam|自然语言处理数据集|机器学习评估数据集

数据集:CG-Eval

数据集地址:CG-Eval

数据集:Chain-of-Thought Hub

数据集地址:Chain-of-Thought Hub

数据集:Choice-75

数据集地址:Choice-75|脚本学习数据集|智能系统决策数据集

数据集:CLEVA

数据集地址:CLEVA

数据集:CLiB

数据集地址:CLiB

数据集:CLUE

数据集地址:CLUE 中文语言理解评测基准数据集|中文语言理解数据集|自然语言处理数据集

数据集:CMB

数据集地址:CMB|医学评估数据集|语言模型数据集

数据集:CMMLU

数据集地址:haonan-li/cmmlu|中文语言理解数据集|多任务评估数据集

数据集:CMMLU

数据集地址:haonan-li/cmmlu|中文语言理解数据集|多任务评估数据集

数据集:CrowS-Pairs

数据集地址:CrowS-Pairs|偏见识别数据集|自然语言处理数据集

数据集:CUGE

数据集地址:CUGE|自然语言处理数据集|中文语言理解与生成数据集

数据集:decaNLP

数据集地址:decaNLP (Natural Language Decathlon Benchmark)|自然语言处理数据集|多任务学习数据集

数据集:DS-1000

数据集地址:xlangai/DS-1000|代码生成数据集|文本生成数据集

数据集:EcomGPT eval

数据集地址:EcomGPT eval

数据集:EmotionBench

数据集地址:EmotionBench

数据集:FACTOR

数据集地址:Wiki-FACTOR, News-FACTOR, Expert-FACTOR|语言模型评估数据集|事实准确性数据集

数据集:FActScore

数据集地址:FActScore

数据集:FactualityPrompt

数据集地址:FactualityPrompt

数据集:FairEval

数据集地址:FairEval

数据集:FewCLUE

数据集地址:FewCLUE|小样本学习数据集|自然语言处理数据集

数据集:FinancelQ

数据集地址:FinancelQ

数据集:FinBen

数据集地址:FinBen|金融科技数据集|语言模型评估数据集

数据集:FinEval

数据集地址:SUFE-AIFLM-Lab/FinEval|金融知识评估数据集|大型语言模型数据集

数据集:FlagEval

数据集地址:FlagEval

数据集:FLUE

数据集地址:FLUE

数据集:FreshQA

数据集地址:FreshQA

数据集:GAOKAO-Bench

数据集地址:GAOKAO-Bench|中国高考数据集|测评数据集数据集

数据集:GeoBench

数据集地址:GeoBench

数据集:GLUE

数据集地址:GLUE

数据集:GLUE-X

数据集地址:GLUE-X

数据集:HalluQA

数据集地址:HalluQA 中文大模型幻觉评估数据集|中文语言处理数据集|机器学习评估数据集

数据集:HaluEval

数据集地址:HaluEval|语言模型评估数据集|幻觉检测数据集

数据集:HELM

数据集地址:HELM|自然语言处理数据集|语言模型评估数据集

数据集:HuaTuo26M-test

数据集地址:FreedomIntelligence/huatuo26M-testdatasets|自然语言生成数据集|医学数据集

数据集:HumanEval

数据集地址:openai/openai_humaneval|代码生成数据集|Python编程数据集

数据集:HumanEvalPack

数据集地址:bigcode/humanevalpack|代码生成数据集|多语言编程数据集

数据集:InfiniteBench

数据集地址:xinrongzhang2022/InfiniteBench|自然语言处理数据集|长上下文评估数据集

数据集:KoLA

数据集地址:KoLA|语言模型评估数据集|知识导向基准数据集

数据集:LAiW

数据集地址:LAiW|法律领域数据集|语言模型评估数据集

数据集:LawBench

数据集地址:LawBench|法律数据集|模型评估数据集

数据集:LegalBench

数据集地址:nguha/legalbench|法律推理数据集|自然语言处理数据集

数据集:L-Eval

数据集地址:L4NLP/LEval|自然语言处理数据集|长文本理解数据集

数据集:LexGLUE

数据集地址:LexGLUE|法律文本理解数据集|自然语言处理数据集

数据集:LEXTREME

数据集地址:joelniklaus/lextreme|自然语言处理数据集|法律文本分析数据集

数据集:LILA

数据集地址:allenai/lila

数据集:LLMEVAL-1

数据集地址:LLMEVAL-1

数据集:LLMEVAL-2

数据集地址:LLMEVAL-2

数据集:LLMEVAL-3

数据集地址:LLMEVAL-3

数据集:LLMEval2

数据集地址:LLMEval2

数据集:LMentry

数据集地址:LMentry|语言模型测试数据集|基准评估数据集

数据集:LMExamQA

数据集地址:LMExamQA

数据集:LongBench

数据集地址:THUDM/LongBench|长上下文理解数据集|多语言多任务数据集

数据集:LongEval

数据集地址:LongEval

数据集:LooGLE

数据集地址:bigai-nlco/LooGLE|大型语言模型数据集|长上下文理解数据集

数据集:MCTS

数据集地址:MCTS|文本简化数据集|语言处理数据集

数据集:miniF2F_v1

数据集地址:miniF2F_v1

数据集:MINT

数据集地址:MINT

数据集:MMCU

数据集地址:MMCU

数据集:MMLU

数据集地址:MMLU

数据集:MT-Bench

数据集地址:MT-Bench

数据集:MTPB

数据集地址:MTPB

数据集:MultiMedQA

数据集地址:katielink/healthsearchqa|医疗问答数据集|消费者健康数据集

数据集:M3Exam

数据集地址:M3Exam|多语言评估数据集|多模态评估数据集

数据集:M3KE

数据集地址:TJUNLP/M3KE|自然语言处理数据集|知识评估数据集

数据集:NeuLR

数据集地址:NeuLR

数据集:ODEX

数据集地址:ODEX

数据集:Owl-Bench

数据集地址:Owl-Bench

数据集:PandaLM_testset

数据集地址:PandaLM测试数据集|语言模型评估数据集|人工标注数据集

数据集:PromptBench

数据集地址:PromptBench

数据集:PromptCBLUE

数据集地址:PromptCBLUE|医学领域数据集|语言模型评估数据集

数据集:QiZhenGPT_eval

数据集地址:QiZhenGPT_eval

数据集:RAFT

数据集地址:ought/raft|自然语言处理数据集|机器学习数据集

数据集:SafetyBench

数据集地址:thu-coai/SafetyBench|大型语言模型数据集|安全评估数据集

数据集:Safety-Prompts

数据集地址:thu-coai/Safety-Prompts

数据集:SCALE

数据集地址:SCALE

数据集:SCIBENCH

数据集地址:SciBench|科学问题解决数据集|教育评估数据集

数据集:SentEval

数据集地址:SentEval|自然语言处理数据集|句子嵌入数据集

数据集:ScienceQA

数据集地址:ScienceQA

数据集:SocKET

数据集地址:SocKET|自然语言处理数据集|社会知识测试数据集

数据集:SuperCLUE

数据集地址:SuperCLUE|自然语言处理数据集|测评数据集数据集

数据集:SuperCLUE-Agent

数据集地址:SuperCLUE-Agent

数据集:SuperCLUE-Safety

数据集地址:SuperCLUE-Safety

数据集:SuperGLUE

数据集地址:SuperGLUE|语言理解数据集|机器学习数据集

数据集:TabMWP

数据集地址:TabMWP|自然语言处理数据集|数据推理数据集

数据集:TheoremQA

数据集地址:TheoremQA|定理问答数据集|AI评估数据集

数据集:ToolBench

数据集地址:ToolBench|API工具使用数据集|指令生成数据集

数据集:TRUSTGPT

数据集地址:TRUSTGPT

数据集:TruthfulQA

数据集地址:TruthfulQA|自然语言处理数据集|知识验证数据集

数据集:Vicuna Evaluation

数据集地址:Vicuna Evaluation

数据集:XiezhiBenchmark

数据集地址:XiezhiBenchmark

数据集:XNLI

数据集地址:XNLI (Cross-lingual NLI)|自然语言推理数据集|跨语言数据集

数据集:XTREME

数据集地址:google/xtreme

数据集:ZeroSCROLLS

数据集地址:tau/zero_scrolls|自然语言处理数据集|长文本理解数据集

五、Traditional NLP Datasets (传统NLP数据集)

传统NLP数据集(154个)

根据任务类型进行分类问答、文本蕴涵、数学、指代消解、情感分析、语义匹配、文本生成、文本翻译、文本摘要、文本分类、文本质量评估、文本到代码、命名实体识别、关系抽取、多任务等

传统NLP数据集的不同NLP任务类别

37个阅读理解数据集

阅读理解数据集

数据集:BoolQ

数据集地址:The BoolQ Dataset|自然语言推理数据集|问答系统数据集

数据集:CondaQA

数据集地址:lasha-nlp/CONDAQA|自然语言处理数据集|阅读理解数据集

数据集:CosmosQA

数据集地址:allenai/cosmos_qa|常识推理数据集|机器阅读理解数据集

数据集:C3

数据集地址:C3|机器阅读理解数据集|自然语言处理数据集

数据集:DREAM

数据集地址:DREAM|对话理解数据集|阅读理解数据集

数据集:DuReader Yes/No

数据集地址:DuReaderrobust|机器阅读理解数据集|数据集数据集

数据集:MCTest

数据集地址:sagnikrayc/mctest

数据集:MultiRC

数据集地址:CogComp/eraser_multi_rc|阅读理解数据集|多句问题处理数据集

数据集:PubMedQA

数据集地址:qiaojin/PubMedQA|医学信息检索数据集|自然语言处理数据集

数据集:QuAIL

数据集地址:QuAIL

数据集:RACE

数据集地址:ehovy/race|阅读理解数据集|自然语言处理数据集

数据集:ReClor

数据集地址:ReClor

数据集:ChID

数据集地址:thu-coai/chid|中文成语数据集|语言测试数据集

数据集:CLOTH

数据集地址:AndyChiang/cloth|语言学习数据集|完形填空数据集

数据集:CMRC2019

数据集地址:CMRC 2019|机器阅读理解数据集|自然语言处理数据集

数据集:LAMBADA

数据集地址:cimec/lambada|自然语言处理数据集|文本理解数据集

数据集:Adversarial QA

数据集地址:UCLNLP/adversarial_qa|自然语言处理数据集|机器学习数据集

数据集:CMRC2018

数据集地址:CMRC 2018|机器阅读理解数据集|中文文本处理数据集

数据集:CUAD

数据集地址:cuad-qa

数据集:Dureader Checklist

数据集地址:Dureader Checklist

数据集:DuReader Robust

数据集地址:DuReader Robust

数据集:HOTPOTQA

数据集地址:hotpotqa/hotpot_qa|问答系统数据集|自然语言处理数据集

数据集:MLQA

数据集地址:facebook/mlqa|跨语言问答数据集|多语言数据集数据集

数据集:MS MARCO

数据集地址:microsoft/ms_marco|机器阅读理解数据集|自然语言生成数据集

数据集:Natural Questions

数据集地址:google-research-datasets/natural_questions|问答系统数据集|自然语言处理数据集

数据集:QuAC

数据集地址:allenai/quac|问题回答数据集|自然语言处理数据集

数据集:Quoref

数据集地址:quoref

数据集:ReCoRD

数据集地址:ReCoRD

数据集:SQuAD

数据集地址:rajpurkar/squad|自然语言处理数据集|阅读理解数据集

数据集:SQuAD 2.0

数据集地址:SQuAD 2.0

数据集:TriviaQA

数据集地址:TriviaQA|自然语言处理数据集|机器学习数据集

数据集:TyDIQA

数据集地址:google-research-datasets/tydiqa|多语言问答数据集|自然语言处理数据集

数据集:CoQA

数据集地址:CoQA

数据集:DROP

数据集地址:DROP

数据集:DuoRC

数据集地址:ibm/duorc|文本理解数据集|文本生成数据集

数据集:DuReader 2.0

数据集地址:DuReader 2.0

数据集:QASPER

数据集地址:allenai/qasper|自然语言处理数据集|问答系统数据集

13个知识问答数据集

知识问答数据集

数据集:ARC

数据集地址:allenai/ai2_arc|自然语言处理数据集|机器学习数据集

数据集:CMD

数据集地址:CMD

数据集:cMedQA2

数据集地址:cMedQA2|医疗问答数据集|数据隐私数据集

数据集:CommonsenseQA

数据集地址:CommonsenseQA|常识推理数据集|自然语言处理数据集

数据集:OpenBookQA

数据集地址:allenai/openbookqa|问答系统数据集|语言理解数据集

数据集:PIQA

数据集地址:ybisk/piqa|问答系统数据集|物理常识推理数据集

数据集:SciQ

数据集地址:allenai/sciq|科学教育数据集|自然语言处理数据集

数据集:JEC-QA

数据集地址:JEC-QA|法律考试数据集|问答系统数据集

数据集:WebMedQA

数据集地址:webMedQA|医学问答数据集|自然语言处理数据集

数据集:PsyQA

数据集地址:PsyQA

数据集:HEAD-QA

数据集地址:dvilares/head_qa|医疗数据集|问答系统数据集

数据集:ECQA

数据集地址:ECQA

数据集:WikiQA

数据集地址:microsoft/wiki_qa|问答系统数据集|自然语言处理数据集

13个推理问答数据集

推理问答数据集

数据集:COPA

数据集地址:COPA

数据集:CREAK

数据集地址:CREAK

数据集:HellaSwag

数据集地址:HellaSwag|自然语言处理数据集|常识推理数据集

数据集:LogiQA

数据集地址:LogiQA|逻辑推理数据集|机器阅读理解数据集

数据集:PROST

数据集地址:corypaik/prost|物理推理数据集|自然语言处理数据集

数据集:QASC

数据集地址:allenai/qasc|自然语言处理数据集|教育数据集

数据集:QuaRel

数据集地址:QuaRel

数据集:QuaRTz

数据集地址:allenai/quartz|自然语言处理数据集|定性关系理解数据集

数据集:ROPES

数据集地址:allenai/ropes|自然语言处理数据集|推理能力数据集

数据集:Social IQa

数据集地址:allenai/social_i_qa|社交智能数据集|问答系统数据集

数据集:StoryCloze

数据集地址:LSDSem/story_cloze|故事理解数据集|常识推理数据集

数据集:STRATEGYQA

数据集地址:STRATEGYQA

数据集:WIQA

数据集地址:wiqa

10个识别文本蕴含数据集

识别文本蕴含数据集

数据集:ANLI

数据集地址:Adversarial NLI (ANLI)|自然语言处理数据集|对抗性训练数据集

数据集:CINLID

数据集地址:CINLID

数据集:CMNLI

数据集地址:CMNLI|自然语言处理数据集|文本对关系判断数据集

数据集:CommitmentBank

数据集地址:CommitmentBank (CB)|语言学数据集|语用学数据集

数据集:MedNLI

数据集地址:bigbio/mednli|医疗信息处理数据集|自然语言处理数据集

数据集:MultiNLI

数据集地址:nyu-mll/multi_nli|自然语言处理数据集|文本蕴含数据集

数据集:OCNLI

数据集地址:OCNLI|自然语言处理数据集|自然语言推理数据集

数据集:RTE

数据集地址:RTE|自然语言处理数据集|机器学习数据集

数据集:SNLI

数据集地址:stanfordnlp/snli|自然语言处理数据集|文本分类数据集

数据集:WANLI

数据集地址:alisawuffles/WANLI|自然语言推理数据集|人工智能数据集

9个数学数据集

数学数据集

数据集:Ape210K

数据集地址:Ape210K|自然语言处理数据集|数学问题解答数据集

数据集:AQUA-RAT

数据集地址:deepmind/aqua_rat|代数问题解答数据集|自然语言处理数据集

数据集:ASDiv

数据集地址:ASDiv|数学问题求解数据集|逻辑推理数据集

数据集:GSM8K

数据集地址:openai/gsm8k|数学应用题数据集|自然语言处理数据集

数据集:MATH

数据集地址:MATH

数据集:MathQA

数据集地址:allenai/math_qa|数学问题解答数据集|自然语言处理数据集

数据集:Math23K

数据集地址:Math23K (Math23K for Math Word Problem Solving)|自然语言处理数据集|数学问题解答数据集

数据集:NaturalProofs

数据集地址:NaturalProofs|数学证明数据集|自然语言处理数据集

数据集:SVAMP

数据集地址:SVAMP

6个共指消解数据集

共指消解数据集

数据集:CLUEWSC2020

数据集地址:CLUEWSC2020|自然语言处理数据集|中文文本分析数据集

数据集:DPR

数据集地址:community-datasets/definite_pronoun_resolution|词义消歧数据集|自然语言处理数据集

数据集:WiC

数据集地址:WiC|自然语言处理数据集|词义消歧数据集

数据集:WinoGrande

数据集地址:allenai/winogrande|常识推理数据集|文本理解数据集

数据集:WinoWhy

数据集地址:WinoWhy

数据集:WSC

数据集地址:ErnestSDavis/winograd_wsc|语言理解数据集|技术挑战数据集

4个情感分析数据集

情感分析数据集

数据集:EPRSTMT

数据集地址:FewCLUE|小样本学习数据集|自然语言处理数据集

数据集:IMDB

数据集地址:stanfordnlp/imdb|情感分析数据集|文本分类数据集

数据集:Sentiment140

数据集地址:stanfordnlp/sentiment140|情感分析数据集|文本分类数据集

数据集:SST-2

数据集地址:stanfordnlp/sst2|情感分析数据集|自然语言处理数据集

10个语义匹配数据集

语义匹配数据集

数据集:AFQMC

数据集地址:AFQMC(Ant Financial Question Matching Corpus)|自然语言处理数据集|金融文本分析数据集

数据集:BQ

数据集地址:shibing624/nli_zh|自然语言处理数据集|语义匹配数据集

数据集:BUSTM

数据集地址:BUSTM|智能助手数据集|语音识别数据集

数据集:DuQM

数据集地址:DuQM

数据集:LCQMC

数据集地址:C-MTEB/LCQMC|自然语言处理数据集|句子相似度数据集

数据集:MRPC

数据集地址:MRPC (Microsoft Research Paraphrase Corpus)|自然语言处理数据集|文本分析数据集

数据集:PAWS

数据集地址:google-research-datasets/paws|paraphrase识别数据集|文本分类数据集

数据集:PAWS-X

数据集地址:PAWS-X

数据集:QQP

数据集地址:QQP|自然语言处理数据集|文本匹配数据集

数据集:STSB

数据集地址:PhilipMay/stsb_multi_mt|自然语言处理数据集|机器翻译数据集

4个文本生成数据集

文本生成数据集

数据集:CommonGen

数据集地址:allenai/common_gen|文本生成数据集|常识推理数据集

数据集:DART

数据集地址:Yale-LILY/dart|文本生成数据集|数据转换数据集

数据集:E2E

数据集地址:tuetschek/e2e_nlg|自然语言生成数据集|文本生成数据集

数据集:WebNLG

数据集地址:webnlg-challenge/web_nlg|自然语言生成数据集|数据到文本转换数据集

3个文本翻译数据集

数据集:IWSLT 2017

数据集地址:IWSLT/iwslt2017|机器翻译数据集|多语种数据集

数据集:NLLB

数据集地址:NLLB

数据集:WMT

数据集地址:WMT

14个文本摘要数据集

文本摘要数据集

数据集:AESLC

数据集地址:Yale-LILY/aeslc|邮件主题生成数据集|电子邮件分析数据集

数据集:CNewSum

数据集地址:CNewSum|中文文本摘要数据集|自然语言处理数据集

数据集:CNN-DM

数据集地址:abisee/cnn_dailymail|新闻摘要数据集|文本生成数据集

数据集:Gigaword

数据集地址:GigaWord|自然语言处理数据集|文本摘要数据集

数据集:LCSTS

数据集地址:LCSTS|文本摘要数据集|自然语言处理数据集

数据集:MediaSum

数据集地址:ccdv/mediasum|对话摘要数据集|自然语言处理数据集

数据集:MultiNews

数据集地址:alexfabbri/multi_news|新闻摘要数据集|数据分析数据集

数据集:Newsroom

数据集地址:lil-lab/newsroom|新闻摘要数据集|文本生成数据集

数据集:Opinion Abstracts

数据集地址:Opinion Abstracts

数据集:SAMSum

数据集地址:Samsung/samsum|对话摘要数据集|自然语言处理数据集

数据集:WikiHow

数据集地址:WikiHow|文本挖掘数据集|自然语言处理数据集

数据集:WikiLingua

数据集地址:WikiLingua|跨语言摘要数据集|多语言数据集数据集

数据集:XL-Sum

数据集地址:csebuetnlp/xlsum|文本摘要数据集|多语言处理数据集

数据集:XSum

数据集地址:EdinburghNLP/xsum|自然语言处理数据集|文本摘要数据集

6个文本分类数据集

文本分类数据集

数据集:AGNEWS

数据集地址:fancyzhx/ag_news|文本分类数据集|新闻主题分类数据集

数据集:CSLDCP

数据集地址:FewCLUE|小样本学习数据集|自然语言处理数据集

数据集:IFLYTEK

数据集地址:IFLYTEK

数据集:MARC

数据集地址:defunct-datasets/amazon_reviews_multi|多语言文本处理数据集|情感分析数据集

数据集:THUCNews

数据集地址:THUCNews 新闻数据集|新闻分类数据集|文本分析数据集

数据集:TNEWS

数据集地址:TNews|文本分类数据集|机器学习数据集

4个文本质量评估数据集信息

文本质量评估数据集

数据集:CoLA

数据集地址:CoLA (Corpus of Linguistic Acceptability)|语言学数据集|自然语言处理数据集

数据集:CSCD-IME

数据集地址:CSCD-NS|中文拼写检查数据集|自然语言处理数据集

数据集:SIGHAN

数据集地址:SIGHAN

数据集:YACLC

数据集地址:汉语学习者文本多维标注数据集YACLC V1.0|自然语言处理数据集|汉语学习数据集

4个文本转代码数据集

文本转代码数据集

数据集:CSpider

数据集地址:CSpider

数据集:DuSQL

数据集地址:DuSQL

数据集:MBPP

数据集地址:MBPP

数据集:Spider

数据集地址:Spider|语义解析数据集|文本到SQL数据集

10个命名实体识别数据集

命名实体识别数据集

数据集:CLUENER

数据集地址:CLUENER2020|命名实体识别数据集|信息提取数据集

数据集:CoNLL2003

数据集地址:eriktks/conll2003|命名实体识别数据集|自然语言处理数据集

数据集:Few-NERD

数据集地址:Few-NERD|命名实体识别数据集|自然语言处理数据集

数据集:MSRA

数据集地址:levow/msra_ner|命名实体识别数据集|中文NLP数据集

数据集:OntoNotes 5.0

数据集地址:ontonotes/conll2012_ontonotesv5|自然语言处理数据集|多语言分析数据集

数据集:Resume

数据集地址:Resume

数据集:Taobao NER

数据集地址:E-Commercial NER Dataset / 电商NER数据集|自然语言处理数据集|电子商务数据集

数据集:Weibo NER

数据集地址:Weibo NER

数据集:WUNT2017

数据集地址:leondz/wnut_17|命名实体识别数据集|文本分类数据集

数据集:Youku NER

数据集地址:Youku NER Dataset / 文娱NER数据集|自然语言处理数据集|命名实体识别数据集

4个关系抽取数据集

关系抽取数据集

数据集:Dialogue RE

数据集地址:Dialogue RE

数据集:DocRED

数据集地址:DocRED|文档级关系抽取数据集|自然语言处理数据集

数据集:FewRel

数据集地址:FewRel|少样本学习数据集|关系分类数据集

数据集:TACRED

数据集地址:DFKI-SLT/tacred|关系抽取数据集|知识库构建数据集

3个多任务数据集信息汇总

多任务数据集

数据集:CSL

数据集地址:CSL-500|自然语言处理数据集|文本分析数据集

数据集:METS-CoV

数据集地址:METS-CoV|COVID-19数据集|社交媒体分析数据集

数据集:QED

数据集地址:QED|语言学数据集|问答系统数据集

新的一年,祝大家

眼里有光,兜里有款。

日有熹,月有光,富且昌,寿而康。

好风凭借力,送你上青云。

愿每个人都能在自己的江湖里执梦为剑,潇洒快意!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2296464.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Linux 创建进程 fork()、vfork() 与进程管理

Linux 创建进程 fork、vfork、进程管理 一、Linux的0号、1号、2号进程二、Linux的进程标识三、fork() 函数1、基本概念2、函数特点3、用法以及应用场景(1)父子进程执行不同的代码(2)进程执行另一个程序 4、工作原理 四、vfork() 函…

2025web寒假作业二

一、整体功能概述 该代码构建了一个简单的后台管理系统界面,主要包含左侧导航栏和右侧内容区域。左侧导航栏有 logo、管理员头像、导航菜单和安全退出按钮;右侧内容区域包括页头、用户信息管理内容(含搜索框和用户数据表格)以及页…

鸿蒙NEXT API使用指导之文件压缩和邮件创建

鸿蒙NEXT API 使用指导 一、前言二、邮件创建1、拉起垂类应用2、 UIAbilityContext.startAbilityByType 原型2.1、wantParam2.2、abilityStartCallback 与 callback 3、拉起邮箱类应用3.1、单纯拉起邮箱应用3.2、传入带附件的邮件 三、压缩文件1、认识 zlib2、压缩处理2.1、单文…

javaEE-10.CSS入门

目录 一.什么是CSS ​编辑二.语法规则: 三.使用方式 1.行内样式: 2.内部样式: 3.外部样式: 空格规范 : 四.CSS选择器类型 1.标签选择器 2.类选择器 3.ID选择器 4.通配符选择器 5.复合选择器 五.常用的CSS样式 1.color:设置字体颜色 2.font-size:设置字体大小 3…

Spring Boot牵手Redisson:分布式锁实战秘籍

一、引言 在当今的分布式系统架构中,随着业务规模的不断扩大和系统复杂度的日益增加,如何确保多个服务节点之间的数据一致性和操作的原子性成为了一个至关重要的问题。在单机环境下,我们可以轻松地使用线程锁或进程锁来控制对共享资源的访问,但在分布式系统中,由于各个服务…

制药行业 BI 可视化数据分析方案

一、行业背景 随着医药行业数字化转型的深入,企业积累了海量的数据,包括销售数据、生产数据、研发数据、市场数据等。如何利用这些数据,挖掘其价值,为企业决策提供支持,成为医药企业面临的重大挑战。在当今竞争激烈的…

[学习笔记] Kotlin Compose-Multiplatform

Compose-Multiplatform 原文:https://github.com/zimoyin/StudyNotes-master/blob/master/compose-multiplatform/compose.md Compose Multiplatform 是 JetBrains 为桌面平台(macOS,Linux,Windows)和Web编写Kotlin UI…

Golang 并发机制-7:sync.Once实战应用指南

Go的并发模型是其突出的特性之一,但强大的功能也带来了巨大的责任。sync.Once是由Go的sync包提供的同步原语。它的目的是确保一段代码只执行一次,而不管有多少协程试图执行它。这听起来可能很简单,但它改变了并发环境中管理一次性操作的规则。…

【AI实践】Cursor上手-跑通Hello World和时间管理功能

背景 学习目的:熟悉Cursor使用环境,跑通基本开发链路。 本人背景:安卓开发不熟悉,了解科技软硬件常识 实践 基础操作 1,下载安装安卓Android Studio 创建一个empty project 工程,名称为helloworld 2&am…

【多模态大模型】系列4:目标检测(ViLD、GLIP)

目录 1 ViLD2 GLIP 1 ViLD OPEN-VOCABULARY OBJECT DETECTION VIA VISION AND LANGUAGE KNOWLEDGE DISTILLATION 从标题就能看出来,作者是把CLIP模型当成一个Teacher,去蒸馏他自己的网络,从而能Zero Shot去做目标检测。 现在的目标检测数据…

计算机网络结课设计:通过思科Cisco进行中小型校园网搭建

上学期计算机网络课程的结课设计是使用思科模拟器搭建一个中小型校园网,当时花了几天时间查阅相关博客总算是做出来了,在验收后一直没管,在寒假想起来了简单分享一下,希望可以给有需求的小伙伴一些帮助 目录 一、设计要求 二、…

从零到一:基于Rook构建云原生Ceph存储的全面指南(下)

接上篇:《从零到一:基于Rook构建云原生Ceph存储的全面指南(上)》 链接: link 六.Rook部署云原生CephFS文件系统 6.1 部署cephfs storageclass cephfs文件系统与RBD服务类似,要想在kubernetes pod里使用cephfs&#…

AutoMQ 如何实现没有写性能劣化的极致冷读效率

前言 追赶读(Catch-up Read,冷读)是消息和流系统常见和重要的场景。 削峰填谷:对于消息来说,消息通常用作业务间的解耦和削峰填谷。削峰填谷要求消息队列能将上游发送的数据堆积住,让下游在容量范围内消费…

【Rabbitmq篇】高级特性----TTL,死信队列,延迟队列

目录 一.TTL ???1.设置消息的TTL 2.设置队列的TTL 3.俩者区别? 二.死信队列 定义: 消息成为死信的原因: 1.消息被拒绝(basic.reject 或 basic.nack) 2.消息过期(TTL) 3.队列达到最大长度? …

【Java】多线程和高并发编程(三):锁(中)深入ReentrantLock

文章目录 3、深入ReentrantLock3.1 ReentrantLock和synchronized的区别3.2 AQS概述3.3 加锁流程源码剖析3.3.1 加锁流程概述3.3.2 三种加锁源码分析3.3.2.1 lock方法3.3.2.2 tryLock方法3.3.2.3 lockInterruptibly方法 3.4 释放锁流程源码剖析3.4.1 释放锁流程概述3.4.2 释放锁…

电路笔记(元器件):AD 5263数字电位计(暂记)

AD5263 是四通道、15 V、256位数字电位计,可通过SPI/I2C配置具体电平值。 配置模式: W引脚作为电位器的抽头,可在A-B之间调整任意位置的电阻值。也可将W与A(或B)引脚短接,A-W间的电阻总是0欧姆,通过数字接口调整电位器…

webpack【初体验】使用 webpack 打包一个程序

打包前 共 3 个文件 dist\index.html <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><title>Webpack 示例&…

VMware安装CentOS 7(全网超详细图文保姆版教程)

文章目录 一、下载及安装 VMware1.1 VMware下载1.2 CentOS下载 二、搭建虚拟机环境2.1 创建新虚拟机2.2 选择自定义2.3 选择虚拟机硬件兼容性2.4 选择稍后安装操作系统2.5 选择Linux系统 版本选择 centos 7 64位2.6 设备你虚拟机的名字和保存位置&#xff08;保存位置建议在编辑…

mysql BUG 导致 show processlist 有大量的show slave stauts 处于init状态

一、详细报错信息&#xff1a; 1、执行show slave status\G 卡住 && stop slave也卡住 2、show processlist 发现 Waiting for commit lock NULL 锁 3、错误日志报错主备同步用户认证失败 二、报错原因&#xff08;分析过程&#xff09;&#xff1a; 1、排查备库日志…

机器学习在癌症分子亚型分类中的应用

学习笔记&#xff1a;机器学习在癌症分子亚型分类中的应用——Cancer Cell 研究解析 1. 文章基本信息 标题&#xff1a;Classification of non-TCGA cancer samples to TCGA molecular subtypes using machine learning发表期刊&#xff1a;Cancer Cell发表时间&#xff1a;20…