本文针对Datasets for Large Language Models: A Comprehensive Survey 中的 444 个数据集(涵盖8种语言类别和32个领域)进行完整下载地址整理收集。
2024-02-28,由杨刘、曹家欢、刘崇宇、丁凯、金连文等作者编写,深入探讨了大型语言模型数据集,这些数据集在大语言模型中取得的显著进步中发挥着至关重要的作用。
调查从五个方面对LLM的 444个 数据集进行了整理和分类:
一、预训练语料库(59个):
49个 通用预训练语料库
10个 领域特定预训练语料库
二、指令微调数据集(103个)
69个通用指令微调数据集
34个特定领域指令微调数据集
三、偏好数据集 (16个)
16个偏好数据集
四、评估数据集(112个)
112个评估数据集
五、传统自然语言处理(NLP)数据集(154个)
37个阅读理解数据集、 13个知识问答数据集、13个推理问答数据集
10个识别文本蕴含数据集、9个数学数据集、6个共指消解数据集
4个情感分析数据集、10个语义匹配数据集、4个文本生成数据集
3个文本翻译数据集、 14个文本摘要数据集、6个文本分类数据集
4个文本质量评估数据集、4个文本转代码数据集、10个命名实体识别数据集
4个关系抽取数据集、3个多任务数据集信息汇总
一、Pre-training Corpora (预训练语料库)
预训练语料库是在预训练过程中使用的文本数据的大型集合LLMs。在所有类型的数据集中,预训练语料库的规模通常是最大的。在预训练阶段,LLMs从大量未标记的文本数据中学习广泛的知识,然后将其存储在其模型参数中。它能够LLMs拥有一定程度的语言理解和生成能力。预训练语料库可以包含各种类型的文本数据,例如网页、学术材料、书籍,同时还可以容纳来自不同领域的相关文本,例如法律文件、年度财务报告、医学教科书和其他特定领域的数据
49个通用预训练语料库(General Pre-training Corpora)
通用预训练语料库由来自不同领域和主题的大量文本数据组成,例如网页(Webpages)、语言文本(Language Texts)、书籍(Books)、学术材料(Academic Materials)、代码(Code)、平行语料库(Parallel Corpus)、社交媒体(Social Media)、百科全书(Encyclopedia)等。这类语料库的目标是为 NLP 任务提供通用的语言知识和数据资源。
49个 通用预训练语料库:
语料库:ANC
数据集地址:ANC|语料库数据集|自然语言处理数据集
语料库:Anna’s Archive
数据集地址:Anna’s Archive|学术资源数据集|版权数据集
语料库:ArabicText 2022
数据集地址:ArabicText 2022|阿拉伯语数据集|语言模型训练数据集
语料库:arXiv
数据集地址:arXiv
语料库:Baidu baike
数据集地址:Baike2018qa|问答系统数据集|预训练数据集数据集
语料库:BIGQUERY
数据集地址:BigQuery Public Datasets|公共数据集数据集|数据分析数据集
语料库:BNC
数据集地址:British National Corpus (BNC)|语言学数据集|语料库数据集
语料库:BookCorpusOpen
数据集地址:defunct-datasets/bookcorpusopen|自然语言处理数据集|文本生成数据集
语料库:CC-Stories
数据集地址:spacemanidol/cc-stories|自然语言处理数据集|文本分析数据集
语料库:CC100
数据集地址:statmt/cc100|自然语言处理数据集|语言模型预训练数据集
语料库:CLUECorpus2020
数据集地址:statmt/cc100|自然语言处理数据集|语言模型预训练数据集
语料库:Common Crawl
数据集地址:Common Crawl|网络爬取数据集|文本挖掘数据集
语料库:CulturaX
数据集地址:CulturaX|多语言数据集数据集|语言模型训练数据集
语料库:C4
数据集地址:allenai/c4|网络爬取数据集|文本分析数据集
语料库:Dolma
数据集地址:allenai/dolma|自然语言处理数据集|机器学习数据集
语料库:Github
数据集地址:Github|代码托管数据集|开源项目数据集
语料库:mC4
数据集地址:legacy-datasets/mc4|多语言数据集数据集|语言模型预训练数据集
语料库:MNBVC
数据集地址:liwu/MNBVC
语料库:MTP
数据集地址:BAAI-MTP|机器翻译数据集|文本分析数据集
语料库:MultiUN
数据集地址:MultiUN|平行语料库数据集|语言技术数据集
语料库:News-crawl
数据集地址:News-crawl|多语言新闻数据集|机器翻译数据集
语料库:OpenWebText
数据集地址:Skylion007/openwebtext|自然语言处理数据集|语言模型训练数据集
语料库:OSCAR
数据集地址:OSCAR|自然语言处理数据集|机器学习数据集
语料库:ParaCrawl
数据集地址:ParaCrawl/para_crawl|多语言翻译数据集|机器翻译数据集
语料库:PG-19
数据集地址:deepmind/pg19|语言建模数据集|长范围序列建模数据集
语料库:phi-1
数据集地址: teleprint-me/phi-1|教育数据集|自然语言处理数据集
语料库:Project Gutenberg
数据集地址: Project Gutenberg|电子书数据集|公共领域数据集
语料库:Pushshift Reddit
数据集地址: Pushshift Reddit|社交媒体分析数据集|文本挖掘数据集
语料库:RealNews
数据 集地址:RealNews|新闻分析数据集|数据挖掘数据集
语料库:Reddit
数据集地址:Reddit|社交网络分析数据集|机器学习数据集
语料库:RedPajama-V1
数据集地址:togethercomputer/RedPajama-Data-1T
语料库:RedPajama-V2
数据集地址:togethercomputer/RedPajama-Data-V2|文本处理数据集|语言模型训练数据集
语料库:RefinedWeb
数据集地址:tiiuae/falcon-refinedweb|网络数据数据集|文本挖掘数据集
语料库:ROOTS
数据集地址:ROOTS Corpus|多语言数据集数据集|语言模型训练数据集
语料库:Smashwords
数据集地址:Smashwords|电子书出版数据集|语料库数据集
语料库:StackExchange
数据集地址:stackexchange_stats|在线社区数据集|用户交互数据集
语料库:S2ORC
数据集地址:S2ORC|学术研究数据集|文本挖掘数据集
语料库:The Pile
数据集地址:EleutherAI/pile
语料库:The Stack
数据集地址:The Stack v2|编程语言数据集|源代码分析数据集
语料库:TigerBot pretrain en
数据集地址:TigerResearch/pretrain_en|自然语言处理数据集|预训练模型数据集
语料库:TigerBot pretrain zh
数据集地址:TigerResearch/pretrain_zh|对话系统数据集|预训练数据集数据集
语料库:TigerBot-wiki
数据集地址:TigerResearch/tigerbot-cmu-wiki-en|问答系统数据集|自然语言处理数据集
语料库:Toronto Book Corpus
数据集地址:bookcorpus/bookcorpus|文本生成数据集|语言模型数据集
语料库:UNCorpus v1.0
数据集地址:联合国中英对照语料UNv1.0.en-zh.tar|语言资源数据集|联合国数据集
语料库:WanJuanText-1.0
数据集地址:WanJuan1.0(万卷多模态)|多模态学习数据集|预训练数据集数据集
语料库:WebText
数据集地址:WebText|文本挖掘数据集|网络分析数据集
语料库:Wikipedia
数据集地址:Wikipedia Dump|维基百科数据集|XML数据数据集
语料库:WuDaoCorpora-Text
数据集地址:WuDaoCorpora Text文本预训练数据集|自然语言处理数据集|文本预训练数据集
语料库:Zhihu
数据集地址:zhihu|社交媒体数据集|知识分享数据集
10个领域特定预训练语料库 (Domain-specific Pre-training Corpora)
特定领域的预训练语料库的领域类别
领域特定预训练语料库仅包含特定领域或主题的相关数据,例如金融领域(Financial Domain)、医疗领域(Medical Domain)、其他领域(Other Domains)等。这类语料库的目标是为 LLM 提供特定领域的专业知识。
语料库:BBT-FinCorpus
数据集地址:BBT-FinCorpus|金融NLP数据集|预训练数据集数据集
语料库:FinCorpus
数据集地址:Duxiaoman-DI/FinCorpus|金融资讯数据集|教育培训数据集
语料库:FinGLM
数据集地址:FinGLM|金融数据集|人工智能数据集
语料库:Medical-pt
数据集地址:shibing624/medical|医疗,偏好数据集数据集
语料库:Proof-Pile-2
数据集地址:EleutherAI/proof-pile-2|机器学习数据集|人工智能数据集
语料库:PubMed Central
数据集地址:Pile-PubMed_Central|自然语言处理数据集|生物医学文献数据集
语料库:TigerBot-earning
数据集地址:TigerResearch/tigerbot-earning-plugin|财务报告分析数据集|机器学习数据集
语料库:TigerBot-law
数据集地址:TigerResearch/tigerbot-law-plugin|法律知识管理数据集|自动化法律服务数据集
语料库:TigerBot-research
数据集地址:TigerResearch/tigerbot-research-plugin|机器学习数据集|研报数据数据集
语料库:TransGPT-pt
数据集地址:TransGPT-pt
预训练语料库的预处理 通常包括以下步骤:
预训练语料库的预处理流程图
二、Instruction Fine-tuning Datasets(指令微调数据集)
指令类别
指令可以分为15种主要类别,包括:推理(Reasoning)、数学(Math)、头脑风暴 (Brainstorming)、闭卷问答 (Closed QA)、开放问答 (Open QA)、代码 (Code)、提取 (Extraction)、生成 (Generation)、改写 (Rewrite)、
摘要 (Summarization)、分类 (Classification)、翻译 (Translation)、角色扮演 (Role-playing)、社会规范 (Social Norms)、其他 (Others)。
指令类别摘要
数据集构建方法
Instruction Fine-tuning Datasets 可以通过以下四种方法构建:
人工生成 (HG): 由人类标注者手动创建指令,无需模型辅助。
模型构建 (MC): 利用 LLM 生成指令,例如使用 Self-Instruct 方法。
现有数据集收集和改进 (CI): 整合和改进现有开源数据集。
多种方法结合 (HG & CI & MC): 结合上述三种方法的优势。
通用指令微调数据集对应的构建方法
69个通用指令微调数据集如下:
数据集:Alpaca data
数据集地址:tatsu-lab/alpaca|自然语言处理数据集|指令学习数据集
数据集:Alpaca GPT4 data
数据集地址:vicgalle/alpaca-gpt4|自然语言处理数据集|机器学习数据集
数据集:Alpaca GPT4 data zh
数据集地址:shibing624/alpaca-zh|自然语言处理数据集|语言模型数据集
数据集:Aya Collection
数据集地址:CohereForAI/aya_collection|多语言处理数据集|自然语言处理数据集
数据集:Aya Dataset
数据集地址:CohereForAI/aya_dataset|多语言处理数据集|大型语言模型数据集
数据集:Bactrain-X
数据集地址:MBZUAI/Bactrian-X|多语言数据集|文本生成数据集
数据集:Baize
数据集地址:linkanjarad/baize-chat-data|聊天机器人数据集|文本生成数据集
数据集:BELLE Generated Chat
数据集地址:BelleGroup/generated_chat_0.4M|自然语言处理数据集|角色生成数据集
数据集:BELLE Multiturn Chat
数据集地址:BelleGroup/multiturn_chat_0.8M|对话系统数据集|自然语言处理数据集
数据集:BELLE train 0.5M CN
数据集地址:BelleGroup/train_0.5M_CN|自然语言处理数据集|中文语言模型数据集
数据集:BELLE train 1M CN
数据集地址:BelleGroup/train_1M_CN|自然语言处理数据集|文本生成数据集
数据集:BELLE train 2M CN
数据集地址:BelleGroup/train_2M_CN|自然语言处理数据集|中文语音识别数据集
数据集:BELLE train 3.5M CN
数据集地址:BelleGroup/train_3.5M_CN|自然语言处理数据集|文本生成数据集
数据集:CAMEL
数据集地址:CAMEL|多语言对话数据集|代码生成数据集
数据集:ChatGPT corpus
数据集地址:chatgpt-corpus|自然语言处理数据集|数据训练数据集
数据集:COIG
数据集地址:COIG-CQIA|自然语言处理数据集|指令微调数据集
数据集:CrossFit
数据集地址:CrossFit|自然语言处理数据集|少样本学习数据集
数据集:databricks-dolly-15K
数据集地址:databricks/databricks-dolly-15k|自然语言处理数据集|文本生成数据集
数据集:DialogStudio
数据集地址:DialogStudio|对话技术数据集|数据集资源数据集
数据集:Dynosaur
数据集地址:Dynosaur/dynosaur-full
数据集:Firefly
数据集地址:YeungNLP/firefly-train-1.1M|自然语言处理数据集|对话系统数据集
数据集:Flan-mini
数据集地址:declare-lab/flan-mini|自然语言处理数据集|编程语言理解数据集
数据集:Flan 2021
数据集地址:Flan 2021|自然语言处理数据集|机器学习数据集
数据集:Flan 2022
数据集地址:philschmid/flanv2
数据集:GPT4All
数据集地址:GPT4all|自然语言处理数据集|指令数据集数据集
数据集:GuanacoDataset
数据集地址:GuanacoDataset|自然语言处理数据集|跨语言任务数据集
数据集:HC3
数据集地址:Hello-SimpleAI/HC3|自然语言处理数据集|人工智能对话系统数据集
数据集:InstructDial
数据集地址:InstructDial|对话系统数据集|自然语言处理数据集
数据集:InstructGPT-sft
数据集地址:InstructGPT-sft
数据集:InstructionWild v1
数据集地址:InstructionWild v1|自然语言处理数据集|指令生成数据集
数据集:InstructionWild v2
数据集地址:InstructionWild v2|自然语言处理数据集|指令理解数据集
数据集:LaMini-LM
数据集地址:MBZUAI/LaMini-instruction|文本生成数据集|语言模型微调数据集
数据集:LCCC
数据集地址:thu-coai/lccc|中文对话数据集|数据清洗数据集
数据集:LIMA-sft
数据集地址:undefined|机器学习数据集|自然语言处理数据集
数据集:LMSYS-Chat-1M
数据集地址:LMSYS-Chat-1M|语言模型数据集|对话数据数据集
数据集:LogiCoT
数据集地址:LogiCoT|逻辑推理数据集|自然语言处理数据集
数据集:LongForm
数据集地址:LongForm|自然语言处理数据集|指令生成数据集
数据集:Luotuo-QA-B
数据集地址:遇见数据集-让每个数据集都被发现,让每一次遇见都有价值
数据集:MOSS 002 sft data
数据集地址:fnlp/moss-002-sft-data|对话系统数据集|文本生成数据集
数据集:MOSS 003 sft data
数据集地址:fnlp/moss-003-sft-data|对话系统数据集|自然语言处理数据集
数据集:MOSS 003 sft plugin data
数据集地址:moss-003-sft-plugin-data|多轮对话数据集|插件增强数据集
数据集:NATURAL INSTRUCTIONS
数据集地址:Natural Instructions|自然语言处理数据集|机器学习数据集
数据集:OASST1
数据集地址:OpenAssistant/oasst1|自然语言处理数据集|数据科学数据集
数据集:OIG
数据集地址:laion/OIG|自然语言处理数据集|机器学习数据集
数据集:OL-CC
数据集地址:lorinma/BAAI_OL-CC|中文问答数据集|对话系统数据集
数据集:OpenChat
数据集地址:openchat/openchat_sharegpt4_dataset|自然语言处理数据集|机器学习数据集
数据集:OpenOrca
数据集地址:Open-Orca/OpenOrca|自然语言处理数据集|机器学习模型训练数据集
数据集:Open-Platypus
数据集地址:garage-bAInd/Open-Platypus|自然语言处理数据集|机器学习数据集
数据集:OPT-IML Bench
数据集地址:OPT-IML Bench|自然语言处理数据集|指令微调数据集
数据集:Phoenix-sft-data-v1
数据集地址:Phoenix-sft-data-v1|多语言对话数据集|自然语言处理数据集
数据集:PromptSource
数据集地址:PromptSource|自然语言处理数据集|提示工程数据集
数据集:RedGPT-Dataset-V1-CN
数据集地址:RedGPT 通过参考信息增强的对话生成模型|对话生成数据集|自然语言处理数据集
数据集:Self-Instruct
数据集地址:Self-Instruct
数据集:ShareChat
数据集地址:ShareChat
数据集:ShareGPT-Chinese-English-90k
数据集地址:shareAI/ShareGPT-Chinese-English-90k|自然语言处理数据集|指令微调数据集
数据集:ShareGPT90K
数据集地址:ShareGPT90K
数据集:SUPER-NATURAL INSTRUCTIONS
数据集地址:andersonbcdefg/supernatural-instructions-2m
数据集:TigerBot sft en
数据集地址:TigerResearch/sft_en|自然语言处理数据集|模型微调数据集
数据集:TigerBot sft zh
数据集地址:TigerResearch/sft_zh|中文问答数据集|指令微调数据集
数据集:T0
数据集地址:bigscience/P3|自然语言处理数据集|数据模板数据集
数据集:UltraChat
数据集地址:HuggingFaceH4/ultrachat_200k|聊天机器人数据集|自然语言处理数据集
数据集:UnifiedSKG
数据集地址:UnifedSKG|知识接地数据集|多任务学习数据集
数据集:Unnatural Instructions
数据集地址:mrm8488/unnatural-instructions-core|自然语言处理数据集|指令遵循数据集
数据集:WebGLM-QA
数据集地址:THUDM/webglm-qa|机器学习数据集|自然语言处理数据集
数据集:Wizard evol instruct zh
数据集地址:silk-road/Wizard-LM-Chinese-instruct-evol|自然语言处理数据集|中文语言模型数据集
数据集:Wizard evol instruct 196K
数据集地址:WizardLMTeam/WizardLM_evol_instruct_V2_196k|数学模型数据集|数据集构建数据集
数据集:Wizard evol instruct 70K
数据集地址:WizardLMTeam/WizardLM_evol_instruct_70k|数学数据集|编程数据集
数据集:xP3
数据集地址:bigscience/xP3
数据集:Zhihu-KOL
数据集地址:wangrui6/Zhihu-KOL|社交媒体分析数据集|自然语言处理数据集
34个 特定领域指令微调数据集
数据集:BELLE_School_Math
数据集地址:BelleGroup/school_math_0.25M|数学教育数据集|自然语言处理数据集
数据集:ChatDoctor
数据集地址:ChatDoctor
数据集:ChatMed_Consult_Dataset
数据集地址:michaelwzhu/ChatMed_Consult_Dataset|医疗咨询数据集|自然语言处理数据集
数据集:Child_chat_data
数据集地址:Child_chat_data
数据集:CMtMedQA
数据集地址:CMtMedQA|医疗对话数据集|模型训练数据集
数据集:Code_Alpaca_20K
数据集地址:Code_Alpaca_20K
数据集:CodeContest
数据集地址:CodeContests|机器学习数据集|编程竞赛数据集
数据集:CommitPackFT
数据集地址:bigcode/commitpackft|代码提交数据集|数据分析数据集
数据集:DISC-Fin-SFT
数据集地址:DISC-Fin-SFT|金融数据集|指令处理数据集
数据集:DISC-Law-SFT
数据集地址:DISC-Law-SFT 高质量中文法律监督微调数据集|法律数据集|自然语言处理数据集
数据集:DISC-Med-SFT
数据集地址:Flmc/DISC-Med-SFT|医疗问答数据集|对话系统数据集
数据集:Educhat-sft-002-data-osm
数据集地址:ecnu-icalk/educhat-sft-002-data-osm|对话系统数据集|自然语言处理数据集
数据集:GeoSignal
数据集地址:daven3/geosignal|科学领域适应数据集|语言模型训练数据集
数据集:Goat
数据集地址:tiedong/goat|算术任务数据集|问答系统数据集
数据集:HanFei 1.0
数据集地址:HanFei数据集
数据集:HuatuoGPT-sft-data-v1
数据集地址:HuatuoGPT-sft-data-v1|医疗咨询数据集|自然语言处理数据集
数据集:Huatuo-26M
数据集地址:Huatuo-26M|医疗问答数据集|医疗知识数据集
数据集:LawGPT_zh
数据集地址:LawGPT_zh
数据集:Lawyer LLaMA_sft
数据集地址:Lawyer LLaMA_sft
数据集:MeChat
数据集地址:MeChat|心理健康数据集|对话生成数据集
数据集:MedDialog
数据集地址:UCSD26/medical_dialog|医疗对话数据集|问答系统数据集
数据集:Medical Meadow
数据集地址:Medical Meadow
数据集:Medical-sft
数据集地址:shibing624/medical|医疗,偏好数据集数据集
数据集:Mol-Instructions
数据集地址:zjunlp/Mol-Instructions|生物分子数据集|大型语言模型数据集
数据集:MWP
数据集地址:Medical Meadow
数据集:OpenMathInstruct-1
数据集地址:nvidia/OpenMathInstruct-1|数学教育数据集|机器学习数据集
数据集:Owl-Instruction
数据集地址:Owl-Instruction
数据集:PROSOCIALDIALOG
数据集地址:allenai/prosocial-dialog|对话系统数据集|人工智能伦理数据集
数据集:QiZhenGPT-sft-20k
数据集地址:QiZhenGPT-sft-20k
数据集:ShenNong_TCM_Dataset
数据集地址:TCMD|中医数据集|人工智能评估数据集
数据集:TaoLi_data
数据集地址:TaoLi_data
数据集:ToolAlpaca
数据集地址:ToolAlpaca
数据集:ToolBench
数据集地址:ToolBench
数据集:TransGPT-sft
数据集地址:TransGPT-sft
三、Preference Datasets (偏好数据集)
偏好评估方法:
投票 (Vote): 人类或模型对多个响应进行投票,选择其中最好的一个或几个。
排序 (Sort): 将多个响应按照预定义的标准进行排序,反映它们之间的相对偏好顺序。
评分 (Score): 给多个响应分配分数,提供更灵活的偏好强度表示。
其他: 一些偏好数据集采用其他评估方法,例如步骤对齐和源差异分析。
对应各种偏好评估方法的不同偏好数据集
16个偏好数据集
数据集:Alpaca comparison data
数据集地址:Alpaca comparison data|模型比较数据集|偏好反馈数据集
数据集:Chatbot arena conversations
数据集地址:undefined|聊天机器人数据集|自然语言处理数据集
数据集:CValues
数据集地址:CValues-Comparison|价值观评估数据集|人工智能文本生成数据集
数据集:hh-rlhf
数据集地址:Anthropic/hh-rlhf
数据集:Medical-rlhf
数据集地址:shibing624/medical|医疗,偏好数据集数据集
数据集:MT-Bench human judgments
数据集地址:lmsys/mt_bench_human_judgments|自然语言处理数据集|机器学习模型评估数据集
数据集:OASST1 pairwise rlhf reward
数据集地址:tasksource/oasst1_pairwise_rlhf_reward|奖励建模数据集|多语言数据数据集
数据集:PKU-SafeRLHF
数据集地址:PKU-SafeRLHF|大型语言模型数据集|安全对齐数据集
数据集:PRM800K
数据集地址:euclaise/prm800k_preferences|偏好学习数据集|数学推理数据集
数据集:SHP
数据集地址:stanfordnlp/SHP|机器学习数据集|数据集难度评估数据集
数据集:Stable Alignment
数据集地址:Stable Alignment|社交智能数据集|响应调整数据集
数据集:Stack-Exchange-Preferences
数据集地址:HuggingFaceH4/stack-exchange-preferences|用户偏好分析数据集|自然语言处理数据集
数据集:Summarize from Feedback
数据集地址:openai/summarize_from_feedback|自然语言处理数据集|机器学习数据集
数据集:UltraFeedback
数据集地址:openbmb/UltraFeedback|自然语言处理数据集|偏好数据集数据集
数据集:WebGPT
数据集地址:openai/webgpt_comparisons|自然语言处理数据集|问答系统数据集
数据集:Zhihu rlhf 3k
数据集地址:https://www.selectdataset.com/dataset/70607709831f83178eb08689ca7accc4
四、Evaluation Datasets (评估数据集)
评估数据集的评估类别
三种评价方法
112个评估数据集
数据集:AgentBench
数据集地址:AgentBench
数据集:AGIEval
数据集地址:AGIEval|教育评估数据集|人工智能测试数据集
数据集:ALCUNE
数据集地址:ALCUNE
数据集:AlpacaEval
数据集地址:AlpacaEval|自然语言处理数据集|模型评估数据集
数据集:API-Bank
数据集地址:API-Bank|人工智能数据集|API集成数据集
数据集:APIBench
数据集地址:gorilla-llm/APIBench
数据集:APPS
数据集地址:codeparrot/apps|自然语言处理数据集|编程语言生成数据集
数据集:ARB
数据集地址:ARB
数据集:BayLing-80
数据集地址:BayLing-80|语言模型数据集|跨语言评估数据集
数据集:BBF-CFLEB
数据集地址:BBF-CFLEB|金融数据集|自然语言处理数据集
数据集:BBH
数据集地址:BBH
数据集:BELLE eval
数据集地址:BELLE eval
数据集:BIG-Bench
数据集地址:google/bigbench
数据集:BIRD
数据集地址:BIRD
数据集:BOSS
数据集地址:BOSS|自然语言处理数据集|模型鲁棒性数据集
数据集:CBLUE
数据集地址:中文医疗信息处理评测基准CBLUE|医疗信息处理数据集|自然语言处理数据集
数据集:C-CLUE
数据集地址:C-CLUE
数据集:CELLO
数据集地址:CELLO
数据集:C-Eval
数据集地址:ceval/ceval-exam|自然语言处理数据集|机器学习评估数据集
数据集:CG-Eval
数据集地址:CG-Eval
数据集:Chain-of-Thought Hub
数据集地址:Chain-of-Thought Hub
数据集:Choice-75
数据集地址:Choice-75|脚本学习数据集|智能系统决策数据集
数据集:CLEVA
数据集地址:CLEVA
数据集:CLiB
数据集地址:CLiB
数据集:CLUE
数据集地址:CLUE 中文语言理解评测基准数据集|中文语言理解数据集|自然语言处理数据集
数据集:CMB
数据集地址:CMB|医学评估数据集|语言模型数据集
数据集:CMMLU
数据集地址:haonan-li/cmmlu|中文语言理解数据集|多任务评估数据集
数据集:CMMLU
数据集地址:haonan-li/cmmlu|中文语言理解数据集|多任务评估数据集
数据集:CrowS-Pairs
数据集地址:CrowS-Pairs|偏见识别数据集|自然语言处理数据集
数据集:CUGE
数据集地址:CUGE|自然语言处理数据集|中文语言理解与生成数据集
数据集:decaNLP
数据集地址:decaNLP (Natural Language Decathlon Benchmark)|自然语言处理数据集|多任务学习数据集
数据集:DS-1000
数据集地址:xlangai/DS-1000|代码生成数据集|文本生成数据集
数据集:EcomGPT eval
数据集地址:EcomGPT eval
数据集:EmotionBench
数据集地址:EmotionBench
数据集:FACTOR
数据集地址:Wiki-FACTOR, News-FACTOR, Expert-FACTOR|语言模型评估数据集|事实准确性数据集
数据集:FActScore
数据集地址:FActScore
数据集:FactualityPrompt
数据集地址:FactualityPrompt
数据集:FairEval
数据集地址:FairEval
数据集:FewCLUE
数据集地址:FewCLUE|小样本学习数据集|自然语言处理数据集
数据集:FinancelQ
数据集地址:FinancelQ
数据集:FinBen
数据集地址:FinBen|金融科技数据集|语言模型评估数据集
数据集:FinEval
数据集地址:SUFE-AIFLM-Lab/FinEval|金融知识评估数据集|大型语言模型数据集
数据集:FlagEval
数据集地址:FlagEval
数据集:FLUE
数据集地址:FLUE
数据集:FreshQA
数据集地址:FreshQA
数据集:GAOKAO-Bench
数据集地址:GAOKAO-Bench|中国高考数据集|测评数据集数据集
数据集:GeoBench
数据集地址:GeoBench
数据集:GLUE
数据集地址:GLUE
数据集:GLUE-X
数据集地址:GLUE-X
数据集:HalluQA
数据集地址:HalluQA 中文大模型幻觉评估数据集|中文语言处理数据集|机器学习评估数据集
数据集:HaluEval
数据集地址:HaluEval|语言模型评估数据集|幻觉检测数据集
数据集:HELM
数据集地址:HELM|自然语言处理数据集|语言模型评估数据集
数据集:HuaTuo26M-test
数据集地址:FreedomIntelligence/huatuo26M-testdatasets|自然语言生成数据集|医学数据集
数据集:HumanEval
数据集地址:openai/openai_humaneval|代码生成数据集|Python编程数据集
数据集:HumanEvalPack
数据集地址:bigcode/humanevalpack|代码生成数据集|多语言编程数据集
数据集:InfiniteBench
数据集地址:xinrongzhang2022/InfiniteBench|自然语言处理数据集|长上下文评估数据集
数据集:KoLA
数据集地址:KoLA|语言模型评估数据集|知识导向基准数据集
数据集:LAiW
数据集地址:LAiW|法律领域数据集|语言模型评估数据集
数据集:LawBench
数据集地址:LawBench|法律数据集|模型评估数据集
数据集:LegalBench
数据集地址:nguha/legalbench|法律推理数据集|自然语言处理数据集
数据集:L-Eval
数据集地址:L4NLP/LEval|自然语言处理数据集|长文本理解数据集
数据集:LexGLUE
数据集地址:LexGLUE|法律文本理解数据集|自然语言处理数据集
数据集:LEXTREME
数据集地址:joelniklaus/lextreme|自然语言处理数据集|法律文本分析数据集
数据集:LILA
数据集地址:allenai/lila
数据集:LLMEVAL-1
数据集地址:LLMEVAL-1
数据集:LLMEVAL-2
数据集地址:LLMEVAL-2
数据集:LLMEVAL-3
数据集地址:LLMEVAL-3
数据集:LLMEval2
数据集地址:LLMEval2
数据集:LMentry
数据集地址:LMentry|语言模型测试数据集|基准评估数据集
数据集:LMExamQA
数据集地址:LMExamQA
数据集:LongBench
数据集地址:THUDM/LongBench|长上下文理解数据集|多语言多任务数据集
数据集:LongEval
数据集地址:LongEval
数据集:LooGLE
数据集地址:bigai-nlco/LooGLE|大型语言模型数据集|长上下文理解数据集
数据集:MCTS
数据集地址:MCTS|文本简化数据集|语言处理数据集
数据集:miniF2F_v1
数据集地址:miniF2F_v1
数据集:MINT
数据集地址:MINT
数据集:MMCU
数据集地址:MMCU
数据集:MMLU
数据集地址:MMLU
数据集:MT-Bench
数据集地址:MT-Bench
数据集:MTPB
数据集地址:MTPB
数据集:MultiMedQA
数据集地址:katielink/healthsearchqa|医疗问答数据集|消费者健康数据集
数据集:M3Exam
数据集地址:M3Exam|多语言评估数据集|多模态评估数据集
数据集:M3KE
数据集地址:TJUNLP/M3KE|自然语言处理数据集|知识评估数据集
数据集:NeuLR
数据集地址:NeuLR
数据集:ODEX
数据集地址:ODEX
数据集:Owl-Bench
数据集地址:Owl-Bench
数据集:PandaLM_testset
数据集地址:PandaLM测试数据集|语言模型评估数据集|人工标注数据集
数据集:PromptBench
数据集地址:PromptBench
数据集:PromptCBLUE
数据集地址:PromptCBLUE|医学领域数据集|语言模型评估数据集
数据集:QiZhenGPT_eval
数据集地址:QiZhenGPT_eval
数据集:RAFT
数据集地址:ought/raft|自然语言处理数据集|机器学习数据集
数据集:SafetyBench
数据集地址:thu-coai/SafetyBench|大型语言模型数据集|安全评估数据集
数据集:Safety-Prompts
数据集地址:thu-coai/Safety-Prompts
数据集:SCALE
数据集地址:SCALE
数据集:SCIBENCH
数据集地址:SciBench|科学问题解决数据集|教育评估数据集
数据集:SentEval
数据集地址:SentEval|自然语言处理数据集|句子嵌入数据集
数据集:ScienceQA
数据集地址:ScienceQA
数据集:SocKET
数据集地址:SocKET|自然语言处理数据集|社会知识测试数据集
数据集:SuperCLUE
数据集地址:SuperCLUE|自然语言处理数据集|测评数据集数据集
数据集:SuperCLUE-Agent
数据集地址:SuperCLUE-Agent
数据集:SuperCLUE-Safety
数据集地址:SuperCLUE-Safety
数据集:SuperGLUE
数据集地址:SuperGLUE|语言理解数据集|机器学习数据集
数据集:TabMWP
数据集地址:TabMWP|自然语言处理数据集|数据推理数据集
数据集:TheoremQA
数据集地址:TheoremQA|定理问答数据集|AI评估数据集
数据集:ToolBench
数据集地址:ToolBench|API工具使用数据集|指令生成数据集
数据集:TRUSTGPT
数据集地址:TRUSTGPT
数据集:TruthfulQA
数据集地址:TruthfulQA|自然语言处理数据集|知识验证数据集
数据集:Vicuna Evaluation
数据集地址:Vicuna Evaluation
数据集:XiezhiBenchmark
数据集地址:XiezhiBenchmark
数据集:XNLI
数据集地址:XNLI (Cross-lingual NLI)|自然语言推理数据集|跨语言数据集
数据集:XTREME
数据集地址:google/xtreme
数据集:ZeroSCROLLS
数据集地址:tau/zero_scrolls|自然语言处理数据集|长文本理解数据集
五、Traditional NLP Datasets (传统NLP数据集)
传统NLP数据集(154个)
根据任务类型进行分类问答、文本蕴涵、数学、指代消解、情感分析、语义匹配、文本生成、文本翻译、文本摘要、文本分类、文本质量评估、文本到代码、命名实体识别、关系抽取、多任务等
传统NLP数据集的不同NLP任务类别
37个阅读理解数据集
阅读理解数据集
数据集:BoolQ
数据集地址:The BoolQ Dataset|自然语言推理数据集|问答系统数据集
数据集:CondaQA
数据集地址:lasha-nlp/CONDAQA|自然语言处理数据集|阅读理解数据集
数据集:CosmosQA
数据集地址:allenai/cosmos_qa|常识推理数据集|机器阅读理解数据集
数据集:C3
数据集地址:C3|机器阅读理解数据集|自然语言处理数据集
数据集:DREAM
数据集地址:DREAM|对话理解数据集|阅读理解数据集
数据集:DuReader Yes/No
数据集地址:DuReaderrobust|机器阅读理解数据集|数据集数据集
数据集:MCTest
数据集地址:sagnikrayc/mctest
数据集:MultiRC
数据集地址:CogComp/eraser_multi_rc|阅读理解数据集|多句问题处理数据集
数据集:PubMedQA
数据集地址:qiaojin/PubMedQA|医学信息检索数据集|自然语言处理数据集
数据集:QuAIL
数据集地址:QuAIL
数据集:RACE
数据集地址:ehovy/race|阅读理解数据集|自然语言处理数据集
数据集:ReClor
数据集地址:ReClor
数据集:ChID
数据集地址:thu-coai/chid|中文成语数据集|语言测试数据集
数据集:CLOTH
数据集地址:AndyChiang/cloth|语言学习数据集|完形填空数据集
数据集:CMRC2019
数据集地址:CMRC 2019|机器阅读理解数据集|自然语言处理数据集
数据集:LAMBADA
数据集地址:cimec/lambada|自然语言处理数据集|文本理解数据集
数据集:Adversarial QA
数据集地址:UCLNLP/adversarial_qa|自然语言处理数据集|机器学习数据集
数据集:CMRC2018
数据集地址:CMRC 2018|机器阅读理解数据集|中文文本处理数据集
数据集:CUAD
数据集地址:cuad-qa
数据集:Dureader Checklist
数据集地址:Dureader Checklist
数据集:DuReader Robust
数据集地址:DuReader Robust
数据集:HOTPOTQA
数据集地址:hotpotqa/hotpot_qa|问答系统数据集|自然语言处理数据集
数据集:MLQA
数据集地址:facebook/mlqa|跨语言问答数据集|多语言数据集数据集
数据集:MS MARCO
数据集地址:microsoft/ms_marco|机器阅读理解数据集|自然语言生成数据集
数据集:Natural Questions
数据集地址:google-research-datasets/natural_questions|问答系统数据集|自然语言处理数据集
数据集:QuAC
数据集地址:allenai/quac|问题回答数据集|自然语言处理数据集
数据集:Quoref
数据集地址:quoref
数据集:ReCoRD
数据集地址:ReCoRD
数据集:SQuAD
数据集地址:rajpurkar/squad|自然语言处理数据集|阅读理解数据集
数据集:SQuAD 2.0
数据集地址:SQuAD 2.0
数据集:TriviaQA
数据集地址:TriviaQA|自然语言处理数据集|机器学习数据集
数据集:TyDIQA
数据集地址:google-research-datasets/tydiqa|多语言问答数据集|自然语言处理数据集
数据集:CoQA
数据集地址:CoQA
数据集:DROP
数据集地址:DROP
数据集:DuoRC
数据集地址:ibm/duorc|文本理解数据集|文本生成数据集
数据集:DuReader 2.0
数据集地址:DuReader 2.0
数据集:QASPER
数据集地址:allenai/qasper|自然语言处理数据集|问答系统数据集
13个知识问答数据集
知识问答数据集
数据集:ARC
数据集地址:allenai/ai2_arc|自然语言处理数据集|机器学习数据集
数据集:CMD
数据集地址:CMD
数据集:cMedQA2
数据集地址:cMedQA2|医疗问答数据集|数据隐私数据集
数据集:CommonsenseQA
数据集地址:CommonsenseQA|常识推理数据集|自然语言处理数据集
数据集:OpenBookQA
数据集地址:allenai/openbookqa|问答系统数据集|语言理解数据集
数据集:PIQA
数据集地址:ybisk/piqa|问答系统数据集|物理常识推理数据集
数据集:SciQ
数据集地址:allenai/sciq|科学教育数据集|自然语言处理数据集
数据集:JEC-QA
数据集地址:JEC-QA|法律考试数据集|问答系统数据集
数据集:WebMedQA
数据集地址:webMedQA|医学问答数据集|自然语言处理数据集
数据集:PsyQA
数据集地址:PsyQA
数据集:HEAD-QA
数据集地址:dvilares/head_qa|医疗数据集|问答系统数据集
数据集:ECQA
数据集地址:ECQA
数据集:WikiQA
数据集地址:microsoft/wiki_qa|问答系统数据集|自然语言处理数据集
13个推理问答数据集
推理问答数据集
数据集:COPA
数据集地址:COPA
数据集:CREAK
数据集地址:CREAK
数据集:HellaSwag
数据集地址:HellaSwag|自然语言处理数据集|常识推理数据集
数据集:LogiQA
数据集地址:LogiQA|逻辑推理数据集|机器阅读理解数据集
数据集:PROST
数据集地址:corypaik/prost|物理推理数据集|自然语言处理数据集
数据集:QASC
数据集地址:allenai/qasc|自然语言处理数据集|教育数据集
数据集:QuaRel
数据集地址:QuaRel
数据集:QuaRTz
数据集地址:allenai/quartz|自然语言处理数据集|定性关系理解数据集
数据集:ROPES
数据集地址:allenai/ropes|自然语言处理数据集|推理能力数据集
数据集:Social IQa
数据集地址:allenai/social_i_qa|社交智能数据集|问答系统数据集
数据集:StoryCloze
数据集地址:LSDSem/story_cloze|故事理解数据集|常识推理数据集
数据集:STRATEGYQA
数据集地址:STRATEGYQA
数据集:WIQA
数据集地址:wiqa
10个识别文本蕴含数据集
识别文本蕴含数据集
数据集:ANLI
数据集地址:Adversarial NLI (ANLI)|自然语言处理数据集|对抗性训练数据集
数据集:CINLID
数据集地址:CINLID
数据集:CMNLI
数据集地址:CMNLI|自然语言处理数据集|文本对关系判断数据集
数据集:CommitmentBank
数据集地址:CommitmentBank (CB)|语言学数据集|语用学数据集
数据集:MedNLI
数据集地址:bigbio/mednli|医疗信息处理数据集|自然语言处理数据集
数据集:MultiNLI
数据集地址:nyu-mll/multi_nli|自然语言处理数据集|文本蕴含数据集
数据集:OCNLI
数据集地址:OCNLI|自然语言处理数据集|自然语言推理数据集
数据集:RTE
数据集地址:RTE|自然语言处理数据集|机器学习数据集
数据集:SNLI
数据集地址:stanfordnlp/snli|自然语言处理数据集|文本分类数据集
数据集:WANLI
数据集地址:alisawuffles/WANLI|自然语言推理数据集|人工智能数据集
9个数学数据集
数学数据集
数据集:Ape210K
数据集地址:Ape210K|自然语言处理数据集|数学问题解答数据集
数据集:AQUA-RAT
数据集地址:deepmind/aqua_rat|代数问题解答数据集|自然语言处理数据集
数据集:ASDiv
数据集地址:ASDiv|数学问题求解数据集|逻辑推理数据集
数据集:GSM8K
数据集地址:openai/gsm8k|数学应用题数据集|自然语言处理数据集
数据集:MATH
数据集地址:MATH
数据集:MathQA
数据集地址:allenai/math_qa|数学问题解答数据集|自然语言处理数据集
数据集:Math23K
数据集地址:Math23K (Math23K for Math Word Problem Solving)|自然语言处理数据集|数学问题解答数据集
数据集:NaturalProofs
数据集地址:NaturalProofs|数学证明数据集|自然语言处理数据集
数据集:SVAMP
数据集地址:SVAMP
6个共指消解数据集
共指消解数据集
数据集:CLUEWSC2020
数据集地址:CLUEWSC2020|自然语言处理数据集|中文文本分析数据集
数据集:DPR
数据集地址:community-datasets/definite_pronoun_resolution|词义消歧数据集|自然语言处理数据集
数据集:WiC
数据集地址:WiC|自然语言处理数据集|词义消歧数据集
数据集:WinoGrande
数据集地址:allenai/winogrande|常识推理数据集|文本理解数据集
数据集:WinoWhy
数据集地址:WinoWhy
数据集:WSC
数据集地址:ErnestSDavis/winograd_wsc|语言理解数据集|技术挑战数据集
4个情感分析数据集
情感分析数据集
数据集:EPRSTMT
数据集地址:FewCLUE|小样本学习数据集|自然语言处理数据集
数据集:IMDB
数据集地址:stanfordnlp/imdb|情感分析数据集|文本分类数据集
数据集:Sentiment140
数据集地址:stanfordnlp/sentiment140|情感分析数据集|文本分类数据集
数据集:SST-2
数据集地址:stanfordnlp/sst2|情感分析数据集|自然语言处理数据集
10个语义匹配数据集
语义匹配数据集
数据集:AFQMC
数据集地址:AFQMC(Ant Financial Question Matching Corpus)|自然语言处理数据集|金融文本分析数据集
数据集:BQ
数据集地址:shibing624/nli_zh|自然语言处理数据集|语义匹配数据集
数据集:BUSTM
数据集地址:BUSTM|智能助手数据集|语音识别数据集
数据集:DuQM
数据集地址:DuQM
数据集:LCQMC
数据集地址:C-MTEB/LCQMC|自然语言处理数据集|句子相似度数据集
数据集:MRPC
数据集地址:MRPC (Microsoft Research Paraphrase Corpus)|自然语言处理数据集|文本分析数据集
数据集:PAWS
数据集地址:google-research-datasets/paws|paraphrase识别数据集|文本分类数据集
数据集:PAWS-X
数据集地址:PAWS-X
数据集:QQP
数据集地址:QQP|自然语言处理数据集|文本匹配数据集
数据集:STSB
数据集地址:PhilipMay/stsb_multi_mt|自然语言处理数据集|机器翻译数据集
4个文本生成数据集
文本生成数据集
数据集:CommonGen
数据集地址:allenai/common_gen|文本生成数据集|常识推理数据集
数据集:DART
数据集地址:Yale-LILY/dart|文本生成数据集|数据转换数据集
数据集:E2E
数据集地址:tuetschek/e2e_nlg|自然语言生成数据集|文本生成数据集
数据集:WebNLG
数据集地址:webnlg-challenge/web_nlg|自然语言生成数据集|数据到文本转换数据集
3个文本翻译数据集
数据集:IWSLT 2017
数据集地址:IWSLT/iwslt2017|机器翻译数据集|多语种数据集
数据集:NLLB
数据集地址:NLLB
数据集:WMT
数据集地址:WMT
14个文本摘要数据集
文本摘要数据集
数据集:AESLC
数据集地址:Yale-LILY/aeslc|邮件主题生成数据集|电子邮件分析数据集
数据集:CNewSum
数据集地址:CNewSum|中文文本摘要数据集|自然语言处理数据集
数据集:CNN-DM
数据集地址:abisee/cnn_dailymail|新闻摘要数据集|文本生成数据集
数据集:Gigaword
数据集地址:GigaWord|自然语言处理数据集|文本摘要数据集
数据集:LCSTS
数据集地址:LCSTS|文本摘要数据集|自然语言处理数据集
数据集:MediaSum
数据集地址:ccdv/mediasum|对话摘要数据集|自然语言处理数据集
数据集:MultiNews
数据集地址:alexfabbri/multi_news|新闻摘要数据集|数据分析数据集
数据集:Newsroom
数据集地址:lil-lab/newsroom|新闻摘要数据集|文本生成数据集
数据集:Opinion Abstracts
数据集地址:Opinion Abstracts
数据集:SAMSum
数据集地址:Samsung/samsum|对话摘要数据集|自然语言处理数据集
数据集:WikiHow
数据集地址:WikiHow|文本挖掘数据集|自然语言处理数据集
数据集:WikiLingua
数据集地址:WikiLingua|跨语言摘要数据集|多语言数据集数据集
数据集:XL-Sum
数据集地址:csebuetnlp/xlsum|文本摘要数据集|多语言处理数据集
数据集:XSum
数据集地址:EdinburghNLP/xsum|自然语言处理数据集|文本摘要数据集
6个文本分类数据集
文本分类数据集
数据集:AGNEWS
数据集地址:fancyzhx/ag_news|文本分类数据集|新闻主题分类数据集
数据集:CSLDCP
数据集地址:FewCLUE|小样本学习数据集|自然语言处理数据集
数据集:IFLYTEK
数据集地址:IFLYTEK
数据集:MARC
数据集地址:defunct-datasets/amazon_reviews_multi|多语言文本处理数据集|情感分析数据集
数据集:THUCNews
数据集地址:THUCNews 新闻数据集|新闻分类数据集|文本分析数据集
数据集:TNEWS
数据集地址:TNews|文本分类数据集|机器学习数据集
4个文本质量评估数据集信息
文本质量评估数据集
数据集:CoLA
数据集地址:CoLA (Corpus of Linguistic Acceptability)|语言学数据集|自然语言处理数据集
数据集:CSCD-IME
数据集地址:CSCD-NS|中文拼写检查数据集|自然语言处理数据集
数据集:SIGHAN
数据集地址:SIGHAN
数据集:YACLC
数据集地址:汉语学习者文本多维标注数据集YACLC V1.0|自然语言处理数据集|汉语学习数据集
4个文本转代码数据集
文本转代码数据集
数据集:CSpider
数据集地址:CSpider
数据集:DuSQL
数据集地址:DuSQL
数据集:MBPP
数据集地址:MBPP
数据集:Spider
数据集地址:Spider|语义解析数据集|文本到SQL数据集
10个命名实体识别数据集
命名实体识别数据集
数据集:CLUENER
数据集地址:CLUENER2020|命名实体识别数据集|信息提取数据集
数据集:CoNLL2003
数据集地址:eriktks/conll2003|命名实体识别数据集|自然语言处理数据集
数据集:Few-NERD
数据集地址:Few-NERD|命名实体识别数据集|自然语言处理数据集
数据集:MSRA
数据集地址:levow/msra_ner|命名实体识别数据集|中文NLP数据集
数据集:OntoNotes 5.0
数据集地址:ontonotes/conll2012_ontonotesv5|自然语言处理数据集|多语言分析数据集
数据集:Resume
数据集地址:Resume
数据集:Taobao NER
数据集地址:E-Commercial NER Dataset / 电商NER数据集|自然语言处理数据集|电子商务数据集
数据集:Weibo NER
数据集地址:Weibo NER
数据集:WUNT2017
数据集地址:leondz/wnut_17|命名实体识别数据集|文本分类数据集
数据集:Youku NER
数据集地址:Youku NER Dataset / 文娱NER数据集|自然语言处理数据集|命名实体识别数据集
4个关系抽取数据集
关系抽取数据集
数据集:Dialogue RE
数据集地址:Dialogue RE
数据集:DocRED
数据集地址:DocRED|文档级关系抽取数据集|自然语言处理数据集
数据集:FewRel
数据集地址:FewRel|少样本学习数据集|关系分类数据集
数据集:TACRED
数据集地址:DFKI-SLT/tacred|关系抽取数据集|知识库构建数据集
3个多任务数据集信息汇总
多任务数据集
数据集:CSL
数据集地址:CSL-500|自然语言处理数据集|文本分析数据集
数据集:METS-CoV
数据集地址:METS-CoV|COVID-19数据集|社交媒体分析数据集
数据集:QED
数据集地址:QED|语言学数据集|问答系统数据集
新的一年,祝大家
眼里有光,兜里有款。
日有熹,月有光,富且昌,寿而康。
好风凭借力,送你上青云。
愿每个人都能在自己的江湖里执梦为剑,潇洒快意!