随着chatgpt的火热,中文知识类问答数据集由收到诸多关注,其作为高质量的QA数据,可以用于SFT阶段以及pretrain预训练阶段。
本文主要介绍目前开源可下载的两个较大规模的知识类数据集,包括147万百度知道知识类数据集、425万社区问答webtext2019zh知识类数据2大数据集,以及8000条保险行业问答数据、15.6万条电信问答数据、77万条金融行业问答数据、20.3万条联通问答数据以及4万条农业银行问答数据等6大小规模领域问答数据集。
本项目充分借鉴了两个项目的工作,供大家一起参考。
一、147万百度知道知识类数据集
百度知道数据集含有1470142个预先过滤过的、高质量问题和答案,每个问题属于一个类别。总共有492个类别,其中频率达到或超过10次的类别有434个。
{"qid":<qid>,"category":<category>,"title":<title>,"desc":<desc>,"answer":<answer>}
其中,category是问题的类型,title是问题的标题,desc是问题的描述,可以为空或与标题内容一致。
数据样例
{
"qid": "qid_6610724023825624555",
"category": "娱乐-度假旅游",
"title": "请问这起交通事故是谁的责任居多?小车和摩托车发生事故,在无红绿灯 ",
"desc": "小车和摩托车发生事故,在无红绿灯的十字路口,小停车看看左右,在觉得安全的情况下刹车慢慢以时速10公里左右的速度靠右行驶过路口,好没有出到十字路口正中时,被左边突然快速行驶过来的摩托车撞在车头前, 摩托车主摔到膝盖和檫伤脸部,请问这起交通事故是谁的责任居多。如果双方都有责任的话,大概各占几成?~\r", "answer": "通过没有信号控制的十字路口,应该减速慢性,让右边的车先行,按你说的,摩托车好像在汽车的左边,所以严格来说可能摩托车全责。当然还要看汽车是否证照齐全,是否饮酒等。具体由交警调查后认定。"
},
{
"qid": "qid_9099219392179923453",
"category": "教育/科学-理工学科-数学",
"title": "一元一次方程!车间有28名工人,生产一种螺栓和螺帽,一个螺栓的两 ", "desc": "车间有28名工人,生产一种栓和螺帽,一个螺栓的两头各套上一个螺帽配成一套,每人每天可以生产螺栓12个或螺帽18个,问多少个工人生产螺栓,多少个工人生产螺帽,才能使一天所生产的螺栓和螺帽刚好配套??(要求用一元一次方程解)快!!",
"answer": "设X人生产螺栓,那么生产螺帽的人就是28-X,\r\nX人可生产螺栓12X个,28-X人可生产螺帽18*(28-X)个,因为两个螺帽和一个螺栓配成一套,那么可列方程\r\n12X=18(28-X)/2\r\n12X=(504-18X)/2\r\n12X=252-9X\r\n12X+9X=252\r\n21X=252\r\nX=252/21=12人\r\n那么生产螺帽的就是28-X=28-12=16人。"
},
{
"qid": "qid_3769366928615670292",
"category": "生活-购物", "title": "开办网上购物网站,需要办理哪些手续?我想开办一个网上购物的网站, ",
"desc": "我想开办一个网上的网站,请问需要办理哪些手续?",
"answer": "你的购物网站肯定要挂靠在公司下面\r\n先注册一个公司去吧"
}
{
"qid": "qid_6490739535150628080",
"category": "游戏-完美游戏-诛仙",
"title": "08年28号新诛仙有电信新区吗?我想问下08年28号的新诛仙六道 ",
"desc": "我想问下08年28号的新六道轮回会不会开电信新区啊?御剑飞行系统是什么样的?",
"answer": "这个没有御剑飞行,好东西完美会慢慢出的。。。据说飞行速度比坐骑慢,不过是直线距离,还是划算,空中会有怪可以打。。坐骑嘛,完美这个钱还是要赚,所以他的速度应该会比飞行快,而且新出的会有属性加成。"
}
下载地址: https://pan.baidu.com/s/1XK3G8A3du2pme2-N5rtUVw 提取码: fgtf
二、425万社区问答webtext2019zh知识类数据集
社区问答webtext2019zh知识类数据集含有410万个预先过滤过的、高质量问题和回复。每个问题属于一个【话题】,总共有2.8万个各式话题,话题包罗万象。从1400万个原始问答中,筛选出至少获得3个点赞以上的的答案,代表了回复的内容比较不错或有趣,从而获得高质量的数据集。除了对每个问题对应一个话题、问题的描述、一个或多个回复外,每个回复还带有点赞数、回复ID、回复者的标签。
{
"qid":<qid>,
"title":<title>,
"desc":<desc>,
"topic":<topic>,
"star":<star>,
"content":<content>,
"answer_id":<answer_id>,
"answerer_tags":<answerer_tags>
}
其中:
qid是问题的id,title是问题的标题,desc是问题的描述,可以为空;
topic是问题所属的话题,star是该回复的点赞个数,content是回复的内容;
answer_id是回复的ID,answerer_tags是回复者所携带的标签。
数据样例
{
"qid": 20619381,
"title": "张献忠血洗四川是否属实?",
"desc": "", "topic": "明朝",
"star": 3,
"content": "四川人历史上有三次大灭绝,现在的川人基本都是湖广填四川填过来的,所以我认为这个基本属实。",
"answer_id": 17447047,
"answerer_tags": "如是我闻"
},
{
"qid": 36651654,
"title": "你发现了哪些基于个人经验的神秘规律?",
"desc": "One 里看到的,看看问答社区的朋友们有什么更加有趣的规律。",
"topic": "经验",
"star": 22,
"content": "去吃饭的路比吃饭回来的路长",
"answer_id": 112831136,
"answerer_tags": "大盈若冲"
},
{
"qid": 20801703,
"title": "为什么大多数楼盘的名字俗到不行?",
"desc": "国内很多楼盘的名字都非常俗,像什么",
"topic": "房地产",
"star": 7,
"content": "房子是卖给大众的,不是专卖给诗人文青的,我见过几个取的很雅的楼盘名字提案,都被毙掉了,因为你要解释这个名字就得一堆文字,不能给大众直观的感觉。另,现在觉得俗是因为见的多了。。。",
"answer_id": 16245275,
"answerer_tags": "九丰投资"
}
下载地址1:链接: https://pan.baidu.com/s/1V2iCtzX-XOuL1Mu1GbRCpA 提取码: n3r7
下载地址2:https://drive.google.com/u/0/uc?id=1u2yW_XohbYL2YAK6Bzc5XrngHstQTf0v&export=download
三、六大细分领域小规模知识问答数据集
当然,出了大规模数据集外,还有较小规模的数据集,包括8000条保险行业问答数据、15.6万条电信问答数据、77万条金融行业问答数据、20.3万条联通问答数据以及4万条农业银行问答数据。
1、8000条保险行业问答数据
下载地址: https://pan.baidu.com/s/1cgYeIrJHAgb8D33H09Zc5w
2、15.6万条电信问答数据
下载地址: https://pan.baidu.com/s/1nrg5SRU3Xy1VN85dd85-vg
3、77万条金融行业问答数据
下载地址: https://pan.baidu.com/s/1z1Rnnk-ubRSvzDu4UvLlIw
4、3.6万条法律问答数据
下载地址: https://pan.baidu.com/s/18Lwq16VBo6wBD_qLb3i33g
5、20.3万条联通问答数据
下载地址: https://pan.baidu.com/s/1oYi9SfbXpnvreJYGV837Nw
6、4万条农业银行问答数据
下载地址: https://pan.baidu.com/s/1n-jT9SKkt6cwI_PjCd7i_g
总结
本文主要介绍了目前开源可下载的两个较大规模的知识类数据集,包括147万百度知道知识类数据集、425万社区问答webtext2019zh知识类数据2大数据集,以及8000条保险行业问答数据、15.6万条电信问答数据、77万条金融行业问答数据、20.3万条联通问答数据以及4万条农业银行问答数据等6大小规模领域问答数据集。
知识类QA数据集对于训练一个生成式的QA来说,具有一定的借鉴意义,大家可以基于该数据做更多尝试。
参考文献
1、https://github.com/brightmart/nlp_chinese_corpus
2、https://github.com/SophonPlus/ChineseNlpCorpus/