知识类问答数据集资源对外开放:百万级百度知道、社区问答及六大领域级小规模语料概述

news2024/11/17 10:43:39

随着chatgpt的火热,中文知识类问答数据集由收到诸多关注,其作为高质量的QA数据,可以用于SFT阶段以及pretrain预训练阶段。

本文主要介绍目前开源可下载的两个较大规模的知识类数据集,包括147万百度知道知识类数据集、425万社区问答webtext2019zh知识类数据2大数据集,以及8000条保险行业问答数据、15.6万条电信问答数据、77万条金融行业问答数据、20.3万条联通问答数据以及4万条农业银行问答数据等6大小规模领域问答数据集。

本项目充分借鉴了两个项目的工作,供大家一起参考。

一、147万百度知道知识类数据集

百度知道数据集含有1470142个预先过滤过的、高质量问题和答案,每个问题属于一个类别。总共有492个类别,其中频率达到或超过10次的类别有434个。

{"qid":<qid>,"category":<category>,"title":<title>,"desc":<desc>,"answer":<answer>}

其中,category是问题的类型,title是问题的标题,desc是问题的描述,可以为空或与标题内容一致。

数据样例

{
  "qid": "qid_6610724023825624555",
  "category": "娱乐-度假旅游",
  "title": "请问这起交通事故是谁的责任居多?小车和摩托车发生事故,在无红绿灯 ", 
  "desc": "小车和摩托车发生事故,在无红绿灯的十字路口,小停车看看左右,在觉得安全的情况下刹车慢慢以时速10公里左右的速度靠右行驶过路口,好没有出到十字路口正中时,被左边突然快速行驶过来的摩托车撞在车头前,  摩托车主摔到膝盖和檫伤脸部,请问这起交通事故是谁的责任居多。如果双方都有责任的话,大概各占几成?~\r",   "answer": "通过没有信号控制的十字路口,应该减速慢性,让右边的车先行,按你说的,摩托车好像在汽车的左边,所以严格来说可能摩托车全责。当然还要看汽车是否证照齐全,是否饮酒等。具体由交警调查后认定。"
},
{
  "qid": "qid_9099219392179923453",  
  "category": "教育/科学-理工学科-数学",
  "title": "一元一次方程!车间有28名工人,生产一种螺栓和螺帽,一个螺栓的两 ", "desc": "车间有28名工人,生产一种栓和螺帽,一个螺栓的两头各套上一个螺帽配成一套,每人每天可以生产螺栓12个或螺帽18个,问多少个工人生产螺栓,多少个工人生产螺帽,才能使一天所生产的螺栓和螺帽刚好配套??(要求用一元一次方程解)快!!",
  "answer": "设X人生产螺栓,那么生产螺帽的人就是28-X,\r\nX人可生产螺栓12X个,28-X人可生产螺帽18*(28-X)个,因为两个螺帽和一个螺栓配成一套,那么可列方程\r\n12X=18(28-X)/2\r\n12X=(504-18X)/2\r\n12X=252-9X\r\n12X+9X=252\r\n21X=252\r\nX=252/21=12人\r\n那么生产螺帽的就是28-X=28-12=16人。"
},
{
  "qid": "qid_3769366928615670292",
  "category": "生活-购物", "title": "开办网上购物网站,需要办理哪些手续?我想开办一个网上购物的网站, ", 
  "desc": "我想开办一个网上的网站,请问需要办理哪些手续?",
  "answer": "你的购物网站肯定要挂靠在公司下面\r\n先注册一个公司去吧"
}
{
  "qid": "qid_6490739535150628080",
  "category": "游戏-完美游戏-诛仙",
  "title": "08年28号新诛仙有电信新区吗?我想问下08年28号的新诛仙六道 ", 
  "desc": "我想问下08年28号的新六道轮回会不会开电信新区啊?御剑飞行系统是什么样的?", 
  "answer": "这个没有御剑飞行,好东西完美会慢慢出的。。。据说飞行速度比坐骑慢,不过是直线距离,还是划算,空中会有怪可以打。。坐骑嘛,完美这个钱还是要赚,所以他的速度应该会比飞行快,而且新出的会有属性加成。"
}

下载地址: https://pan.baidu.com/s/1XK3G8A3du2pme2-N5rtUVw 提取码: fgtf

二、425万社区问答webtext2019zh知识类数据集

社区问答webtext2019zh知识类数据集含有410万个预先过滤过的、高质量问题和回复。每个问题属于一个【话题】,总共有2.8万个各式话题,话题包罗万象。从1400万个原始问答中,筛选出至少获得3个点赞以上的的答案,代表了回复的内容比较不错或有趣,从而获得高质量的数据集。除了对每个问题对应一个话题、问题的描述、一个或多个回复外,每个回复还带有点赞数、回复ID、回复者的标签。

{
    "qid":<qid>,
    "title":<title>,
    "desc":<desc>,
    "topic":<topic>,
    "star":<star>,
    "content":<content>,
    "answer_id":<answer_id>,
    "answerer_tags":<answerer_tags>
}

其中:

qid是问题的id,title是问题的标题,desc是问题的描述,可以为空;
topic是问题所属的话题,star是该回复的点赞个数,content是回复的内容;
answer_id是回复的ID,answerer_tags是回复者所携带的标签。

数据样例

{
  "qid": 20619381,
  "title": "张献忠血洗四川是否属实?",
  "desc": "", "topic": "明朝", 
  "star": 3, 
  "content": "四川人历史上有三次大灭绝,现在的川人基本都是湖广填四川填过来的,所以我认为这个基本属实。",
  "answer_id": 17447047,
  "answerer_tags": "如是我闻"
},
{
  "qid": 36651654, 
  "title": "你发现了哪些基于个人经验的神秘规律?",
  "desc": "One 里看到的,看看问答社区的朋友们有什么更加有趣的规律。",
  "topic": "经验",
  "star": 22,
  "content": "去吃饭的路比吃饭回来的路长",
  "answer_id": 112831136,
  "answerer_tags": "大盈若冲"
 },
 {
   "qid": 20801703, 
   "title": "为什么大多数楼盘的名字俗到不行?",
   "desc": "国内很多楼盘的名字都非常俗,像什么", 
   "topic": "房地产", 
   "star": 7,
   "content": "房子是卖给大众的,不是专卖给诗人文青的,我见过几个取的很雅的楼盘名字提案,都被毙掉了,因为你要解释这个名字就得一堆文字,不能给大众直观的感觉。另,现在觉得俗是因为见的多了。。。",
   "answer_id": 16245275, 
   "answerer_tags": "九丰投资"
  }

下载地址1:链接: https://pan.baidu.com/s/1V2iCtzX-XOuL1Mu1GbRCpA 提取码: n3r7

下载地址2:https://drive.google.com/u/0/uc?id=1u2yW_XohbYL2YAK6Bzc5XrngHstQTf0v&export=download

三、六大细分领域小规模知识问答数据集

当然,出了大规模数据集外,还有较小规模的数据集,包括8000条保险行业问答数据、15.6万条电信问答数据、77万条金融行业问答数据、20.3万条联通问答数据以及4万条农业银行问答数据。

1、8000条保险行业问答数据

下载地址: https://pan.baidu.com/s/1cgYeIrJHAgb8D33H09Zc5w

2、15.6万条电信问答数据

下载地址: https://pan.baidu.com/s/1nrg5SRU3Xy1VN85dd85-vg

3、77万条金融行业问答数据

下载地址: https://pan.baidu.com/s/1z1Rnnk-ubRSvzDu4UvLlIw

4、3.6万条法律问答数据

下载地址: https://pan.baidu.com/s/18Lwq16VBo6wBD_qLb3i33g

5、20.3万条联通问答数据 

下载地址: https://pan.baidu.com/s/1oYi9SfbXpnvreJYGV837Nw

6、4万条农业银行问答数据

 下载地址: https://pan.baidu.com/s/1n-jT9SKkt6cwI_PjCd7i_g

总结

本文主要介绍了目前开源可下载的两个较大规模的知识类数据集,包括147万百度知道知识类数据集、425万社区问答webtext2019zh知识类数据2大数据集,以及8000条保险行业问答数据、15.6万条电信问答数据、77万条金融行业问答数据、20.3万条联通问答数据以及4万条农业银行问答数据等6大小规模领域问答数据集。

知识类QA数据集对于训练一个生成式的QA来说,具有一定的借鉴意义,大家可以基于该数据做更多尝试。

参考文献

1、https://github.com/brightmart/nlp_chinese_corpus
2、https://github.com/SophonPlus/ChineseNlpCorpus/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/375835.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

IOS逆向前期环境准备笔记

ios系统由于效验问题&#xff0c;只能升级不能降级&#xff0c;需要特别注意&#xff0c; 刷系统可以在爱思上搞定&#xff1b; 越狱推荐使用u盘镜像及本地启动盘制作&#xff1a; 注意&#xff0c;要进去bios,关闭安全启动&#xff0c;不然直接失败&#xff1a; Checkra1n镜…

linux升级gcc版本详细教程

0.前言一般linux操作系统默认的gcc版本都比较低&#xff0c;例如centos7系统默认的gcc版本为4.8.5。gcc是从4.7版本开始支持C11的&#xff0c;4.8版本对C11新特性的编译支持还不够完善&#xff0c;因此如果需要更好的体验C11以及以上版本的新特性&#xff0c;需要升级gcc到一个…

九、Vben之可拖拽穿梭框和水印背景如何添加

近期在开发的过程中遇到了两个难题&#xff0c;一个是目前的穿梭框不支持产品的要求&#xff0c;不能够上下拖拽&#xff0c;二是vben没有水印的api&#xff0c;需要我们自己来开发。 一、可拖拽穿梭框 做成功的效果如下&#xff1a; 思路&#xff1a; 将table放入transfer的…

操作系统权限提升(十七)之绕过UAC提权-Windows令牌概述和令牌窃取攻击

系列文章 操作系统权限提升(十二)之绕过UAC提权-Windows UAC概述 操作系统权限提升(十三)之绕过UAC提权-MSF和CS绕过UAC提权 操作系统权限提升(十四)之绕过UAC提权-基于白名单AutoElevate绕过UAC提权 操作系统权限提升(十五)之绕过UAC提权-基于白名单DLL劫持绕过UAC提权 操作系…

android EditText设置后缀

有两种实现方案。 方案一&#xff1a;是自己写一个TextWatcher。 方案二&#xff1a;是重写TextView的getOffsetForPosition方法&#xff0c;返回一个计算好的offset。 我在工作时&#xff0c;使用的是方案一。在离职之后&#xff0c;我还是对这个问题耿耿于怀&#xff0c;所以…

git在工作中的正常使用

开发A和B功能后进行发版。。 一、拉取代码 git clone http://ntc.ntsvars.com:8090/lvweijie/test.git二、开发功能A任务 创建A任务本地分支 #创建A分支&#xff0c;并切换A分支 git checkout -b A三、开发A任务 四、提交A功能文件到本地分支 git add .五、添加提交A功能备…

Tina_Linux打包流程说明指南_new

OpenRemoved_Tina_Linux_打包流程_说明指南_new 1 概述 1.1 编写目的 介绍Allwinner 平台上打包流程。 1.2 适用范围 Allwinner 软件平台Tina v3.0 版本以上。 1.3 相关人员 适用Tina 平台的广大客户&#xff0c;想了解Tina 打包流程的开发人员。 2 固件打包简介 固件…

Jenkins+Gitlab实现代码自动构建部署

一、环境准备 主机名ip安装软件jenkins192.168.75.149jenkinsgitlab192.168.75.147gitlabweb192.168.75.155部署应用 二、jenkins服务器配置 1、生产公钥 [rootjenkins ~]# ssh-keygen &#xff08;2&#xff09;获取公钥信息 公钥信息在配置 Gitlab SSH Keys 时用到。 &am…

Tcpdump抓包验证zookeeper的心跳机制

一、背景 在分布式系统中&#xff0c;zookeeper可以作为服务注册中心&#xff0c;所有提供服务的节点都可以在zookeeper上面注册&#xff0c;并作为一个node被组织起来&#xff0c;如下图&#xff1a; 在RPC框架中&#xff0c;这些服务提供者就是RPC服务的提供者。zookeeper注…

【测试】Python手机自动化测试库uiautomator2和weditor的详细使用

1.说明 我们之前在电脑操作手机进行自动化测试&#xff0c;基本上都是通过Appium的&#xff0c;这个工具确实强大&#xff0c;搭配谷歌官方的UiAutomator基本上可以完成各种测试&#xff0c;但缺点也很明显&#xff0c;配置环境太麻烦了&#xff0c;需要jdk、sdk等&#xff0c…

利用较新版本的IDEA 2022.3.2 创建Java Web的maven项目

1.创建项目 正常三步走&#xff0c;没什么可说的 2.用模板创建项目&#xff08;重要&#xff09; 第一步&#xff0c;一定要选Jakarta EE。这个模板是基于JavaWeb的一个标准模板&#xff0c;如果选了maven中的JavaWeb模板&#xff0c;那就变成了web目录在根目录下&#xff0c;…

测试跟踪模块UX交互升级,多个X-Pack功能开放至开源版,MeterSphere开源持续测试平台v2.7.0发布

2023年2月24日&#xff0c;MeterSphere一站式开源持续测试平台正式发布v2.7.0版本。 在这一版本中&#xff0c;MeterSphere在测试跟踪模块进行了UX交互升级&#xff0c;整个页面采用轻量化设计进行整体降噪&#xff0c;页面信息更加清晰易懂&#xff0c;操作流程更顺畅&#x…

【学习笔记】深入理解JVM之类加载机制

【学习笔记】深入理解JVM之类加载机制 以后基本上都在语雀上面更新&#xff0c;大家有兴趣可以看看嗷&#xff01; 首发地址&#xff1a; 知识库 文章流程图&#xff1a; 1、概述 首先我们先来看看一个 Class 文件所需要经过的一个流程图&#xff1a; 而我们今天要重点需讲的…

如何保护阿里云、政采云等云市场三方账号安全?

什么是云市场&#xff1f;根据百度百科释义&#xff0c;云市场是指物联网中分布在不同地点的海量的商品生产者和消费者之间各种经济关系的集合体&#xff0c;是通过相对集中的云平台资源联合物联网各个感知节点信息资源的方式&#xff0c;以运行分布在不同地点的海量的经济交换…

Java——数组

目录 前言 一、数组的定义 二、数组声明和创建 三、三种初始化及内存分析 Java内存分析 三种初始化 静态初始化 动态初始化 数组的默认初始化 数组的四个基本特点 四、下标越界及小结 五、数组的使用 For-Each循环 数组作方法入参 数组作返回值 六、二维数组 七…

项目管理工具dhtmlxGantt甘特图入门教程(十四):导出/导入 Excel到 iCal

这篇文章给大家讲解利用dhtmlxgantt导入/导出Excel到iCal的操作方法。 dhtmlxGantt是用于跨浏览器和跨平台应用程序的功能齐全的Gantt图表&#xff0c;可满足应用程序的所有需求&#xff0c;是完善的甘特图图表库 DhtmlxGantt正版试用下载&#xff08;qun&#xff1b;765665…

中国跨境平台出海,产业带依然是最大优势

对外贸工厂来说&#xff0c;借助跨境电商服务平台开拓海外市场可行吗&#xff1f;2023年2月11日&#xff0c;在郑州荥阳举办的Starday线下招商会联合线上直播荥阳站上&#xff0c;这是很多现场参会的企业负责人面对大屏上的招商介绍宣传时&#xff0c;大脑飞速思考的问题。2023…

android kotlin 协程(六) 源码浅析

android kotlin 协程(六) 源码浅析 前言: kotlin协程源码十分庞大, 本篇只能吧我理解的源码聊一聊,不会特别深入研究,只会浅浅的看看表层. 本来计划协程系列是10篇左右,后续是flow热流冷流之类的, 冷流操作符之类的应该不会在写了, flow当作Rxjava来用就可以,后续可能还会写一…

Bitlocker加密,与解除加密

引文&#xff1a;应为C盘空间不够用了&#xff0c;想着用U盘从新给C盘分下区。操作时才发现我系统里的磁盘都是Bitlocker加密的&#xff0c;分区工具操作不了磁盘&#xff0c;所以就找到一下方法来解决。1&#xff0c;先讲一下解除加密&#xff1a;直接点击 &#xff1a;设置-&…

python pandas 常用方法汇总

前言 一、pandas是什么&#xff1f; 二、使用步骤 1.引入库 2.处理时间序列数据 3.分组聚合&#xff08;groupby&#xff09; 3.1基本方法 3.2具体使用&#xff1a;如图包含三个字段&#xff0c;company、salary、age 总结 Pandas 最最常用函数罗列 Pandas 函数用法示…