传神社区|数据集合集第3期|中文NLP数据集合集

news2024/11/15 12:33:31

自从ChatGPT等大型语言模型(Large Language Model, LLM)出现以来,其类通用人工智能(AGI)能力引发了自然语言处理(NLP)领域的新一轮研究和应用浪潮。尤其是ChatGLM、LLaMA等普通开发者都能运行的较小规模LLM开源之后,业界涌现了大量基于LLM的二次微调和应用案例。

传神社区(Opencsg)旨在收集和整理与中文NLP相关的开源数据集。目前每篇文章整理的资源至少15个!如果本篇文章对您有帮助,欢迎点赞与收藏~

我们也欢迎大家贡献本文未收录的开源数据集,提供对应的资源,描述与链接,感谢您的支持!

目录

 1. 智能问答

      • 1.1 用于中文闲聊的GPT2模型GPT2-chitchat

      • 1.2 百度知道问答语料库

      • 1.3 端到端的封闭域对话系统

      • 1.4 基于金融-司法领域(兼有闲聊性质)的聊天机器人

      • 1.5 基于最新版本rasa搭建的对话系统

      • 1.6 ConvLab开源多域端到端对话系统平台

      • 1.7 qa对的机器人

      • 1.8 中文聊天机器人

  • 2.文本纠错

      • 2.1 中文文本纠错模块代码

      • 2.2 python拼写检查库

      • 2.3 GitHub Typo Corpus大规模GitHub多语言拼写错误/语法错误数据集

      • 2.4 BertPunc基于BERT的最先进标点修复模型

      • 2.5 文本纠错文献列表

    • 3.文本匹配

      3.1 句子、QA相似度匹配MatchZoo

    • 3.2 中文问题句子相似度计算比赛及方案汇总

01 智能问答

1.1 用于中文闲聊的GPT2模型GPT2-chitchat

GPT2-chitchat:

地址:https://opencsg.com/datasets/MagicAI/GPT2-chitchat

简介:用于中文闲聊的GPT2模型(实现了DialoGPT的MMI思想)。

图片

1.2 百度知道问答语料库

MiningZhiDaoQACorpus:

地址:https://opencsg.com/datasets/MagicAI/MiningZhiDaoQACorpus

简介:580万百度知道问答数据挖掘项目,百度知道问答语料库,包括超过580万的问题,每个问题带有问题标签。基于该问答语料库,可支持多种应用,如逻辑挖掘

图片

1.3 端到端的封闭域对话系统

cdQA:

地址:https://opencsg.com/datasets/MagicAI/cdQA

简介:一个端到端的封闭领域问答系统。

图片

1.4 基于金融-司法领域(兼有闲聊性质)的聊天机器人

Chatbot_CN:

地址:https://opencsg.com/datasets/MagicAI/Chatbot_CN

简介:基于金融-司法领域(兼有闲聊性质)的聊天机器人,其中的主要模块有信息抽取、NLU、NLG、知识图谱等,并且利用Django整合了前端展示,目前已经封装了nlp和kg的restful接口。

图片

1.5 基于最新版本rasa搭建的对话系统

awesome-knowledge-graph:

地址:https://opencsg.com/datasets/MagicAI/rasa_chatbot_cn

简介:基于最新版本rasa搭建的对话系统

图片

1.6  ConvLab开源多域端到端对话系统平台

ConvLab:

地址:https://opencsg.com/datasets/MagicAI/ConvLab

简介:DSTC8 Track 1 Task 1 端到端多领域对话挑战赛结果 。

图片

1.7 qa对的机器人

QAmodel-for-Retrievalchatbot:

地址:https://opencsg.com/datasets/MagicAI/QAmodel-for-Retrievalchatbot

简介:客服机器人,Chinese Retreival chatbot(中文检索式机器人)用到的一些QA模型,基于tf-idf,lsa,cnn,transformer,bert等。

图片

1.8 中文聊天机器人

Chinese-Chatbot-PyTorch-Implementation:

地址:https://opencsg.com/datasets/MagicAI/Chinese-Chatbot-PyTorch-Implementation

简介:根据自己的语料训练出自己想要的聊天机器人,可以用于智能客服、在线问答、智能聊天等场景。

图片

2.文本纠错

2.1 中文文本纠错模块代码

Error-Detection:

简介:使用n-gram和Bi-LSTM(双向长短期记忆网络)构建中文错误检测模块

地址:https://opencsg.com/datasets/MagicAI/Error-Detection

2.2 python拼写检查库

pyspellchecker:

简介:使用纯Python进行拼写检查。

地址:https://opencsg.com/datasets/MagicAI/pyspellchecker

图片

2.3 GitHub Typo Corpus大规模GitHub多语言拼写错误/语法错误数据集

github-typo-corpus:

简介:GitHub Typo Corpus: 大规模多语言拼写错误和语法错误数据集。这是一个用于研究和改进拼写错误和语法错误检测的多语言大规模数据集。

地址:https://opencsg.com/datasets/MagicAI/github-typo-corpus

图片

2.4 BertPunc基于BERT的最先进标点修复模型

BertPunc:

简介:基于BERT预训练模型的最新(SOTA)标点恢复(例如自动语音识别)的深度学习模型。

地址:https://opencsg.com/datasets/MagicAI/BertPunc

图片

2.5 文本纠错文献列表

Chinese-text-correction-papers:

简介:中文文献纠错

地址:https://opencsg.com/datasets/MagicAI/Chinese-text-correction-papers

图片

03 文本纠错

3.1 句子、QA相似度匹配MatchZoo

MatchZoo:

地址:https://opencsg.com/datasets/MagicAI/MatchZoo

简介:文本相似度匹配算法的集合,包含多个深度学习的方法,值得尝试。

图片

3.2 中文问题句子相似度计算比赛及方案汇总

Chinese-sentence-similarity-task:

地址:https://opencsg.com/datasets/MagicAI/Chinese-sentence-similarity-task

简介:中文问题句子相似度计算比赛及方案汇总。

图片

欢迎加入传神社区

•贡献代码,与我们一同共建更好的OpenCSG

•Github主页

欢迎🌟:https:// github.com/opencsg

•Huggingface主页

欢迎下载:https://huggingface.co/opencsg

•加入我们的用户交流群,分享经验

图片

扫描上方二维码添加传神小助手


“      关于OpenCSG

开放传神(OpenCSG)成立于2023年,是一家致力于大模型生态社区建设,汇集人工智能行业上下游企业链共同为大模型在垂直行业的应用提供解决方案和工具平台的公司。

关注OpenCSG

图片

加入传神社区

图片

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1814382.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

计算机SCI期刊,中科院3区,IF=3.4,难度不大,无预警风险

一、期刊名称 Automated Software Engineering 二、期刊简介概况 期刊类型:SCI 学科领域:计算机科学 影响因子:3.4 中科院分区:3区 三、期刊征稿范围 自动化软件工程是一份档案,同行评审的期刊,发表研…

网络故障排除:保持网络稳定与业务连续

目录 什么是网络故障? 网络故障排除的基本步骤 1. 问题识别 2. 确定故障范围 3. 检查物理连接 4. 检查设备配置 5. 测试与诊断 6. 实施解决方案 7. 验证与监控 了解更多 在现代企业中,网络的稳定性和性能直接影响业务的连续性和效率。作为一名…

算法day26

第一题 429. N 叉树的层序遍历 本题的要求我们可以通过队列来辅助完成层序遍历; 如下图的n叉树: 步骤一: 我们定义一个队列,先进行根节点入队列操作; 步骤二: 我们进行当前队列每一个元素的出队列操作&…

复旦大学首本大模型中文书太厉害啦!【大模型书籍推荐】

前言 在信息爆炸的时代,自然语言处理(NLP)技术如同璀璨的星辰,照亮了我们与机器沟通的道路。而今,复旦大学自然语言处理实验室的教授团队,如同航海家般,为我们带来了一本指引大语言模型领域前行…

[Java基础揉碎]网络相关概念

目录 网络通信 网络 ip地址 ​编辑 域名 ​编辑 网络协议 TCP和UDP 网络编程比较重要的的InetAddress类 Socket ​编辑 tcp字节流编程 案例一 案例二​编辑 案例三 网络上传文件 ​编辑​编辑 ​编辑 netstat tcp网络通信客户端也是通过端口和服务端进行通讯的…

python怎么保留小数

保留两位小数,并做四舍五入处理 方法一:使用字符串格式化 a 12.345 print("%.2f" % a)# 12.35 方法二:使用round内置函数 a 12.345 a1 round(a, 2) print(a1)# 12.35 方法三:使用decimal模块 from decimal import D…

每日一题39:甲板上的战舰

一、每日一题 题意 这题的标题应该是《棋盘上的战舰》,来源于 海战棋,把横着或竖着的连续 X 看成一艘战舰,统计棋盘上有多少艘战舰。 思路 战舰的个数,等于战舰「头部」的个数。如下图,我们只需要统计蓝色 X 的个数&…

LLM应用实战:当图谱问答(KBQA)集成大模型(三)

1. 背景 最近比较忙(也有点茫),本qiang~想切入多模态大模型领域,所以一直在潜心研读中... 本次的更新内容主要是响应图谱问答集成LLM项目中反馈问题的优化总结,对KBQA集成LLM不熟悉的客官可以翻翻之前的文章《LLM应用实战:当KBQ…

Android 14 系统启动流程 之 启动init进程、启动Zygote进程

Android 14 系统启动流程 之 启动init进程、启动Zygote进程 废话不多说,先上图,不清楚的可以在评论区留言。

计算机体系结构学习(一)

计算机体系结构的发展 20 世纪五六十年代, 由于工艺技术的限制, 计算机都做得很简单, 计算机体系结构主要研究怎么做加减乘除, Computer Architecture 基本上等于 Computer Arithmetic。 20 世纪七八十年代的时候, 以精简指令集 (Reduced Instruction Set Computer, 简称 RISC…

AI大模型战场:通用大模型与垂直大模型的角逐

随着人工智能技术的迅猛发展,AI大模型已成为推动科技进步的重要力量。然而,在AI大模型的战场上,通用大模型与垂直大模型之间的分化日益明显。两者各有其独特的优势和潜力,在不同的应用场景中发挥着重要作用。那么,在这…

SSM 离散数学线上考试系统-计算机毕业设计源码83059

摘 要 随着科学技术的飞速发展,社会的方方面面、各行各业都在努力与现代的先进技术接轨,通过科技手段来提高自身的优势,高校当然也不例外。离散数学线上考试系统是以实际运用为开发背景,运用软件工程原理和开发方法,采…

centos下创建raid6磁盘阵列

在CentOS系统中创建RAID 6阵列,可以使用mdadm工具。 以下是创建RAID 6阵列的基本步骤和示例代码: 安装mdadm工具(如果尚未安装): sudo yum install mdadm 假设你有至少四个以上的磁盘设备(例如 /dev/sdi…

信创4.0|暴雨出席空间智能软件技术交流会

6月19日,由自然资源部地理信息系统技术创新中心、中国测绘学会软件与信息技术服务工委会、内蒙古自治区测绘学会共同主办的“空间智能软件技术交流会暨自然资源数字化治理交流会”在呼和浩特举办,500余位嘉宾汇聚一堂,就空间智能赋能数字经济…

MyBatis的配置文件,即:src->main->resources的配置

目录 1、properties 标签 1.1 mybatis-config.xml 1.2 db.properties 1.3 在SqlMapConfig.xml 中 引入数据库配置信息 2、typeAliases 标签 2.1 定义别名 2.2 使用别名 3、Mappers标签 作用:用来在核心配置文件中引入映射文件 引入方式,有以下…

vue生成二维码中间自定义logo并截图分享

需求描述&#xff1a;在公众号中&#xff0c;生成二维码&#xff0c;并在二维码中央添加自定义logo&#xff0c;然后生成一张分享给好友的 二维码图片。 一、用到的依赖包 npm install --save html2canvas <script srchttps://cdn.staticfile.org/jquery/2.1.1/jquery.min…

【APP移动端自动化测试】第一节.环境配置和adb调试工具

文章目录 前言一、Java环境搭建二、AndroidSDK环境搭建三、Android模拟器安装四、adb调试工具基本介绍 4.1 adb构成和基本原理 4.2 adb获取包名&#xff0c;界面名 4.3 adb文件传输 4.4 adb获取app启动时间 4.5 adb获取手机日志 4.6 adb其他有关…

室内、户外安防监控超低功耗24g人体雷达感应模块,智能门铃、灯光控制新体验

在当今这个智能科技日新月异的时代&#xff0c;雷达感应模块正逐渐成为智能家居领域的一颗璀璨新星。其超低功耗、无误触、无漏触等特性&#xff0c;以及在户外环境下能够智能过滤环境干扰的独特优势&#xff0c;使得雷达感应模块在智能门铃、灯光照明等方面的应用越来越广泛。…

【C++】list 容器的增删改查---模拟实现(图例超详细解析!!!)

目录 一、前言 二、 list 容器的模拟实现思 ✨ 模块分析 ✨ 作用分析 三、list的节点类设计 四、list 的迭代器类设计 ⭐ 迭代器类--存在的意义 ⭐ 迭代器类--模拟实现 &#x1f4a6; 模板参数 和 成员变量 &#x1f4a6; 构造函数 &#x1f4a6; 运算符的重载 &…

如何一键式完成等级logistic回归分析?

Logistic回归分析用于研究X对Y的影响&#xff0c;并且要求Y必须为分类数据&#xff0c;并且根据Y的分类不同&#xff0c;需要选用不同的模型。 如果Y为二分类&#xff0c;如患病和不患病&#xff0c;那么普通的二元logistic回归就可以解决问题;如果Y为有序多分类&#xff0c;如…