【NLP】自然语言处理的语料库与词库

news2024/10/5 13:52:54

 🔎大家好,我是Sonhhxg_柒,希望你看完之后,能对你有所帮助,不足请指正!共同学习交流🔎

📝个人主页-Sonhhxg_柒的博客_CSDN博客 📃

🎁欢迎各位→点赞👍 + 收藏⭐️ + 留言📝​

📣系列专栏 - 机器学习【ML】 自然语言处理【NLP】  深度学习【DL】

 🖍foreword

✔说明⇢本人讲解主要包括Python、机器学习(ML)、深度学习(DL)、自然语言处理(NLP)等内容。

如果你对这个系列感兴趣的话,可以关注订阅哟👋

文章目录 

语料库

词库及词法工具


语料库

资源名(Name)描述(Description)链接
人名语料库wainshine/Chinese-Names-Corpus
Chinese-Word-Vectors各种中文词向量github repo
中文聊天语料该库搜集了包含豆瓣多轮, PTT八卦语料, 青云语料, 电视剧对白语料, 贴吧论坛回帖语料,微博语料,小黄鸡语料link
中文谣言数据该数据文件中,每一行为一条json格式的谣言数据github
中文问答数据集链接 提取码 2dva
微信公众号语料3G语料,包含部分网络抓取的微信公众号的文章,已经去除HTML,只包含了纯文本。每行一篇,是JSON格式,name是微信公众号名字,account是微信公众号ID,title是题目,content是正文github
中文自然语言处理 语料、数据集github
任务型对话英文数据集【最全任务型对话数据集】主要介绍了一份任务型对话数据集大全,这份数据集大全涵盖了到目前在任务型对话领域的所有常用数据集的主要信息。此外,为了帮助研究者更好的把握领域进展的脉络,我们以Leaderboard的形式给出了几个数据集上的State-of-the-art实验结果。github
语音识别语料生成工具从具有音频/字幕的在线视频创建自动语音识别(ASR)语料库github
LitBankNLP数据集支持自然语言处理和计算人文学科任务的100部带标记英文小说语料github
中文ULMFiT情感分析 文本分类 语料及模型github
省市区镇行政区划数据带拼音标注github
教育行业新闻 自动文摘 语料库github
中文自然语言处理数据集github
百度知道问答语料库超过580万的问题,938万的答案,5800个分类标签。基于该问答语料库,可支持多种应用,如闲聊问答,逻辑挖掘github
维基大规模平行文本语料85种语言、1620种语言对、135M对照句github
古诗词库github repo
更全的古诗词库
低内存加载维基百科数据用新版nlp库加载17GB+英文维基语料只占用9MB内存遍历速度2-3 Gbit/sgithub
对联数据700,000 couplets, 超过70万对对联github
《配色辞典》数据集github
42GB的JD客服对话数据(CSDD)github
70万对联数据link
用户名黑名单列表github
依存句法分析语料4万句高质量标注数据Homepage
人民日报语料处理工具集github
虚假新闻数据集 fake news corpusgithub
诗歌质量评价/细粒度情感诗歌语料库github
中文自然语言处理相关的开放任务数据集以及当前最佳结果github
中文缩写数据集github
中文任务基准测评代表性的数据集-基准(预训练)模型-语料库-baseline-工具包-排行榜github
中文谣言数据库github
CLUEDatasetSearch中英文NLP数据集搜索所有中文NLP数据集,附常用英文NLP数据集github
多文档摘要数据集github
让人人都变得“彬彬有礼”礼貌迁移任务在保留意义的同时将非礼貌语句转换为礼貌语句,提供包含139M + 实例的数据集paper and code
粤语/英语会话双语语料库github
中文NLP数据集列表github
类人名/地名/组织机构名的命名体识别数据集github
中文语言理解测评基准包括代表性的数据集&基准模型&语料库&排行榜github
OpenCLaP多领域开源中文预训练语言模型仓库民事文书、刑事文书、百度百科github
中文全词覆盖BERT及两份阅读理解数据DRCD数据集:由中国台湾台达研究院发布,其形式与SQuAD相同,是基于繁体中文的抽取式阅读理解数据集。
CMRC 2018数据集:哈工大讯飞联合实验室发布的中文机器阅读理解数据。根据给定问题,系统需要从篇章中抽取出片段作为答案,形式与SQuAD相同。
github
Dakshina数据集十二种南亚语言的拉丁/本地文字平行数据集合github
OPUS-100以英文为中心的多语(100种)平行语料github
中文阅读理解数据集github
中文自然语言处理向量合集github
中文语言理解测评基准包括代表性的数据集、基准(预训练)模型、语料库、排行榜github
NLP数据集/基准任务大列表github
LitBankNLP数据集支持自然语言处理和计算人文学科任务的100部带标记英文小说语料github
70万对联数据github
文言文(古文)-现代文平行语料短篇章中包括了《论语》、《孟子》、《左传》等篇幅较短的古籍,已和《资治通鉴》合并github
COLDDateset,中文冒犯性语言检测数据集涵盖了种族、性别和地区等话题内容,数据待论文发表后放出paper

词库及词法工具

资源名(Name)描述(Description)链接
textfilter中英文敏感词过滤observerss/textfilter
人名抽取功能中文(现代、古代)名字、日文名字、中文的姓和名、称呼(大姨妈、小姨妈等)、英文->中文名字(李约翰)、成语词典cocoNLP
中文缩写库全国人大: 全国 人民 代表大会; 中国: 中华人民共和国;女网赛: 女子/n 网球/n 比赛/vngithub
汉语拆字词典漢字 拆法 (一) 拆法 (二) 拆法 (三) 拆 手 斥 扌 斥 才 斥kfcd/chaizi
词汇情感值山泉水:0.400704566541
充沛: 0.37006739587
rainarch/SentiBridge
中文词库、停用词、敏感词dongxiexidian/Chinese
python-pinyin汉字转拼音mozillazg/python-pinyin
zhtools中文繁简体互转skydark/nstools
英文模拟中文发音引擎say wo i ni #说:我爱你tinyfool/ChineseWithEnglish
chinese_dictionary同义词库、反义词库、否定词库guotong1988/chinese_dictionary
wordninja无空格英文串分割、抽取单词wordninja
汽车品牌、汽车零件相关词汇data
THU整理的词库IT词库、财经词库、成语词库、地名词库、历史名人词库、诗词词库、医学词库、饮食词库、法律词库、汽车词库、动物词库link
罪名法务名词及分类模型包含856项罪名知识图谱, 基于280万罪名训练库的罪名预测,基于20W法务问答对的13类问题分类与法律资讯问答功能github
分词语料库+代码百度网盘链接 - 提取码 pea6
基于Bi-LSTM + CRF的中文分词+词性标注keras实现link
基于Universal Transformer + CRF 的中文分词和词性标注link
快速神经网络分词包java version
chinese-xinhua中华新华字典数据库及api,包括常用歇后语、成语、词语和汉字github
SpaCy 中文模型包含Parser, NER, 语法树等功能。有一些英文package使用spacy的英文模型的,如果要适配中文,可能需要使用spacy中文模型。github
中文字符数据github
Synonyms中文近义词工具包github
HarvestText领域自适应文本挖掘工具(新词发现-情感分析-实体链接等)github
word2word方便易用的多语言词-词对集62种语言/3,564个多语言对github
多音字词典数据及代码github
汉字、词语、成语查询接口github
103976个英语单词库包(sql版,csv版,Excel版)github
英文脏话大列表github
词语拼音数据github
186种语言的数字叫法库github
世界各国大规模人名库github
汉字字符特征提取器 (featurizer)提取汉字的特征(发音特征、字形特征)用做深度学习的特征github
char_featurizer - 汉字字符特征提取工具github
中日韩分词库mecab的Python接口库github
g2pC基于上下文的汉语读音自动标记模块github
ssc, Sound Shape Code音形码 - 基于“音形码”的中文字符串相似度计算方法version 1
version 2
blog/introduction
基于百科知识库的中文词语多词义/义项获取与特定句子词语语义消歧github
Tokenizer快速、可定制的文本词条化库github
Tokenizers注重性能与多功能性的最先进分词器github
通过同义词替换实现文本“变脸”github
token2index与PyTorch/Tensorflow兼容的强大轻量词条索引库github
繁简体转换github
粤语NLP工具github
领域词典库涵盖68个领域、共计916万词的专业词典知识库github

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/62357.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

双十二有哪些实用性强的数码好物?值得入手的实用数码好物推荐

赶在年末的双十二快来了,大家有没有心仪的数码好物正在购物车里蠢蠢欲动呢?入手数码产品最重要的还是要看其实用性强不强,下面,我整理了一份值得入手的实用数码好物清单,希望能给大家有个参考。 一、蓝牙耳机 蓝牙耳…

10、Springboot整合Security很全

1.什么是Security SpringSecurity是基于Spring AOP和Servlet过滤器的安全框架。 它提供全面的安全性解决方案,同时在Web 请求级和方法调用级处理身份确认和授权。 2.Spring Security核心功能? (1)认证(你是谁&…

Java集合容器面试题(2023最新版)

集合容器概述 什么是集合 集合框架:用于存储数据的容器。 集合框架是为表示和操作集合而规定的一种统一的标准的体系结构。 任何集合框架都包含三大块内容:对外的接口、接口的实现和对集合运算的算法。 接口:表示集合的抽象数据类型。接口…

王洪伟:流体力学与微积分方法求解水池进排水问题

作者 | 王洪伟 北京航空航天大学副教授,仿真秀专栏作者 导 读:经过了几篇略显烧脑的文章后,来一篇轻松一点的,经典的小学数学应用题。 1、问题分析 题:一个水池有一个进水管和一个排水管。只开进水管,2个…

Linux常用命令总结

目录和文件命令 (1)用户目录:位于/home/user,称之为用户工作目录; (2)ls:是英文单词list的简写,其功能为列出目录的内容; ls -a 列出隐藏文件,文…

CAS号:67131-52-6, 三肽Ala-Ala-Tyr

H-Ala-Ala-Tyr-OH 用于合成突变型多肽。H-Ala-Ala-Tyr-OH can be synthesized mutant peptides[1][2]. 编号: 193893中文名称: 三肽Ala-Ala-TyrCAS号: 67131-52-6单字母: H2N-AAY-OH三字母: H2N-Ala-Ala-Tyr-COOH氨基酸个数: 3分子式: C15H21N3O5平均分子量: 323.34精确分子量:…

Vue学习:分析hello案例

一个vue实例&#xff0c;接管不了两个容器 和 多个实例&#xff0c;一个容器都不允许 容器实例必须一对一 <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8"><meta http-equiv"X-UA-Compatible" conten…

Nexus存储库管理器搭建-Maven私服

写在前面 &#x1f341;个人主页&#xff1a;微枫Micromaple ✨本期专栏&#xff1a;《0到1项目搭建》欢迎订阅学习~ &#x1f4cc;源码获取&#xff1a;GitCode、GitHub、码云Gitee 持续更新中&#xff0c;别忘了 star 喔~ 在企业开发过程中&#xff0c;就比如说我们Java程序员…

Linux内核中ideapad-laptop.c文件全解析10

接前一篇文章《Linux内核中ideapad-laptop.c文件全解析9》&#xff0c;地址为&#xff1a; Linux内核中ideapad-laptop.c文件全解析9_蓝天居士的博客-CSDN博客 本文针对于上一篇文章提到的配置选项"CONFIG_LEDS_BRIGHTNESS_HW_CHANGED"进行详细分析。在make menuco…

python -- PyQt5(designer)中文详细教程(五)对话框

对话框 对话框是⼀个现代GUI应用不可或缺的⼀部分。对话是两个人之间的交流&#xff0c;对话框就是⼈与电脑之 间的对话。对话框用来输⼊数据&#xff0c;修改数据&#xff0c;修改应用设置等等。 输入文字 QInputDialog 提供了⼀个简单方便的对话框&#xff0c;可以输入字符…

SpringBoot 玩一玩代码混淆,防止反编译代码泄露!

编译 简单就是把代码跑一哈&#xff0c;然后我们的代码 .java文件 就被编译成了 .class 文件 反编译 就是针对编译生成的 jar/war 包 里面的 .class 文件 逆向还原回来&#xff0c;可以看到你的代码写的啥。 比较常用的反编译工具 JD-GUI &#xff0c;直接把编译好的jar丢进…

深度学习 LSTM长短期记忆网络原理与Pytorch手写数字识别

深度学习 LSTM长短期记忆网络原理与Pytorch手写数字识别一、前言二、网络结构二、可解释性三、记忆主线四、遗忘门五、输入门六、输出门七、手写数字识别实战7.1 引入依赖库7.2 加载数据7.3 迭代训练7.4 数据验证八、参考资料一、前言 基本的RNN存在梯度消失和梯度爆炸问题&am…

毕业设计-基于机器视觉的深蹲检测识别-TensorFlow-opencv

目录 前言 课题背景和意义 实现技术思路 实现效果图样例 前言 &#x1f4c5;大四是整个大学期间最忙碌的时光,一边要忙着备考或实习为毕业后面临的就业升学做准备,一边要为毕业设计耗费大量精力。近几年各个学校要求的毕设项目越来越难,有不少课题是研究生级别难度的,对本科…

LeetCode刷题复盘笔记—一文搞懂完全背包之377. 组合总和 Ⅳ问题(动态规划系列第十二篇)

今日主要总结一下动态规划完全背包的一道题目&#xff0c;377. 组合总和 Ⅳ 题目&#xff1a;377. 组合总和 Ⅳ Leetcode题目地址 题目描述&#xff1a; 给你一个由 不同 整数组成的数组 nums &#xff0c;和一个目标整数 target 。请你从 nums 中找出并返回总和为 target 的…

[附源码]计算机毕业设计基于web的羽毛球管理系统

项目运行 环境配置&#xff1a; Jdk1.8 Tomcat7.0 Mysql HBuilderX&#xff08;Webstorm也行&#xff09; Eclispe&#xff08;IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持&#xff09;。 项目技术&#xff1a; SSM mybatis Maven Vue 等等组成&#xff0c;B/S模式 M…

Python软件编程等级考试一级——20220915

Python软件编程等级考试一级——20220915理论单选题判断题实操第一题第二题理论 单选题 1、表达式len(“学史明理增信 &#xff0c;读史终生受益”) > len(" reading history will benefit you ")的结果是&#xff1f; A、0 B、True C、False D、1 2、表达…

SLMi333国内首款兼容光耦带DESAT保护功能的隔离式栅极驱动器

SLMi333国内首款兼容光耦带DESAT保护功能的隔离式栅极驱动器,内置快速去饱和&#xff08;DESAT&#xff09;故障检测功能&#xff0c;米勒钳位功能&#xff0c;漏极开路故障反馈&#xff0c;软关断功能以及可选择的自恢复模式&#xff0c;兼容光耦隔离驱动器&#xff0c;一款高…

安装mongodb6

一、安装mongodb6.0.2 1.官网下载社区版 https://www.mongodb.com/ 2.双击下载的文件&#xff0c;按步骤安装 选择custom 自定义安装 改一下安装地址&#xff0c;路径最好不要带空格 Install MongoD as a Service 作为服务方式安装 Run the service as Network Service…

SuperMap iClient for Leaflet对EPSG:4509图加载滑动查询

作者&#xff1a;John SuperMap iClient for Leaflet对EPSG:4509地图加载&滑动查询 在WebGIS开发使用中&#xff0c;我们会遇到地图显示不了&#xff0c;以及查询到数据显示不出的问题&#xff0c;因此本文就以EPSG:4509为例介绍该坐标系地图加载和查询。 1、EPSG:4509地图…

数据分析案例:基于水色图像的水质识别

大数据分析课程、大数据分析班、大数据案例等&#xff0c;围绕大数据展开讲解。 数据分析案例&#xff1a;基于水色图像的水质识别&#xff0c;通过学习本案例&#xff0c;可以掌握图像切割、特征提取、模型构建和模型评价的主要方法和技能&#xff0c;并为后续相关课程学习及将…