🎄🎄【自然语言处理NLP】简介 🎄🎄
自然语言处理(Natural Language Processing, NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系,但又有重要的区别。自然语言处理并不是一般地研究自然语言,而在于研制能有效地实现自然语言通信的计算机系统,特别是其中的软件系统。因而它是计算机科学的一部分。
🎄🎄近期,小海带在空闲之余收集整理了一批自然语言处理(NLP)开源数据集供大家参考。 整理不易,小伙伴们记得一键三连喔!!!🎈🎈
1.Negra:德国报纸文本的语法标注语料库。可供所有大学及非营利机构免费使用。需要签署协议并发送申请才能获得。
http://www.coli.uni-saarland.de/projects/sfb378/negra-corpus/negra-corpus.html
2.新闻头条-印度时报[Kaggle]:印度时报发表的从2001到2017年的270万类新闻头条。(185MB)
https://www.crowdflower.com/data-for-everyone/
3.新闻文章/维基百科页面配对:志愿者阅读一篇短文,被问及最匹配的两篇维基百科文章是哪一篇。(6MB)
https://www.kaggle.com/benhamner/nips-2015-papers/version/2
4.2015 NIPS论文(版本2)[Kaggle]:所有2015年nips论文全文。(335MB)
https://www.kaggle.com/benhamner/nips-2015-papers/version/2
5.纽约时报脸谱网数据:所有纽约时报在脸谱网的帖子。(5MB)
http://minimaxir.com/2015/07/facebook-scraper/
6.全球新闻一周供稿[Kaggle]:在2017年8月的一周,用20多种语言全球发表的140万篇新闻事件数据集。(115MB)
https://www.kaggle.com/therohk/global-news-week
7.句子/概念对的正确性:志愿者读关于两个概念的句子。例如,“狗是一种动物”,或者“船长可以和主人有同样的意思”,然后他们被问到这个句子是否正确,并将其1-5评级。(700KB)
https://www.crowdflower.com/data-for-everyone/
8.公开图书馆数据库:公开图书馆中所有记录的修改合集。(16GB)
https://openlibrary.org/developers/dumps
9.人物语料库:收集了作者文章风格和个性预测的实验。由145名学生的145篇荷兰语文章组成。(获得需要申请)
http://www.clips.uantwerpen.be/datasets/personae-corpus
10.Reddit评论:截至2015年7月,reddit论坛所有公开的评论。共计17亿条评论。(250GB)
https://www.reddit.com/r/datasets/comments/3bxlg7/i_have_every_publicly_available_reddit_comment/
11.Reddit评论(2015年5月):Kaggle子数据集(8GB)
https://www.kaggle.com/reddit/reddit-comments-may-2015
12.Reddit提交语料库:2006年1月-2015年8月31日所有公开可得的Reddit提交内容。(42GB)
https://www.reddit.com/r/datasets/comments/3mg812/full_reddit_submission_corpus_now_available_2006/
13.路透社语料库:一个包含路透社新闻报道的数据集,用于自然语言处理的研究开发、信息检索和机器学习系统。该语料库又被称为“路透社语录1”或RCV1,它远远大于原来在文本分类中被广泛使用的著名的路透社21578数据集。该语料库数据需要通过签署协议和发送邮件获取。(2.5GB)
https://trec.nist.gov/data/reuters/reuters.html
14.SaudiNewsNet:31030条从不同沙特阿拉伯的网络报纸上摘取的标题和元数据。(2MB)
https://github.com/ParallelMazen/SaudiNewsNet
15.垃圾短信数据集:5574条被标记为合法/不合法的、未经编码的真实英文短信消息。(200KB)
http://www.dt.fee.unicamp.br/~tiago/smsspamcollection/
16.《南方公园》数据集:csv格式文件,包含季、集、角色和台词的剧本信息。(3.6MB)
https://github.com/BobAdamsEE/SouthParkData
17.Stackoverflow:730万条stackoverflow问题和其他stackexchange(问答工具)上的问答。
http://data.stackexchange.com/
18.Twitter的Cheng-Caverlee-lee用户定位数据集:2009年9月-2010年1月的推文定位。(400MB)
https://archive.org/details/twitter_cikm_2010
19.Twitter上关于新英格兰爱国者队“放气门”事件的舆情:在2015年超级碗比赛前,人们对被放了气的橄榄球以及爱国者队是否存在欺骗行为议论纷纷。该数据集提供了丑闻发生的这段时间里Twitter上的舆情,以便评估公众对整个事件的感受。(2MB)
https://www.figure-eight.com/data-for-everyone/
20.Twitter的Sentiment140(情感分析数据集):关于品牌/关键词的推文,网站包括论文和研究想法。(77MB)
http://help.sentiment140.com/for-students/