原文链接:http://tecdat.cn/?p=8640
讨论你关心的事情可能很困难。网络暴力骚扰的威胁意味着许多人停止表达自己并放弃寻求不同的意见(查看文末了解数据免费获取方式)。平台努力有效地促进对话,导致许多社区限制或完全关闭用户评论(点击文末“阅读原文”获取完整代码数据)。
数据简介
AI团队正在研究工具,以帮助提高在线评论互动。一个重点领域是研究负面的在线行为,如有害评论(即粗鲁、不尊重或可能使某人离开讨论的评论)。到目前为止,他们已经构建了一系列可用模型。但是当前的模型仍然会出错,并且它们不允许用户选择他们感兴趣的有害评论类型,例如,某些平台可能可以接受亵渎,但不能接受其他类型的有害内容(查看文末了解数据获取方式)。
数据详情
数据格式
csv
字段
id
评论内容
有害的
严重有害的
猥亵
威胁
侮辱
身份_仇恨
大小
67191kb
样本量
159571
数据浏览
以前8行数据为例,我们来预览一下:
变量探索:
总体高频词
有害的高频词
严重有害的高频词
猥亵高频词
词云
数据获取
在下面公众号后台回复“有害评论文本数据”,可获取完整数据。
点击标题查阅往期内容
Python中用PyTorch机器学习神经网络分类预测银行客户流失模型
左右滑动查看更多
01
02
03
04
本文中分析的数据分享到会员群,扫描下面二维码即可加群!
点击标题查阅往期内容
R语言NLP案例:LDA主题文本挖掘优惠券推荐网站数据
自然语言处理NLP:情感分析疫情下的新闻数据
R语言自然语言处理(NLP):情感分析新闻文本数据
python用于NLP的seq2seq模型实例:用Keras实现神经机器翻译
用于NLP的Python:使用Keras的多标签文本LSTM神经网络分类
适用于NLP自然语言处理的Python:使用FacebookFastText库
用于NLP的Python:使用Keras进行深度学习文本生成
用于NLP的Python:使用Keras的多标签文本LSTM神经网络分类
python在Keras中使用LSTM解决序列问题
Python对商店数据进行lstm和xgboost销售量时间序列建模预测分析
Python中利用长短期记忆模型LSTM进行时间序列预测分析 - 预测电力消耗数据
在Python中使用LSTM和PyTorch进行时间序列预测
欲获取全文文件,请点击左下角“阅读原文”。
欲获取全文文件,请点击左下角“阅读原文”。