【数据分享】维基百科Wiki负面有害评论(网络暴力)文本数据多标签分类挖掘可视化...

news2024/11/22 13:08:03

原文链接:http://tecdat.cn/?p=8640

讨论你关心的事情可能很困难。网络暴力骚扰的威胁意味着许多人停止表达自己并放弃寻求不同的意见查看文末了解数据免费获取方式。平台努力有效地促进对话,导致许多社区限制或完全关闭用户评论点击文末“阅读原文”获取完整代码数据)。

数据简介

AI团队正在研究工具,以帮助提高在线评论互动。一个重点领域是研究负面的在线行为,如有害评论(即粗鲁、不尊重或可能使某人离开讨论的评论)。到目前为止,他们已经构建了一系列可用模型。但是当前的模型仍然会出错,并且它们不允许用户选择他们感兴趣的有害评论类型,例如,某些平台可能可以接受亵渎,但不能接受其他类型的有害内容(查看文末了解数据获取方式)。

数据详情

数据格式

csv

字段

id

评论内容

有害的

严重有害的

猥亵

威胁

侮辱

身份_仇恨

大小

67191kb

样本量

159571

数据浏览

以前8行数据为例,我们来预览一下:

f10213751916c58bfed31ad8202acf21.png

变量探索:

b568c5e257d5bdfe6c01245fa14b0747.png

9e4b3a123fec22ca09b825e16ade925c.png

9dfb9c7d5c583e83a116c09e7c081799.png

6c193f72c9912a2eddfd570a0a0710fd.png

08e9e548308e6ceb87b549381ebfa4c6.png

84bce2841c4cc94fcd4b15cd23e2544d.png

78cb88178136fccf4580f7e0ed86fb01.png

50f133b6f495f99d91d9b2ec18a3f065.png

总体高频词

0534f510d58aeb2ff6924401df96b9e8.png

有害的高频词

ebbf6bc54b9b56b46f805792b3b47f6a.png

严重有害的高频词

d17ef3e211c65ecd089c8e49c7cb7f79.png

猥亵高频词

dc0d5464bad8f779d2cd4178a8afc209.png

词云

e8591b8ac4df973dbe74cde530b53745.png

数据获取

在下面公众号后台回复“有害评论文本数据”,可获取完整数据。


点击标题查阅往期内容

b70229689e648ba3824b4791c53b47f4.jpeg

Python中用PyTorch机器学习神经网络分类预测银行客户流失模型

outside_default.png

左右滑动查看更多

outside_default.png

01

ce30457d14c523df194351c063873327.png

02

979032cd6d0d77cf15d7ccc021e7c126.png

03

f3a2b126ec30d25ba7ab12f8351c15c1.png

04

1e950794c59c61e0fffbb687c3ad133d.png

34a3099b7e06b8d4b87804dd6a270968.jpeg

本文中分析的数据分享到会员群,扫描下面二维码即可加群!

6985da12cc61ce8a216ff398796a98a8.png

点击标题查阅往期内容

R语言NLP案例:LDA主题文本挖掘优惠券推荐网站数据

自然语言处理NLP:情感分析疫情下的新闻数据

R语言自然语言处理(NLP):情感分析新闻文本数据

python用于NLP的seq2seq模型实例:用Keras实现神经机器翻译

用于NLP的Python:使用Keras的多标签文本LSTM神经网络分类

适用于NLP自然语言处理的Python:使用FacebookFastText库

用于NLP的Python:使用Keras进行深度学习文本生成

用于NLP的Python:使用Keras的多标签文本LSTM神经网络分类

python在Keras中使用LSTM解决序列问题

Python对商店数据进行lstm和xgboost销售量时间序列建模预测分析

Python中利用长短期记忆模型LSTM进行时间序列预测分析 - 预测电力消耗数据

在Python中使用LSTM和PyTorch进行时间序列预测

欲获取全文文件,请点击左下角“阅读原文”。

0eb1414982a34dbe40705e8ae613abea.gif

1ad6808d8dec30b2a0801fedb0567f6a.png

b574bfb009d68d83c60ffb2bc7d3a712.jpeg

0df9fbb4065a1a27cfdcc49112eff081.png

欲获取全文文件,请点击左下角“阅读原文”。

61226745ead5d89dba963892fef69528.gif

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/65050.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

C++中的菱形继承问题及解决方案

存在问题 C中支持多重继承,但是由于这个特性,导致会有如下继承关系。 这样,类D就会同时拥有从类B中继承下来的A中的函数,也会拥有从类C中继承下来的A中的函数,会产生模糊调用的现象。 解决方案 为了解决这个问题&a…

spring源码 - AOP原理理解

AOP使用 1.我们都知道我们在使用spring aop时需要在configuration类上增加EnableAspectJAutoProxy 2.然后在准备AOP类就可以对相应类的方法进行aop Component Aspect public class MyAspect { Pointcut("execution(* com.my.service.*.*(..))") public void as…

利用WSL2搭建Qemu仿真Vexpress-a9开发环境

利用WSL2搭建Qemu仿真Vexpress-a9开发环境开发环境搭建更新软件源uboot-tools安装交叉编译环境安装qemu安装编译linux镜像和DBT文件启动qemu仿真kernelbusybox制作根文件系统制作rootfs使用u-boot启动kernel下载编译u-bootu-boot利用tftp网络引导方式启动Linux内核WSL2主机网络…

火爆朋友圈的ChatGPT是什么?

火爆朋友圈的ChatGPT是什么? 官方博客:https://openai.com/blog/chatgpt/ 背景 OpenAI,在美国成立的人工智能研究公司。2015年,OpenAI由马斯克、美国创业孵化器Y Combinator总裁阿尔特曼、全球在线支付平台PayPal联合创始人彼得…

Java入门教程(14) ——Scanner 获取键盘输入

在后台开发中,我们可能需要在运行的时候传递一些参数进去,该怎么处理呢? Java 提供了一个 Scanner 类,利用这个类,我们可以很方便的获取键盘输入的参数,接下来给大家详细介绍一下 1.首先导包 import jav…

到底什么是类脑计算?

当前感存算一体化的类脑神经拟态芯片流行,对其类脑计算的定义各家有各家的说法。但总之,类脑计算就是模拟人类思考方式的一种计算。 本文摘编自《类脑计算》(危辉著. 北京:科学出版社, 2022. 7)一书“第1 章什么是类脑…

“在别人恐惧时贪婪”,这支基金将在“自动驾驶寒冬”加大投资力度

交流群 | 进“传感器群/滑板底盘群”请加微信号:xsh041388交流群 | 进“汽车基础软件群”请加微信号:Faye_chloe备注信息:群名称 真实姓名、公司、岗位前段时间,Argo“关闭”的消息将寒气传给了全球自动驾驶产业的每一个人。再加…

[附源码]计算机毕业设计图书馆出版物预订系统Springboot程序

项目运行 环境配置: Jdk1.8 Tomcat7.0 Mysql HBuilderX(Webstorm也行) Eclispe(IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持)。 项目技术: SSM mybatis Maven Vue 等等组成,B/S模式 M…

C#语言实例源码系列-实现批量图片格式转换

专栏分享点击跳转>Unity3D特效百例点击跳转>案例项目实战源码点击跳转>游戏脚本-辅助自动化点击跳转>Android控件全解手册 👉关于作者 众所周知,人生是一个漫长的流程,不断克服困难,不断反思前进的过程。在这个过程中…

极客时间Kafka - 02 为什么要分区|生产者的分区策略|轮询策略|随机策略|消息键保序策略

文章目录1. 为什么分区?2. Kafka 生产者的分区策略1. 轮询策略 RoundRobinPartitioner2. 随机策略 UniformStickyPartitioner3. 按消息键保序策略 DefaultPartitioner我们在使用 Apache Kafka 生产和消费消息的时候,肯定是希望能够将数据均匀地分配到所有…

Jenkins-jenkins凭证管理与代码拉取

什么是凭证? Jenkins经常与第三方插件如git,docker等交互,需要提供第三方的凭证,比如access token,用户名和密码等 可以使用插件Credentials Binding Plugin来管理这些凭证 jenkins凭证类型 jenkins可以管理以下凭证…

UEFI的一点点概识

最近看了一篇Blog讲的是关于PC安全的,其中很多的地方还是有一定相似之处。其中这个UEFI引起了我兴趣,以前安装系统的时候听说过这个名词。这里于是便来认识一下什么是UEFI。 前言 大多数人接触UEFI都是在PC的应用场景上,有在PC上安装过多操…

关闭二维码

关闭二维码 结果演示 概述 通过事件的绑定来实现&#xff0c;关闭二维码的效果。 构建HTML框架 <body><div class"box">二维码<img src"images/tao.png" alt""><i class"close-btn"></i></div&g…

第四十一篇 指令中的VNode

VNode 前面讲到了自定义指令的引入使用&#xff0c;以及结合封装swiper组件一起进行结合使用&#xff0c;还记在inserted 指令生命周期当中使用的参数吗&#xff1f;第一个参数是可以拿到DOM节点&#xff08;el&#xff09;&#xff0c;第二个参数是可以拿到使用自定义指令绑定…

NLP-信息抽取-三元组-联合抽取-多任务学习-2019:spERT【采用分类的思想实现联合抽取,实体抽取和关系抽取模型均为分类模型】

论文题目&#xff1a;Span-based Joint Entity and Relation Extraction with Transformer Pre-trainin 论文链接&#xff1a;https://arxiv.org/abs/1909.07755 论文代码&#xff1a;https://github.com/markus-eberts/spert SpERT模型是联合式抽取模型&#xff0c;同时抽取…

消息队列RabbitMQ核心:简单(Hello World)模式、队列(Work Queues)模式、发布订阅模式

文章目录一、简单模式&#xff08;Hello World&#xff09;代码实现二、队列模式&#xff08;Work Queues&#xff09;轮训分发消息代码实现消息应答概述RabbitMQ持久化不公平分发三、发布订阅模式原理概述发布确认策略单个确认发布批量确认发布异步确认发布三种发布确认速度对…

MongoDB_实战部分(二)

目录一、MongoDB CRUD操作MongoDB 插入文档MongoDB 查询文档MongoDB 修改文档MongoDB 删除文档练习题二、Mongoose三、VSCode连接MongoDB模块化一、MongoDB CRUD操作 MongoDB 插入文档 /*向数据库插入文档db.<collection>.insert()db.<collection>.insertOne() 插…

SDK 2019.1 - GNU Debugger (GDB) 不正常工作

报错截图 报错显示 warning: Can not parse XML target description; XML support was disabled at compile time warning: No executable has been specified and target does not support determining executable automatically. Try using the “file” command. " 解…

ROS service简单使用示例

1、为什么要使用ROS service 之前写过一篇关于ROS topic的内容。对于实时性、周期性的消息&#xff0c;使用topic来传输是最佳的选择。topic是一种点对点的单向通信方式&#xff0c;这里的“点”指的是node&#xff0c;也就是说node之间可以通过topic方式来传递信息。topic要经…

详细设计阶段复习

详细设计详细设计:确定具体实现方案,得出精确描述任务:结构程序设计:三种基本控制结构(选择[if]/顺序/循环[while|for])实现任何单入单出的程序人机界面设计:属于接口设计的重要组成问题设计指南设计工具:描述处理过程的工具程序流程图(历史悠久)盒图(N-S图): 不违背结构程序设…