谣言检测常用数据集汇总

news2024/9/24 7:24:18

Pheme-R

获取地址:https://figshare.com/articles/dataset/PHEME_rumour_scheme_dataset_journalism_use_case/2068650
PHEME社交媒体谣言数据集:这些谣言与9条不同的突发新闻有关。它是为分析社交媒体谣言而创建的,并包含由谣言推文发起的推特对话;这些对话包括对那些谣言推文的回应。这些推文都经过注释,以获得支持、确定性和证据性。
数据集结构:
该数据集包含330个会话线程(297个英语线程,33个德语线程),每个线程都有一个文件夹,结构如下:
*source-tweets:这个文件夹包含一个json文件(源tweets)。
*reactions:这个文件夹包含所有tweets的json文件,通过回复参与对话。
*url-content:此文件夹包含从tweet指向的网页的内容。
*structure.json:该文件提供了对话的结构,从而更容易确定每个tweet的子tweet是什么,并通过将源tweet和回复放在一起来重建对话。
*retweets.json:该文件包含转发源tweet的tweet。
*who-following-whom.dat:该文件包含线程中正在关注其他人的用户。每行包含两个ID,表示具有第一个ID的用户跟随具有第二个ID的用户。注意,following不是对等的,因此,如果两个用户相互关注,那么它将被表示为两行,A B和B A。

*注释。该文件包含线程级别的手动注释,这对谣言特别有用,并包含以下字段:
** is_rumor:是谣言还是非谣言。
** category:描述谣言故事的标题,可用于与同一故事中的其他谣言分组。
** misinformation:0或1。它确定这个故事后来是否被证明是假的,在这种情况下设置为1,否则设置为0。
** true: 0或1。它确定该故事后来是否被证实为真的,在这种情况下设置为1,否则设置为0。
** is_turnaround: 0或1。如果一个帖子代表了谣言故事的转变,那么它就被标记为一个转折,要么在真实故事的情况下被证实,要么在虚假故事的情况下被揭穿。
** links:如果有,这包含了一个覆盖谣言故事的链接列表,其中包括链接的URL,媒体类型(社交媒体,新闻媒体或博客),以及它是反对,支持还是观察谣言。

在这330个对话中的4,842条推文的推文级别执行的注释可以在两个文件中找到:
*annotations/en-scheme-annotations.json (for the English threads)
*annotations/de-scheme-annotations.json (for the German threads)
每行包含一条tweet,带有事件、线程和tweet标识符,以及支持、确定性和证据性的注释。

Pheme

获取地址:https://figshare.com/articles/PHEME_dataset_for_Rumour_Detection_and_Veracity_Classification/6392078
该数据集是2016年发布的Pheme谣言和非谣言数据集(https://figshare.com/articles/PHEME_dataset_of_rumours_and_non-rumours/4010619)的延伸,它包含了与9个事件相关的谣言,每个谣言都被标注了其真实性值,即真、假或未验证。

Weibo、Twitter

获取地址:http://alt.qcri.org/~wgao/data/rumdect.zip

  • 推特数据
    Twitter.txt:该语料库总共包含992个标记事件。每行包含一个事件,其中包含相关推文的 ID:event_id、标签tweet_ids。对于标签,如果事件是谣言,则值为 1,否则为 0。请注意,由于 Twitter 数据的使用条款,我们无法发布推文的具体内容。用户可以通过 Twitter API 自行下载内容。
    Twitter_event_claims.txt:此文件提供每个事件的主要声明的内容。每行包含一个事件,其声明由event_id和声明内容组成。

  • 微博数据(Weibo.txt):该语料库共包含4664个标记事件。每行包含一个事件,其中包含相关帖子的 ID,格式为:event_id、标签post_ids。对于标签,如果事件是谣言,则值为 1,否则为 0。我们还以json格式发布所有帖子的内容,这些内容保存在./Weibo目录下,其中每个文件都命名为event_id.json,对应单个事件。

FakeNewsNet

获取地址:https://github.com/KaiDMML/FakeNewsNet
FakeNewsNet 包含 2 个数据集,这些数据集使用来自 Politifact 和 Gossipcop 的事件。

Twitter15、Twitter16

获取地址:https://www.dropbox.com/s/7ewzdrbelpmrnxu/rumdetect2017.zip?dl=0
数据集结构:
主目录包含两个 Twitter 数据集的目录:twitter15 和 twitter16。在每个目录中,都有:
-‘tree’ 子目录:此文件夹包含所有树文件,每个文件都对应给定源推文的树结构,其文件名由源推文 ID 指示。在树文件中,每行表示一条边,格式如下:
** 父节点 ->子节点
** 每个节点都以元组形式给出:[‘uid’, ‘tweet ID’, ‘post time delay (in minutes)’]

-label.txt 文件:此文件以如下格式提供树的真值标签:
** ‘label:源推文 ID’

-source_tweets.txt文件:此文件以如下格式提供树的源帖子内容:
** ‘源推文 ID t 源推文内容’

MR^2

SIGIR2023提出的新数据集,用于谣言检测的多模态多语言检索增强数据集。现有的数据集大多集中在单一的模态,为了将检索到的文本和图像作为更好的错误信息检测的证据。首先使用文章中的图像,通过反向图像搜索找到其他出现的图像。然后检索文本证据(即描述)并将其与帖子中的文本进行比较。同样地,使用文本来寻找其他图像作为视觉证据。包含从twitter和weibo上的中英文帖子。
获取地址:https://github.com/THU-BPM/MR2

数据集信息汇总

请添加图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1315576.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

设计模式——装饰模式(结构型)

引言 装饰模式是一种结构型设计模式, 允许你通过将对象放入包含行为的特殊封装对象中来为原对象绑定新的行为。 假设你正在开发一个提供通知功能的库, 其他程序可使用它向用户发送关于重要事件的通知。 库的最初版本基于 通知器Notifier类,…

jmeter,http cookie管理器

Http Cookie管理器自动实现Cookie关联的原理: (默认:作用域在同级别的组件) 一:当Jmeter第1次请求服务器的时候,如果说服务器有通过响应头的Set-Cookie有返回Cookie,那么Http Cookie管理器就会自动的保存这些Cookie的值。 二:当Jmeter第2-N次请求服务器的…

uniapp框架——初始化vue3项目(搭建ai项目第一步)

文章目录 ⭐前言💖 小程序系列文章 ⭐uniapp创建项目💖 初始化项目💖 uni实例生命周期💖 组件生命周期💖 页面调用💖 页面通讯💖 路由 ⭐搭建首页⭐form表单校验页面⭐总结⭐结束 ⭐前言 大家好…

01_Web开发基础之HTML+CSS

Web开发基础之HTMLCSS 学习目标和内容 1、能够描述Web开发需要的技术点 2、能够描述HTML的作用 3、能够实现一个列表 4、能够实现创建一个表格 5、能够实现一个表单 6、能够描述CSS的作用 7、能够使用选择器获取到标签 8、能够使用CSS设置字体的颜色和大小 一、Web开发相关介绍…

Linux Shell——如何书写shell脚本的第一步!!!

Shell脚本 1. #!2. 如何执行一个shell脚本3. 如何在Shell文件中包含其他脚本文件 总结 这篇文章没有关于shell特别的语法知识,只是总结一下关于shell脚本文件的一些书写规定和如何执行一个shell脚本,如何在一个shell脚本中引入其他的shell脚本…

八、Seata的XA模式

目录 八、Seata的XA模式8.3 XA模式多数据源场景1 环境搭建2、使⽤XA模式解决事务 八、Seata的XA模式 8.3 XA模式多数据源场景 1 环境搭建 建库建表 代码的db.sql中 创建工程 添加依赖 <dependency><groupId>org.springframework.boot</groupId><ar…

C#动态生成带参数的小程序二维码

应用场景 在微信小程序管理后台&#xff0c;我们可以生成下载标准的小程序二维码&#xff0c;提供主程序入口功能。在实际应用开发中&#xff0c;小程序二维码是可以携带参数的&#xff0c;可以动态进行生成&#xff0c;如如下场景&#xff1a; 1、不同参数决定的显示界面不同…

LED 底层原理 和 GPIO引脚、寄存器操作

目录 LED 原理 LED 的驱动方式 普适的 GPIO 引脚操作方法 GPIO 寄存器操作 LED 原理 当我们学习 C 语言的时候&#xff0c;我们会写个 Hello 程序。 那当我们写 ARM 程序&#xff0c;也该有一个简单的程序引领我们入门&#xff0c;这个程序就是点亮 LED。 我们怎样去点亮…

HNU-计算机网络-实验4-网络层与链路层协议分析(PacketTracer)

计算机网络 课程基础实验四网络层与链路层协议分析&#xff08;PacketTracer&#xff09; 计科210X 甘晴void 202108010XXX 文章目录 计算机网络 课程基础实验四<br>网络层与链路层协议分析&#xff08;PacketTracer&#xff09;一、实验目的二、实验内容4.1 路由器交换…

【基于Python的信用卡客户历史数据分析与挖掘】

基于Python的信用卡客户历史数据分析与挖掘 前言技术栈数据获取与预处理描述性分析建立预测模型模型评估与结果展示Web应用搭建结语 前言 随着金融科技的迅猛发展&#xff0c;信用卡客户的历史数据分析变得越来越重要。本文将介绍如何使用Python、Sklearn和Flask对公开数据集进…

1.1 【应用开发】应用开发简介

写在前面 Screen图形子系统基于客户端/服务器模型&#xff0c;其中应用程序是请求图形服务的客户端&#xff08;Screen&#xff09;。它包括一个合成窗口系统作为这些服务之一&#xff0c;这意味着所有应用程序渲染都是在离屏缓冲区上执行的&#xff0c;然后可以在稍后用于更新…

SpringBoot+Redis 10分钟搞定海量重复提交问题

前言 在实际的开发项目中,一个对外暴露的接口往往会面临很多次请求&#xff0c;我们来解释一下幂等的概念&#xff1a;任意多次执行所产生的影响均与一次执行的影响相同。按照这个含义&#xff0c;最终的含义就是 对数据库的影响只能是一次性的&#xff0c;不能重复处理。如何…

BFC — 张天禹

文章目录 学习链接BFC1. 什么是BFCW3C 上对 BFC 的定义MDN 上对 BFC 的描述更加通俗的描述 2. 开启了BFC能解决什么问题3. 如何开启BFC 演示演示1子元素margin塌陷问题使用BFC解决问题完美解决塌陷问题 演示2被浮动元素覆盖问题使用BFC解决问题例1例2例3例4延申&#xff08;左右…

LeetCode 2415. 反转二叉树的奇数层:深度优先搜索(DFS)

【LetMeFly】2415.反转二叉树的奇数层&#xff1a;深度优先搜索(DFS) 力扣题目链接&#xff1a;https://leetcode.cn/problems/reverse-odd-levels-of-binary-tree/ 给你一棵 完美 二叉树的根节点 root &#xff0c;请你反转这棵树中每个 奇数 层的节点值。 例如&#xff0c…

leetcode面试经典二分系列刷题心得

闲来无事巩固算法基础&#xff0c;发现自己的二分几乎从来没系统刷过题&#xff0c;基础很是薄弱。 二分法不愧称为新人杀手&#xff0c;刷起来很是吃力&#xff0c;感觉明明学了几套二分模板&#xff0c;但是却不知道如何去运用&#xff0c;很多读者在初次尝试刷二分题时候&a…

“你基础不太行啊”

一、创建对象的五种方式 直接new关键字反序列化clone反射class.newInstance反射class.getConstructor 1.1、直接new关键字 1.2、Clone &#xff08;需要实现Cloneable接口&#xff09; 1.3、反射class.newInstance 1.4、反射class.getConstructor 1.5、反序列化 二、与equals…

bottom-up-attention-vqa-master 成功复现!!!

代码地址 1、create_dictionary.py 建立词典和使用预训练的glove向量 &#xff08;1&#xff09;create_dictionary() 遍历每个question文件取出所关注的question部分&#xff0c;qs 遍历qs&#xff0c;对每个问题的文本内容进行分词&#xff0c;并将分词结果添加到字典中&…

小红书商品详情API:电商助力

一、引言 随着互联网的普及和电商行业的快速发展&#xff0c;消费者对于商品信息的获取方式也在不断变化。小红书作为一款以内容分享为主的社交电商平台&#xff0c;吸引了大量用户。为了满足用户对商品信息的快速获取需求&#xff0c;小红书提供了商品详情API接口。本文将探讨…

离散型概率密度函数的分布列⇔分布函数

目录 一、super误区 1.分布函数的定义 二、分布列⇒分布函数 二、分布列⇐分布函数 一、super误区 我在读定义的时候陷入了一个误区&#xff0c;与大家分享一下。 1.分布函数的定义 由于是离散型的概率密度函数&#xff0c;我把他抽象到数轴上理解&#xff1a; 如下分布…

线程的介绍

首先我们来了解一下线程是什么&#xff1a; 首先我们介绍一下程序是什么&#xff1f;程序就是我们编写的代码就叫程序&#xff0c;当我们程序运行的时候则称为进程&#xff0c;在我们现实生活中哪些用到了进程&#xff0c;就比如说我们qq&#xff0c;微信&#xff0c;百度网盘…