【自然语言处理】- 作业6: 面向新冠肺炎的社会计算应用

news2025/1/10 16:34:17

课程链接: 清华大学驭风计划

代码仓库:Victor94-king/MachineLearning: MachineLearning basic introduction (github.com)


驭风计划是由清华大学老师教授的,其分为四门课,包括: 机器学习(张敏教授) , 深度学习(胡晓林教授), 计算机语言(刘知远教授) 以及数据结构与算法(邓俊辉教授)。本人是综合成绩第一名,除了数据结构与算法其他单科均为第一名。代码和报告均为本人自己实现,由于篇幅限制,只展示任务布置以及关键代码,如果需要报告或者代码可以私聊博主



自然语言处理部分授课老师为刘知远教授,主要通过从统计方法入门,embedding,预训练模型,知识图谱,关系抽取,文本生成以及信息检索等不同下游任务入门自然语言处理


有任何疑问或者问题,也欢迎私信博主,大家可以相互讨论交流哟~~



任务介绍

新冠肺炎疫情牵动着我们每一个人的心,在这个案例中,我们将尝试用社会计算的方法对疫情相关的新闻和谣言进行分析,助力疫情信息研究。本次作业为开放性作业,我们提供了疫情期间的社交数据,鼓励同学们从新闻、谣言以及法律文书中分析社会趋势。(提示:运用课上学到的方法,如情感分析、信息抽取、阅读理解等分析数据)

数据说明

https://covid19.thunlp.org/ 提供了与新冠疫情相关的社交数据信息,分别为疫情相关谣言 CSDC-Rumor、疫情相关中文新闻 CSDC-News和疫情相关法律文书 CSDC-Legal。

疫情相关谣言 CSDC-Rumor

这一部分的数据集收集了:

(1)自 2020 年 1 月 22 日开始的微博不实信息数据,包括被认定为不实信息的微博的内容、发布者,以及举报者、审理时间、结果等信息,截至 2020 年 3 月 1 日共 324 条微博原文,31,284 条转发和 7,912 条评论,用于帮助各位研究者分析研究疫情期间的不实信息传播;

(2)自 2020 年 1 月 18 日开始的腾讯谣言验证平台以及丁香园不实信息数据,包括被认定为正确或不实信息的谣言内容、时间以及用以判断是否为谣言的依据等信息,截至 2020 年 3 月 1 日共 507 条谣言数据,其中事实性数据 124 条,数据分布为,负例:420 正例:33 不确定:54。

疫情相关中文新闻 CSDC-News

这一部分的数据集收集了自 2020 年 1 月 1 日开始的新闻数据,包含了新闻的标题、内容、关键词等信息,截至 2020 年 3 月 16 日共收集 148,960 条新闻以及 1,653,086 条对应评论,用于帮助各位研究者分析研究疫情期间的新闻数据。

疫情相关法律文书 CSDC-Legal

该数据为对从 CAIL 收集的经匿名化的法律文书数据中筛选出的历史上与疫情相关的部分,共 1203 条,每条数据包含了文书标题、案号以及文书全文,供研究者用于进行疫情期间相关法律问题的研究。

参考思路

  1. 谣言检测:如何准确快速地识别社交媒体上的谣言是社会计算领域中的一个重要问题,在我们提供的疫情相关谣言数据集上,同学们可以尝试不同的谣言检测方法,比如基于特征[1]、基于神经网络[2, 3]或基于传播模型的方法[4],综述[5]总结了谣言检测的相关技术。
  2. 新闻情感分析:参考我们的情感分析作业,可以通过关键词识别[6]等技术对疫情相关的中文新闻进行情感分析,并找出情感背后蕴含的社会学原因。
  3. http://weibo.com/n/%E6%B8%85%E5%8D%8E%E8%87%AA%E7%84%B6%E8%AF%AD%E8%A8%80%E5%A4%84%E7%90%86 清华自然语言处理实验室微博中给出了一些可视化例子,同学们也可以用统计学和语言学方法对文本进行分析和可视化。

评分标准

本次作业为开放性作业,我们会从

  1. 选题的合理性和新颖性
  2. 采用方法的合理性和技术含量
  3. 作业的完成度和工程量
  4. 报告和社会学分析的完整性和深入程度

等方面为作业进行评分。




报告

核心代码

利用SNOWNLP对新闻做了一个情感分析

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-xaiXYnSB-1684731471659)(image/hw6/1684730919832.png)]

‘’



以及利用开源的预训练模型mirrors / embedding / chinese-word-vectors · GitCode , 做了一个谣言检测系统




结果

2020年上半年的疫情地图

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-3IOayW0W-1684731471661)(image/hw6/1684730976176.png)]


2020年上半年的词云图

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-z3V6hTSS-1684731471662)(image/hw6/1684730993388.png)]


每个月的新闻情感如下

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-xXimchKk-1684731471663)(image/hw6/1684730957350.png)]

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/582597.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Mybatis-X插件自动生成代码的使用详解(小白专用)

Mybatis-X插件自动生成代码的使用详解(小白专用) 1、 使用idea链接数据库 详见使用idea链接数据库并生成实体类 idea链接数据库之后也提供了一个生成实体类的方法,见↑ 2、安装mybatis-X插件 File–>Settings–>Plugins–>Marke…

c++11基础

文章目录: c11简介统一的列表初始化{}初始化std::initializer_list 声明autodecltypenullptr 范围for循环STL中的一些变化arrayforward_listunordered_map和unordered_set 字符串转换函数 c11简介 在2003年C标准委员会曾经提交了一份技术勘误表(简称TC1)&#xff0…

【JavaScript数据结构与算法】数组类(电话号码的字符组合)

个人简介 👀个人主页: 前端杂货铺 🙋‍♂️学习方向: 主攻前端方向,也会涉及到服务端(Node.js) 📃个人状态: 在校大学生一枚,已拿多个前端 offer(…

小红书达人矩阵怎么布局,达人矩阵分配

随着互联网营销学的兴起,一方面使得生意越来越好做,但同时也加大了做生意的门槛,属于是良币驱逐劣币。而达人矩阵就是良币的一种表现方式,今天来和大家来分享下小红书达人矩阵怎么布局,达人矩阵分配。 达人矩阵是什么?…

重塑工作场所:后疫情时代组织韧性的8个策略

经济寒冬来临,倒挂的收益率曲线、持续上升的利率以及层出不穷的裁员公告等等,让经济学家们得出一个结论:全球经济正在衰退。然而,经济下行周期可能是卓越公司改变其命运的最佳时机。有研究表明,相对于非经济衰退时期&a…

JavaSE_day40(字节流复制图片,字节流与File实现复制目录到另一个目录下)

1 A.java * 1.分别使用字符流和字节流复制图片(底层是二进制文件,如图片 视频 音频等) * * 二进制文件只能使用字节流进行复制(使用windows自带记事本打开读不懂的) * * 文本文件的复制即可使用…

【数据分享】第六次、第七次人口普查深圳各街道数据

0. 数据来源 https://tjgb.hongheiku.com/ https://www.hongheiku.com/sichuan/55201.html 手动收集整理 数据展示 数据分享 只分享人口数据,地理数据可能涉及隐私问题,暂不分享,有需要可以邮箱联系uncodongqq.com 链接: https://pan.baid…

Hive ---- 分区表和分桶表

Hive ---- 分区表和分桶表 1. 分区表1. 分区表基本语法2. 二级分区表3. 动态分区 2. 分桶表1. 分桶表基本语法2. 分桶排序表 1. 分区表 Hive中的分区就是把一张大表的数据按照业务需要分散的存储到多个目录,每个目录就称为该表的一个分区。在查询时通过where子句中…

信必优加入中国网络信息安全科技创新发展联盟

近日,信必优成功加入中国网络信息安全科技创新发展联盟。 中国网络信息安全科技创新发展联盟是在国务院国资委指导下,中国电科与公安部第一研究所、中国信息通信研究院、中国工业互联网研究院、中国科学院信息工程研究所、中国电信、中国联通、中国移动、…

2023年武汉住建厅七大员怎么报名?报名流程?精准题库一次过??

2023年武汉住建厅七大员怎么报名?报名流程?精准题库一次过?? 2023年武汉住建厅七大员是指施工员、质量员、资料员、材料员、机械员、标准员、劳务员,报的最多的可能就是施工员,质量员和资料员 报名流程: 1…

算法:回溯算法(以解决n皇后问题为例)

基本思想:回溯算法的基本思想是:从一条路往前走,能进则进,不能进则退回来,换一条路再试。八皇后问题就是回溯算法的典型,第一步按照顺序放一个皇后,然后第二步符合要求放第2个皇后,如…

自动化测试套件(RSpec)

自动化测试套件(RSpec) RSpec example RSpec 是 Ruby 编程语言的测试框架。 它旨在通过提供用于定义和执行测试的领域特定语言 (DSL) 来促进行为驱动开发 (BDD)。 RSpec 允许您编写富有表现力和可读性的测试来描述代码的预期行为。 以下是 RSpec 的一些关键特性和概念&#…

电脑怎么打开隐藏文件夹?1分钟搞定!

案例:我的电脑上有一些文件夹是隐藏文件夹啊,我不知道如何打开它们,有没有小伙伴知道如何打开电脑上的隐藏文件夹吗? 【我能正常打开电脑上的其他文件夹,但是打不开电脑隐藏的文件夹,有没有小伙伴知道打开…

浪涌保护器的工作原理(SPD)

浪涌保护器(SPD)的工作原理如下: 在正常运行期间(例如,在没有浪涌的情况下),电涌保护器对安装它的电路系统没有影响。它的作用类似于开路,并保持有源导体和大地之间的隔离。 当发生…

2023年真无线蓝牙耳机买什么品牌好一些?盘点几款值得买的蓝牙耳机

蓝牙耳机是一种无线耳机,其通过蓝牙技术与其他设备进行连接,例如手机、电脑、平板电脑等。蓝牙耳机使得用户可以在不受线缆限制的情况下享受音频体验,而且还可以方便地进行通话,目前市场上有许多不同种类和品牌的蓝牙耳机&#xf…

【滤波】设计卡尔曼滤波器

本文主要翻译自rlabbe/Kalman-and-Bayesian-Filters-in-Python的第8章节08-Designing-Kalman-Filters(设计卡尔曼滤波器)。 %matplotlib inline#format the book import book_format book_format.set_style()简介 在上一章节中,我们讨论了教…

Linux进程地址空间——上篇

目录 一. 前言: 二.进程地址空间 1.通过一个例子去初步的了解进程地址空间: 使用VS写了一段代码: 在Linux中使用vim编辑器写类似的代码: 结果解析: 2.什么是进程地址空间? 举个例子大家就明白了画饼的…

手机图片怎么提取文字?高效渠道一览

随着智能手机的普及,我们现在可以随时随地使用手机拍照记录生活中的点滴。然而,有时候我们拍照之后可能需要提取图片中的文字,比如拍下的菜谱、公告、名片等等。这时,我们就需要使用手机图片提取文字的功能。 - 采用OCR技术拍照识…

SpringBoot+Vue 实现网页版人脸登录、人脸识别!【全部开源】

介绍 FACE-UI 基于前后端分离Web端项目,主要实现了网页版的人脸登录,通过调取前端摄像头拍照,传入后台进行跟数据库人脸库的相似度比对。 技术点:Springboot,Mysql,JWT,VUE 2.X 等等技术实现&…

【Netty】使用 SSL/TLS 加密 Netty 程序(二十)

文章目录 前言一、SSL/TLS概述二、Sslhandler类 前言 回顾Netty系列文章: Netty 概述(一)Netty 架构设计(二)Netty Channel 概述(三)Netty ChannelHandler(四)ChannelP…