【自然语言处理】面向新冠肺炎的社会计算应用

news2025/1/12 20:46:46

面向新冠肺炎的社会计算应用

1 任务目标

1.1 案例简介

新冠肺炎疫情牵动着我们每一个人的心,在这个案例中,我们将尝试用社会计算的方法对疫情相关的新闻和谣言进行分析,助力疫情信息研究。本次作业为开放性作业,我们提供了疫情期间的社交数据,鼓励同学们从新闻、谣言以及法律文书中分析社会趋势。(提示:运用课上学到的方法,如情感分析、信息抽取、阅读理解等分析数据)

1.2 数据说明

https://covid19.thunlp.org/ 提供了与新冠疫情相关的社交数据信息,分别为疫情相关谣言 CSDC-Rumor、疫情相关中文新闻 CSDC-News和疫情相关法律文书 CSDC-Legal。

疫情相关谣言 CSDC-Rumor

这一部分的数据集收集了:

(1)自 2020 年 1 月 22 日开始的微博不实信息数据,包括被认定为不实信息的微博的内容、发布者,以及举报者、审理时间、结果等信息,截至 2020 年 3 月 1 日共 324 条微博原文,31,284 条转发和 7,912 条评论,用于帮助各位研究者分析研究疫情期间的不实信息传播;

(2)自 2020 年 1 月 18 日开始的腾讯谣言验证平台以及丁香园不实信息数据,包括被认定为正确或不实信息的谣言内容、时间以及用以判断是否为谣言的依据等信息,截至 2020 年 3 月 1 日共 507 条谣言数据,其中事实性数据 124 条,数据分布为,负例:420 正例:33 不确定:54。

疫情相关中文新闻 CSDC-News

这一部分的数据集收集了自 2020 年 1 月 1 日开始的新闻数据,包含了新闻的标题、内容、关键词等信息,截至 2020 年 3 月 16 日共收集 148,960 条新闻以及 1,653,086 条对应评论,用于帮助各位研究者分析研究疫情期间的新闻数据。

疫情相关法律文书 CSDC-Legal

该数据为对从 CAIL 收集的经匿名化的法律文书数据中筛选出的历史上与疫情相关的部分,共 1203 条,每条数据包含了文书标题、案号以及文书全文,供研究者用于进行疫情期间相关法律问题的研究。

1.3 参考思路

  1. 谣言检测:如何准确快速地识别社交媒体上的谣言是社会计算领域中的一个重要问题,在我们提供的疫情相关谣言数据集上,同学们可以尝试不同的谣言检测方法,比如基于特征[1]、基于神经网络[2, 3]或基于传播模型的方法[4],综述[5]总结了谣言检测的相关技术。
  2. 新闻情感分析:参考我们的情感分析作业,可以通过关键词识别[6]等技术对疫情相关的中文新闻进行情感分析,并找出情感背后蕴含的社会学原因。
  3. http://weibo.com/n/%E6%B8%85%E5%8D%8E%E8%87%AA%E7%84%B6%E8%AF%AD%E8%A8%80%E5%A4%84%E7%90%86 清华自然语言处理实验室微博中给出了一些可视化例子,同学们也可以用统计学和语言学方法对文本进行分析和可视化。

1.4 评分标准

本次作业为开放性作业,我们会从

  1. 选题的合理性和新颖性
  2. 采用方法的合理性和技术含量
  3. 作业的完成度和工程量
  4. 报告和社会学分析的完整性和深入程度

等方面为作业进行评分。

1.5 参考资料

[1] Information credibility on twitter. in Proceedings of WWW, 2011.

[2] Detecting rumors from microblogs with recurrent neural networks. in Proceedings of IJCAI, 2016.

[3] A convolutional approach for misinformation identification. in Proceedings of IJCAI, 2017.

[4] The spread of true and false news online. Science, 2018.

[5] False information on web and social media: A survey. arXiv preprint, 2018.

[6] Characterization of the Affective Norms for English Words by Discrete Emotional Categories. Behavior Research Methods, 2007.

2 疫情相关谣言数据分析

​ 本次实验提供了疫情相关谣言数据集 CSDC-Rumor,通过对数据集内容分析,选择首先对数据集进行定量统计分析,之后使用聚类实现谣言的语义分析,最后设计一个谣言检测系统。

2.1 数据处理

  1. 数据格式

    本次实验提供了疫情相关谣言数据集 CSDC-Rumor,收集了微博不实信息数据,与辟谣数据。数据集包含以下内容。

    rumor
    │  fact.json
    │
    ├─rumor_forward_comment
    │      2020-01-22_K1CaS7Qxd76ol.json
    │      2020-01-23_K1CaS7Q1c768i.json
    ...
    │      2020-03-03_K1CaS8wxh6agf.json
    └─rumor_weibo
            2020-01-22_K1CaS7Qth660h.json
            2020-01-22_K1CaS7Qxd76ol.json
            ...
            2020-03-03_K1CaS8wxh6agf.json
    

    微博不实信息分别由 rumor_weiborumor_forward_comment 中的两个同名 json 文件所描述。rumor_weibo 中的 json 具体字段如下:

    • rumorCode: 该条谣言的唯一编码,可以通过该编码直接访问该谣言举报页面。
    • title: 该条谣言被举报的标题内容。
    • informerName: 举报者微博名称。
    • informerUrl: 举报者微博链接。
    • rumormongerName: 发布谣言者的微博名称。
    • rumormongerUr: 发布谣言者的微博链接。
    • rumorText: 谣言内容。
    • visitTimes: 该谣言被访问次数。
    • result: 该谣言审查结果。
    • publishTime: 该谣言被举报时间。
    • related_url: 与该谣言相关的证据、规定等链接。

    rumor_forward_comment 中的 json 具体字段如下:

    • uid: 发表用户 ID。
    • text: 评论或转发附言文字。
    • date: 发布时间。
    • comment_or_forward: 二值,要么是 comment,要么是 forward,表示该条信息是评论还是转发附言。

    腾讯与丁香园不实信息内容格式为:

    • date: 时间
    • explain: 谣言类型
    • tag: 谣言标签
    • abstract: 用以验证谣言的内容
    • rumor: 谣言
  2. 数据预处理

    通过 json.load() 分别提取谣言微博数据 weibo_data 与 谣言评论转发数据 forward_comment_data ,然后将其转换为 DataFrame 格式。其中二者同名的文件,微博文章与微博评论转发相对应,在处理rumor_forward_comment文件夹中的数据时,添加rumorCode以便后续匹配。

    # 文件路径
    weibo_dir = 'data/rumor/rumor_weibo'
    forward_comment_dir = 'data/rumor/rumor_forward_comment'
    
    # 初始化数据列表
    weibo_data = []
    forward_comment_data = []
    
    # 处理rumor_weibo文件夹中的数据
    for filename in os.listdir(weibo_dir):
        if filename.endswith('.json'):
            filepath = os.path.join(weibo_dir, filename)
            with open(filepath, 'r', encoding='utf-8') as file:
                data = json.load(file)
                weibo_data.append(data)
    
    # 处理rumor_forward_comment文件夹中的数据
    for filename in os.listdir(forward_comment_dir):
        if filename.endswith('.json'):
            filepath = os.path.join(forward_comment_dir, filename)
            with open(filepath, 'r', encoding='utf-8') as file:
                data = json.load(file)
                # 提取rumorCode
                rumor_code = filename.split('_')[1].split('.')[0]
                for comment in data:
                    comment['rumorCode'] = rumor_code  # 添加rumorCode以便后续匹配
                    forward_comment_data.append(comment)
    
    # 转换为DataFrame
    weibo_df = pd.DataFrame(weibo_data)
    forward_comment_df = pd.DataFrame(forward_comment_data)
    

2.2 谣言的定量统计分析

​ 本节通过定量统计分析,使得对疫情谣言微博数据分布有具体的了解。

  1. 谣言被访问次数统计

    统计 weibo_df['visitTimes'] 访问次数分布,并绘制对应的柱状图,结果如下。

    image-20240708173948337

    通过微博访问次数得知,大部分疫情谣言微博访问次数都在500次以内,其中10-50次的占比最多。但是也存在访问大于5000次的谣言微博,属于造成严重影响,在法律上达到 “情节严重” 的地步。

  2. 造谣者与举报者出现次数统计

    通过统计 weibo_df['rumormongerName']weibo_df['informerName'] 得到每个发布谣言者发布谣言的数量与每个举报者举报谣言的数量,结果如下。

    image-20240708175825599

    可以看到,发布造谣者发布谣言数量并不是集中在某几个人上,而是比较平均,发布谣言最多的账号发布了3篇谣言微博。而 Top10 举报者每人至少举报了而3篇谣言文章,其中举报者 风fun道 举报造谣微博数量显著高于其他用户,达到37篇。

    根据以上数据,可以重点观众举报谣言数量多的账号,方便对谣言的侦测。

  3. 谣言转发评论量分布统计

    通过统计谣言转发量与评论量分布,得到以下分布图像。

    在这里插入图片描述

    可以看到,大部分谣言微博的评论与转发数量都在10次以内,评论量最多不超过500个,而转发量最多达到了10000以上。根据网络管理法,谣言转发量大于500,属于 “情节严重” 情况。

2.3 谣言语义分析

  1. 谣言文本聚类分析

    本部分通过对微博谣言文本进行数据预处理,分词后,进行聚类分析,看看微博谣言集中在哪些方面。

    • 数据预处理

      首先对谣言数据文本进行清洗,去除缺省值,与 <> 括起来的链接内容。

      # 去除缺失值
      weibo_df_rumorText = weibo_df.dropna(subset=['rumorText'])
      
      def clean_text(text):
          # 定义正则表达式模式,匹配 <>
          pattern = re.compile(r'<.*?>')
          # 使用 sub 方法删除匹配的部分
          cleaned_text = re.sub(pattern, '', text)
          return cleaned_text
      
      weibo_df_rumorText['rumorText'] = weibo_df_rumorText['rumorText'].apply(clean_text)
      

      然后加载中文停用词,停用词采用 cn_stopwords ,利用 jieba 实现对数据的分词处理,并进行文本向量化。

      # 加载停用词文件
      with open('cn_stopwords.txt', encoding='utf-8') as f:
          stopwords = set(f.read().strip().split('\n'))
      
      # 分词和去停用词函数
      def preprocess_text(text):
          words = jieba.lcut(text)
          words = [word for word in words if word not in stopwords and len(word) > 1]
          return ' '.join(words)
      
      # 应用到数据集
      weibo_df_rumorText['processed_text'] = weibo_df_rumorText['rumorText'].apply(preprocess_text)
      
      # 文本向量化
      vectorizer = TfidfVectorizer(max_features=10000)
      X_tfidf = vectorizer.fit_transform(weibo_df_rumorText['processed_text'])
      
    • 确定最佳聚类

      通过使用肘部法,确定最佳聚类。

      肘部法(Elbow Method)是一种用于确定聚类分析中最佳聚类数目的方法。它基于误差平方和(SSE,Sum of Squared Errors)与聚类数目之间的关系。SSE是聚类中所有数据点到其所属聚类中心的欧氏距离的平方和,它反映了聚类的效果:SSE越小,表示聚类效果越好。

      # 使用肘部法确定最佳聚类数量
      def plot_elbow_method(X):
          sse = []
          for k in range(1, 21):
              kmeans = KMeans(n_clusters=k, random_state=42, n_init='auto')
              kmeans.fit(X)
              sse.append(kmeans.inertia_)
          plt.plot(range(1, 21), sse, marker='o')
          plt.xlabel('Number of clusters')
          plt.ylabel('SSE')
          plt.title('Elbow Method For Optimal k')
          plt.show()
      
      # 绘制肘部法图
      plot_elbow_method(X_tfidf)
      

      肘部法通过寻找“肘部”来确定最佳聚类数量,即在曲线上寻找一个点,这个点之后SSE下降的速率明显减慢,这个点就像胳膊的肘部一样,因此得名“肘部法”。这个点通常被认为是最佳的聚类数目。

      image-20240708184711285

      由上图,确定肘部的聚类值为 11,绘制相应散点图,结果如下。

      image-20240708185243978

      可以看出,大部分谣言微博进行了较好的聚类,3号与4号;也有的分布比较广,没有十分好的聚类,如5号,8号。

    • 聚类结果

      为了明显的表示每个类都聚类了哪些谣言,将每个类都绘制一副云图,结果如下。

      image-20240708185416278

      打印出一些聚类较好的谣言微博内容,结果如下。

      Cluster 2:
      13    #封城日记#我的城市是湖北最后一个被封城的城市,金庸笔下的襄阳,郭靖黄蓉守城战死的地方。至此...
      17    #襄阳封城#最后一座城被封,自此,湖北封省。在这大年三十夜。春晚正在说,为中国七十年成就喝彩...
      18    #襄阳封城#过会襄阳也要封城了,到O25号0点,湖北省全省封省 ,希望襄阳的疑似患者能尽快确...
      19    截止2020年1月25日00:00时❌湖北最后一个城市襄阳,整个湖北所有城市封城完毕,无公交...
      21    #襄阳封城# 湖北省最后的一个城市于2020年1月25日零点零时零分正式封城至此,湖北省,封...
      Name: rumorText, dtype: object
      
      Cluster 3:
      212    希望就在眼前…我期待着这一天早点到来。一刻都等不及了…西安学校开学时间:高三,初三,3月2日...
      213    学校开学时间:高三,初三,3月2日开学,高一,高二,初一,初二,3月9日开学,小学4一6年级...
      224    #长春爆料#【马上要解放了?真的假的?】长春学校开学时间:高三,初三,3月2日开学,高一,高...
      225    有谁知道这是真的吗??我们这些被困湖北的外地人到底什么时候才能回家啊!(市政府会议精神,3月...
      226    山东邹平市公布小道消息公布~:学校开学时间:高三,初三,3月2日开学,高一,高二,初一,初二...
      Name: rumorText, dtype: object
      
  2. 谣言审查结果聚类分析

    通过谣言文本内容聚类可能对谣言内容分析表示还没那么好,于是选择对谣言审查结果聚类分析。

    • 确定最佳聚类

      使用肘部图,确定最佳聚类。

      image-20240708192216975

      由以上肘部图,可以确定两个肘部,一个是在聚类为5时,一个是聚类位20时,我选择20进行聚类。

      聚20类得到的散点图如下。

      image-20240708192500231

      可以看到,大部分得到了很好聚类,但是第7类和17类没有很好聚类。

    • 聚类结果

      为了明显的表示每个类都聚类了哪些谣言审查结果,将每个类都绘制一副云图,结果如下。

      在这里插入图片描述

      打印出一些聚类较好的谣言审查结果内容,结果如下。

      Cluster 4:
      52    从武汉撤回来的日本人,迎接他们的是每个人一台救护车,206人=206台救护车
      53    从武汉撤回来的日本人,迎接他们的是每个人一台救护车,206人=206台救护车
      54    从武汉撤回来的日本人,迎接他们的是每个人一台救护车,206人=206台救护车
      55    从武汉撤回来的日本人,迎接他们的是每个人一台救护车,206人=206台救护车
      56    从武汉撤回来的日本人,迎接他们的是每个人一台救护车,206人=206台救护车
      Name: result, dtype: object
      
      Cluster 10:
      214    所有被啃噬、机化的肺组织都不会再恢复了,愈后会形成无任何肺功能的瘢痕组织
      215    所有被啃噬、机化的肺组织都不会再恢复了,愈后会形成无任何肺功能的瘢痕组织
      216    所有被啃噬、机化的肺组织都不会再恢复了,愈后会形成无任何肺功能的瘢痕组织
      217    所有被啃噬、机化的肺组织都不会再恢复了,愈后会形成无任何肺功能的瘢痕组织
      218    所有被啃噬、机化的肺组织都不会再恢复了,愈后会形成无任何肺功能的瘢痕组织
      Name: result, dtype: object
      
      Cluster 15:
      7           在福州,里面坐的是周杰伦
      8            周杰伦去福州自备隔离仓
      9            周杰伦去福州自备隔离仓
      10    周杰伦福州演唱会,给自己整了个隔离舱
      12    周杰伦福州演唱会,给自己整了个隔离舱
      Name: result, dtype: object
      

2.4 谣言检测

​ 本次谣言检测,选择采用已经辟谣的数据集 fact.json 中的辟谣谣言与真实谣言进行对比相似度,选择与谣言微博相似度最高的辟谣文章,作为谣言检测的依据。

  1. 加载微博谣言数据和辟谣数据集

    # 定义一个空的列表来存储每个 JSON 对象
    fact_data = []
    
    # 逐行读取 JSON 文件
    with open('data/rumor/fact.json', 'r', encoding='utf-8') as f:
        for line in f:
            fact_data.append(json.loads(line.strip()))
    
    # 创建辟谣数据的 DataFrame
    fact_df = pd.DataFrame(fact_data)
    fact_df = fact_df.dropna(subset=['title'])
    
  2. 使用预训练的语言模型将微博谣言和辟谣标题编码成嵌入向量

    本次实验使用 bert-base-chinese 作为预训练模型,进行模型训练。并采用SimCSE模型,通过对比学习来提升句子语义的表示和相似度度量。

    # 加载SimCSE模型
    model = SentenceTransformer('sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2')
    # 加载到 GPU
    model.to('cuda')
    
    # 加载预训练的NER模型
    ner_pipeline = pipeline('ner', model='bert-base-chinese', aggregation_strategy="simple", device=0)
    
  3. 计算相似度

    计算相似度选择采用了SimCSE模型的句子嵌入和命名实体相似度计算综合相似度。

    • extract_entities函数使用NER模型提取文本中的命名实体。

      # 提取命名实体
      def extract_entities(text):
          entities = ner_pipeline(text)
          return {entity['word'] for entity in entities}
      
    • entity_similarity函数计算两个文本之间的命名实体相似度。

      # 计算命名实体相似度
      def entity_similarity(text1, text2):
          entities1 = extract_entities(text1)
          entities2 = extract_entities(text2)
          if not entities1 or not entities2:
              return 0.0
          intersection = entities1.intersection(entities2)
          union = entities1.union(entities2)
          return len(intersection) / len(union)
      
    • combined_similarity函数结合SimCSE模型的句子嵌入和命名实体相似度计算综合相似度。

      # 结合句子嵌入相似度和实体相似度
      def combined_similarity(text1, text2):
          embed_sim = util.pytorch_cos_sim(model.encode([text1]), model.encode([text2])).item()
          entity_sim = entity_similarity(text1, text2)
          return 0.5 * embed_sim + 0.5 * entity_sim
      
  4. 实现谣言检测

    通过对比相似度,实现谣言检测机制。

    def debunk_rumor(input_rumor):
        # 计算输入谣言与所有辟谣标题的相似度
        similarity_scores = []
        for fact_text in fact_df['title']:
            similarity_scores.append(combined_similarity(input_rumor, fact_text))
        
        # 找到最相似的辟谣标题
        most_similar_index = np.argmax(similarity_scores)
        most_similar_fact = fact_df.iloc[most_similar_index]
        
        # 输出辟谣判断及依据
        print("微博谣言:", input_rumor)
        print(f"辟谣判断:{most_similar_fact['explain']}")
        print(f"辟谣依据:{most_similar_fact['title']}")
    
    weibo_rumor = "据最新研究发现,此次新型肺炎病毒传播途径是华南海鲜市场进口的豺——一种犬科动物携带的病毒,然后传给附近的狗,狗传狗,狗传人。狗不生病,人生病。人生病后又传给狗,循环传染。"
    debunk_rumor(weibo_rumor)
    

    输出结果如下:

    微博谣言: 据最新研究发现,此次新型肺炎病毒传播途径是华南海鲜市场进口的豺——一种犬科动物携带的病毒,然后传给附近的狗,狗传狗,狗传人。狗不生病,人生病。人生病后又传给狗,循环传染。
    辟谣判断:尚无定论
    辟谣依据:狗能感染新型冠状病毒
    

    成功找到辟谣依据,给出辟谣判断。

3 疫情相关中文新闻数据分析

3.1 数据处理

  1. 数据格式

    本次实验提供了疫情相关新闻数据集 CSDC-News,收集了2020年上半年的新闻与评论内容。数据集包含以下内容。

    news
    │
    ├─comment
    │      01-01.txt
    │      01-02.txt
    ...
    │      03-08.txt
    └─data
            01-01.txt
            01-02.txt
            ...
            08-31.txt
    

    数据文件夹中总共分为三个部分包括:data,comment

    data 文件夹中包含了若干个文件,每个文件对应某个日期的数据,格式为 json。这部分的内容对应新闻的正文数据(会随着日期逐步更新),其中的字段包括:

    • time:新闻发布的时间。
    • title:新闻的标题。
    • url:新闻的原地址链接。
    • meta:新闻的正文信息,其中包括以下字段:
      • content:新闻的正文内容。
      • description:新闻的简短描述。
      • title:新闻的标题。
      • keyword:新闻关键词。
      • type:新闻的类型。

    comment 文件夹中包含了若干个文件,每个文件对应某个日期的数据,格式为 json。这部分的内容对应新闻的评论数据(评论数据和新闻正文数据之间可能会有一周左右的延迟),其中的字段包括:

    • time:新闻发布的时间,与 data 文件夹内数据相对应。
    • title:新闻的标题,与 data 文件夹内数据相对应。
    • url:新闻的原地址链接,与 data 文件夹内数据相对应。
    • comment:新闻的评论信息,该字段为一个数组,数组每一个元素包含如下信息:
      • area:评论人地区。
      • content:评论内容。
      • nickname:评论人昵称。
      • reply_to:评论人回复对象,若无则代表不是回复。
      • time:评论时间。
  2. 数据预处理

    在对新闻文章数据 data 数据预处理过程中,需要把 meta 中的内容释放出来,存储为DataFrame格式。

    # 加载新闻数据
    def load_news_data(data_dir):
        news_data = []
        files = sorted(os.listdir(data_dir))
        for file in files:
            if file.endswith('.txt'):
                with open(os.path.join(data_dir, file), 'r', encoding='utf-8') as f:
                    daily_news = json.load(f)
                    for news in daily_news:
                        news_entry = {
                            'time': news.get('time', 'NULL'),
                            'title': news.get('title', 'NULL'),
                            'url': news.get('url', 'NULL'),
                            'content': news.get('meta', {}).get('content', 'NULL'),
                            'description': news.get('meta', {}).get('description', 'NULL'),
                            'keyword': news.get('meta', {}).get('keyword', 'NULL'),
                            'meta_title': news.get('meta', {}).get('title', 'NULL'),
                            'type': news.get('meta', {}).get('type', 'NULL')
                        }
                        news_data.append(news_entry)
        return pd.DataFrame(news_data)
    

    在对评论数据 comment 数据预处理过程中,需要把 comment 中的内容释放出来,存储为DataFrame格式。

    # 加载评论数据
    def load_comment_data(data_dir):
        comment_data = []
        files = sorted(os.listdir(data_dir))
        for file in files:
            if file.endswith('.txt'):
                with open(os.path.join(data_dir, file), 'r', encoding='utf-8') as f:
                    daily_comments = json.load(f)
                    for comment in daily_comments:
                        for com in comment.get('comment', []):
                            comment_entry = {
                                'news_time': comment.get('time', 'NULL'),
                                'news_title': comment.get('title', 'NULL'),
                                'news_url': comment.get('url', 'NULL'),
                                'comment_area': com.get('area', 'NULL'),
                                'comment_content': com.get('content', 'NULL'),
                                'comment_nickname': com.get('nickname', 'NULL'),
                                'comment_reply_to': com.get('reply_to', 'NULL'),
                                'comment_time': com.get('time', 'NULL')
                            }
                            comment_data.append(comment_entry)
        return pd.DataFrame(comment_data)
    
  3. 加载数据集

    根据以上数据预处理函数,加载数据集。

    # 数据文件夹路径
    news_data_dir = 'data/news/data/'
    comment_data_dir = 'data/news/comment/'
    
    # 加载数据
    news_df = load_news_data(news_data_dir)
    comment_df = load_comment_data(comment_data_dir)
    
    # 展示加载的数据
    print(f"新闻数据长度:{len(news_df)},评论数据:{len(comment_df)}")
    

    打印结果显示,新闻数据长度:502550,评论数据:1534616。

3.2 新闻内容数据分析

  1. 新闻时间分布统计

    分别统计 news_df 的每月新闻文章数量与每时新闻文章数量,用柱状图与折线图表示,结果如下。

    image-20240708225549063

    由上图可知,随着疫情的爆发,新闻数量逐月增加,在3月份达到顶峰,有7.4万篇新闻,之后逐渐下降平稳到6万篇每月,其中9月份数据为0点时的3篇,可不计入统计。

    根据每小时新闻数量分布可知,每日的10点与15点是新闻发布的峰值,各发布了3万篇以上。而12点为午休时间,新闻发布数呈现峰谷。每日0点到5点新闻发布数量最少,其中3点为最小点。

  2. 新闻热点追踪

    本实验打算采取提取新闻关键词的方式,来对这8个月的新闻热点进行追踪。通过统计现有的关键词分布,并绘制柱状图,结果如下。

    image-20240709224259364

    可以看出,大部分新闻文章的关键词都在3个以内,甚至有大比例的文章没有关键词。因此,需要自己统计总结关键词,用于进行热点追踪。本次使用 jieba.analyse.textrank() 来统计关键词。

    import jieba
    import jieba.analyse
    
    def extract_keywords(text):
        # 基于jieba的textrank算法实现
        keywords = jieba.analyse.textrank(text,topK=5,withWeight=True)
        return ' '.join([keyword[0] for keyword in keywords])
    
    news_df['keyword_new'] =news_df['content'].map(lambda x: extract_keywords(x))
    keyword_data = news_df[['time','keyword','keyword_new']]
    keyword_data
    

    统计出5个新的关键词,存到 keyword_new 中,然后将 keyword 与其合并,并去除重复的词。

    # 合并并去除重复的词
    def merge_keywords(row):
        # 将keyword列和keyword_new列合并
        keywords = set(row['keyword']) | set(row['keyword_new'].split())
        return ' '.join(keywords)
    
    keyword_data['merged_keywords'] = keyword_data.apply(merge_keywords, axis=1)
    keyword_data
    

    合并后打印 keyword_data ,打印出的结果如下。

    image-20240709230056352

    为了追踪热点,统计所有出现词汇的词频,并统计到 keyword_data['rolling_keyword_freq']

    # 按时间排序
    keyword_data = keyword_data.sort_values(by='time')
    
    # 计算滚动频率
    def get_rolling_keyword_freq(df, window=7):
        rolling_keyword_freq = []
        for i in range(len(df)):
            start_time = df.iloc[i]['time'] - timedelta(days=window)
            end_time = df.iloc[i]['time']
            mask = (df['time'] > start_time) & (df['time'] <= end_time)
            recent_data = df.loc[mask]
            keywords = ' '.join(recent_data['merged_keywords']).split()
            keyword_counter = Counter(keywords)
            top_keywords = keyword_counter.most_common(20)
            rolling_keyword_freq.append(dict(top_keywords))
        return rolling_keyword_freq
    
    keyword_data['rolling_keyword_freq'] = get_rolling_keyword_freq(keyword_data)
    
    keyword_df = pd.DataFrame(keyword_data['rolling_keyword_freq'].tolist()).fillna(0)
    keyword_df = keyword_df.astype(int)
    
    # 将原始的时间列合并到新的DataFrame中
    result_df = pd.concat([keyword_data['time'], keyword_df], axis=1)
    
    # 保存为CSV文件
    result_df.to_csv('./data/news/output/keyword_frequency.csv', index=False)
    

    然后根据以上统计数据,绘制每天的热点词汇变化图。

    # 读取数据
    file_path = './data/news/output/keyword_frequency.csv'
    data = pd.read_csv(file_path, parse_dates=['time'])
    
    # 聚合数据,按日期合并统计
    data['date'] = data['time'].dt.date
    daily_data = data.groupby('date').sum().reset_index()
    
    # 准备颜色列表,确保每个关键词都有不同的颜色
    colors = plt.cm.get_cmap('tab20', len(daily_data.columns[1:])).colors
    color_dict = {keyword: colors[i] for i, keyword in enumerate(daily_data.columns[1:])}
    
    def update(frame):
        plt.clf()
        date = daily_data['date'].iloc[frame]
        day_data = daily_data[daily_data['date'] == date].drop('date', axis=1).T
        day_data.columns = ['count']
        day_data = day_data.sort_values(by='count', ascending=False).head(10)
        
        bars = plt.barh(day_data.index, day_data['count'], color=[color_dict[keyword] for keyword in day_data.index])
        plt.xlabel('Count')
        plt.title(f'Keyword Frequency on {date}')
        for bar in bars:
            plt.text(bar.get_width(), bar.get_y() + bar.get_height()/2, f'{bar.get_width()}', va='center')
        plt.gca().invert_yaxis()
    
    # 创建动画
    fig = plt.figure(figsize=(10, 6))
    anim = FuncAnimation(fig, update, frames=len(daily_data), repeat=False)
    
    # 保存动画
    anim.save('keyword_trend.gif', writer='imagemagick')
    

    最终得到疫情新闻关键词变化gif图,结果如下。

    keyword_trend

    在疫情爆发之前,“公司”与“伊朗”词条保持在高位。可以看到从疫情爆发之后,2月份开始疫情相关新闻数量飙升,之后"新冠肺炎"词条飙升,持续保持在第一,直到8月底,第一波疫情放缓,变为第二。

3.3 新闻评论数据分析

​ 本节对新闻评论先是进行定量统计分析,然后对不同评论进行情感分析。

  1. 每日新闻评论数量统计

    统计新闻评论数量的走势,用柱状图表示,并绘制近似曲线,代码如下。

    # 提取日期和小时信息
    dates = []
    hours = []
    
    for time_str in comment_df['news_time']:
        try:
            time_obj = datetime.strptime('2020-' + time_str, '%Y-%m-%d %H:%M')
            dates.append(time_obj.strftime('%Y-%m-%d')) 
            hours.append(time_obj.hour)
        except ValueError:
            pass
    
    # 统计每日新闻数量
    daily_comment_counts = Counter(dates)
    daily_comment_counts = dict(sorted(daily_comment_counts.items()))
    
    # 统计每小时新闻数量
    hourly_news_count = Counter(hours)
    hourly_news_count = dict(sorted(hourly_news_count.items()))
    
    # 绘制每月新闻数量分布柱状图
    plt.figure(figsize=(14, 6))
    
    days = list(daily_comment_counts.keys())
    comment_counts = list(daily_comment_counts.values())
    bars = plt.bar(days, comment_counts, label='Daily Comment Count')
    plt.xlabel('Date')
    plt.ylabel('Comment Count')
    plt.title('Daily Comment Counts on News')
    plt.xticks(rotation=80, fontsize=10)
    
    # 绘制近似曲线
    x = np.arange(len(days))
    y = comment_counts
    spl = UnivariateSpline(x, y, s=100)
    xs = np.linspace(0, len(days) - 1, 500)
    ys = spl(xs)
    plt.plot(xs, ys, 'r', lw=2, label='Smoothed Curve')
    
    plt.show()
    

    绘制得到每日新闻评论数量统计图如下。

    image-20240710213539847

    可以看到,疫情期间新闻评论数量在1万到4万之间波动,平均每日约为2万条评论。

  2. 疫情新闻按地区统计

    通过按照省份 comment_df['province'] 统计每省的新闻数量,统计各省疫情新闻评论数量。

    首先需要通过对 comment_df['province'] 提取省份信息。

    # 统计包含全国34个省、直辖市、自治区名称的地域数据
    province_name = ['北京', '天津', '上海', '重庆', '河北', '河南', '云南', '辽宁', '黑龙江', '湖南', '安徽', '山东', '新疆',
                     '江苏', '浙江', '江西', '湖北', '广西', '甘肃', '山西', '内蒙古', '陕西', '吉林', '福建', '贵州', '广东',
                     '青海', '西藏', '四川', '宁夏', '海南', '台湾', '香港', '澳门']
    
    # 提取省份信息
    def extract_province(comment_area):
        for province in province_name:
            if province in comment_area:
                return province
        return None
    
    comment_df['province'] = comment_df['comment_area'].apply(extract_province)
    
    # 过滤出省份不为空的行
    comment_df_filtered = comment_df[comment_df['province'].notnull()]
    
    # 统计每个省份的评论数量
    province_counts = comment_df_filtered['province'].value_counts().to_dict()
    

    然后根据统计数据,绘制各省份新闻评论数量占比的饼状图。

    # 计算总评论数量
    total_comments = sum(province_counts.values())
    
    # 计算各省份评论数量占比
    provinces = []
    comments = []
    labels = []
    for province, count in province_counts.items():
        if count / total_comments >= 0.02:
            provinces.append(province)
            comments.append(count)
            labels.append(province + f" ({count})")
    
    # 绘制饼图
    plt.figure(figsize=(10, 8))
    plt.pie(comments, labels=labels, autopct='%1.1f%%', startangle=140)
    plt.title('各省疫情新闻评论数量占比')
    plt.axis('equal')  # 保证饼图是圆形
    plt.show()
    

    在这里插入图片描述

    本次实验,还采用 pyecharts.chartsMap 组件,绘制了中国地图按省份的评论数量分布图。

    from pyecharts.charts import Map
    from pyecharts import options as opts
    
    # 省份简称到全称的映射字典
    province_full_name = {
        '北京': '北京市',
        '天津': '天津市',
        '上海': '上海市',
        '重庆': '重庆市',
        '河北': '河北省',
        '河南': '河南省',
        '云南': '云南省',
        '辽宁': '辽宁省',
        '黑龙江': '黑龙江省',
        '湖南': '湖南省',
        '安徽': '安徽省',
        '山东': '山东省',
        '新疆': '新疆维吾尔自治区',
        '江苏': '江苏省',
        '浙江': '浙江省',
        '江西': '江西省',
        '湖北': '湖北省',
        '广西': '广西壮族自治区',
        '甘肃': '甘肃省',
        '山西': '山西省',
        '内蒙古': '内蒙古自治区',
        '陕西': '陕西省',
        '吉林': '吉林省',
        '福建': '福建省',
        '贵州': '贵州省',
        '广东': '广东省',
        '青海': '青海省',
        '西藏': '西藏自治区',
        '四川': '四川省',
        '宁夏': '宁夏回族自治区',
        '海南': '海南省',
        '台湾': '台湾省',
        '香港': '香港特别行政区',
        '澳门': '澳门特别行政区'
    }
    
    # 将省份名称替换为全称
    full_province_counts = {province_full_name[key]: value for key, value in province_counts.items()}
    
    # 创建中国地图
    map_chart = (
        Map(init_opts=opts.InitOpts(width="1200px", height="800px"))
        .add("评论数量", [list(z) for z in zip(full_province_counts.keys(), full_province_counts.values())], "china")
        .set_global_opts(
            title_opts=opts.TitleOpts(title="中国各省疫情新闻评论数量分布"),
            visualmap_opts=opts.VisualMapOpts(max_=max(full_province_counts.values()))
        )
    )
    
    # 渲染图表为 HTML 文件
    map_chart.render("comment_area_distribution.html")
    

    得到的HTML中,中国各省疫情新闻评论数量分布图如下。

    image-20240710010121017

    可以看到,疫情期间北京地区的评论数量占比最高,其次为广东省,其他省份评论数量较为平均。

  3. 疫情评论情感分析

    本次实验通过使用用于处理中文文本的NLP库 SnowNLP ,实现中文情感分析,通过分析每一条评论,给出相应的 sentiment 值,该值在0到1之间,越接近1越积极,越接近0越消极。

    from snownlp import SnowNLP
    
    # 定义一个函数来计算情感得分,并处理可能的错误
    def sentiment_analysis(text):
        try:
            s = SnowNLP(text)
            return s.sentiments
        except ZeroDivisionError:
            return None
    
    # 对每条评论内容进行情感分析
    comment_df['sentiment'] = comment_df['comment_content'].apply(sentiment_analysis)
    
    # 删除情感得分为 None 的评论
    comment_df = comment_df[comment_df['sentiment'].notna()]
    
    # 将评论按正向(sentiment > 0.5)和负向(sentiment < 0.5)分类
    comment_df['sentiment_label'] = comment_df['sentiment'].apply(lambda x: 'positive' if x > 0.5 else 'negative')
    
    

    本次实验将0.5作为阈值,大于该值的为积极评论,小于该值的为消极评论。通过编写代码,绘制每日新闻评论情感分析图,统计每日新闻的积极评论数与消极评论数,积极数量为正值,消极为负值。

    # 提取新闻日期
    comment_df['news_date'] = pd.to_datetime('2020-' + comment_df['news_time'].str[:5]).dt.date
    
    # 统计每一天的正向和负向评论数量
    daily_sentiment_counts = comment_df.groupby(['news_date', 'sentiment_label']).size().unstack(fill_value=0)
    
    # 绘制柱状图
    plt.figure(figsize=(14, 8))
    
    # 绘制正向评论数量的柱状图
    plt.bar(daily_sentiment_counts.index, daily_sentiment_counts['positive'], label='Positive', color='green')
    
    # 绘制负向评论数量的柱状图(负数,以使其在 x 轴下方显示)
    plt.bar(daily_sentiment_counts.index, -daily_sentiment_counts['negative'], label='Negative', color='red')
    
    # 添加标签和标题
    plt.xlabel('Date')
    plt.ylabel('Number of Comments')
    plt.title('Daily Sentiment Analysis of Comments')
    plt.legend()
    
    # 设置x轴刻度旋转
    plt.xticks(rotation=45)
    
    # 显示图表
    plt.tight_layout()
    plt.show()
    

    image-20240710235955284

    得到最终统计图像如上,可以看出疫情期间积极评论略微高于消极评论,通过统计积极评论占比,得知积极评论占比为58.63%,说明民众对疫情态度较为积极。

  4. 各地区评论情感分析

    通过统计各省份地区发布评论的积极评论占比,得到各地区积极评论占比图。

    # 计算各地区的积极评论数量和总评论数量
    area_sentiment_stats = comment_df.groupby('province').agg(
        total_comments=('comment_content', 'count'),
        positive_comments=('sentiment', lambda x: (x > 0.5).sum())
    )
    
    # 计算各地区的积极评论占比
    area_sentiment_stats['positive_ratio'] = area_sentiment_stats['positive_comments'] / area_sentiment_stats['total_comments']
    
    # 绘制柱状图
    plt.figure(figsize=(14, 7))
    plt.bar(area_sentiment_stats.index, area_sentiment_stats['positive_ratio'], color='skyblue')
    plt.xlabel('地区')
    plt.ylabel('积极评论占比')
    plt.title('各地区的积极评论占比')
    plt.xticks(rotation=90)
    plt.tight_layout()
    plt.show()
    

    image-20240711000236333

    由上图可知,大多数省份的积极评论占比在60%左右,其中香港、澳门的积极评论占比最低,约为50%,而西藏的积极评论占比最高,接近70%。

    通过以上评论分布占比可知,大陆地区评论多为积极评论,而港澳地区消极评论明显增多,其中西藏积极评论最高可能是因为西藏地区样本量较少导致的误差。

  5. 新闻评论词云图绘制

    分别统计所有评论、积极评论与消极评论的词云图,在词云图绘制中,将积极评论列为0.6以上,消极评论列为0.4以下,以下为绘制的三张词云图。

    image-20240711000624576

    可以看出,大部分人的疫情期间评论比较简单,如“哈哈”、“good”等,积极评论中,可以看到“中国加油”,“武汉加油”等鼓励文字,而消极评论中则有“呵呵”、“发国难财”等批评文字。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1921221.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

软件安装下载失败,常见问题汇总(微软软件必备运行库)

文章目录 前言一、卸载软件二、激活软件无法打开&#xff1f;三、安装软件必备运用库扩展&#xff1a;win64位操作系统跟win32位操作系统区别之处 前言 我们在安装激活一些常用的办公软件&#xff0c;如&#xff1a;visio、Matlab、office等等&#xff0c;经常会遇到各种问题&…

Feature Alignment and Uniformity for Test Time Adaptation--论文笔记

论文笔记 资料 1.代码地址 https://github.com/SakurajimaMaiii/TSD 2.论文地址 https://arxiv.org/abs/2303.10902 3.数据集地址 论文摘要的翻译 TTA在接收训练分布外的测试域样本时对深度神经网络进行自适应。在这样设置下&#xff0c;模型只能访问在线未标记的测试样…

在conda的环境中安装Jupyter及其他软件包

Pytorch版本、安装和检验 大多数软件包都是随Anaconda安装的&#xff0c;也可以根据需要手动安装一些其他软件包。 目录 创建虚拟环境 进入虚拟环境 安装Jupyter notebook 安装matplotlib 安装 pandas 创建虚拟环境 基于conda包的环境创建、激活、管理与删除http://t.cs…

云计算【第一阶段(29)】远程访问及控制

一、ssh远程管理 1.1、ssh (secureshell)协议 是一种安全通道协议对通信数据进行了加密处理&#xff0c;用于远程管理功能SSH 协议对通信双方的数据传输进行了加密处理&#xff0c;其中包括用户登录时输入的用户口令&#xff0c;建立在应用层和传输层基础上的安全协议。SSH客…

2个月拿下TOGAF证书的一点心得分享,干货很多!

人物背景介绍&#xff1a; 从报名TOGAF考试到拿证&#xff0c;只用了两个月不到的时间。 考试成绩&#xff1a;TOGAF L1L2通过&#xff0c;L1获得87分&#xff0c;L2 获得70分。 引言&#xff1a; TOGAF证书作为国际架构标准&#xff0c;不仅包括了架构顶点思维&#xff0c…

SpringBoot注解--11--@JSONField @JsonProperty

提示&#xff1a;文章写完后&#xff0c;目录可以自动生成&#xff0c;如何生成可参考右边的帮助文档 文章目录 一个问题&#xff1a;后端实体类isXXX开头的属性&#xff0c;传到前端后自动去掉is解决方法&#xff1a; JsonProperty和JSONField1.简介2.注解的区别2.1 底层框架不…

使用pip或conda离线下载安装包,使用pip或conda安装离线安装包

使用pip或conda离线下载安装包&#xff0c;使用pip或conda安装离线安装包 一、使用pip离线下载安装包1. 在有网络的机器上下载包和依赖2. 传输离线安装包 二、在目标机器上离线安装pip包三、使用conda离线下载安装包1. 在有网络的机器上下载conda包2. 传输conda包或环境包3. 在…

基于QT开发的反射内存小工具

前言 最近项目需要需要开发一个反射内存小工具&#xff0c;经过2天的修修改终于完成了。界面如下&#xff1a; 功能简介 反射内存指定地址数据读取反射内存指定地址数据写入反射内存指定地址数据清理十进制、十六进制、二进制数据相互转换 部分代码 void RfmMain::setWOthe…

十七、计算机视觉-图像平滑处理

提示&#xff1a;云峰 文章目录 前言一、均值滤波&#xff08;Mean Filtering&#xff09;二、高斯滤波器&#xff08;Gaussian Filter&#xff09;&#xff1a;三、中值滤波器&#xff08;Median Filter&#xff09; 前言 在本节中&#xff0c;我们将探讨图像处理中的平滑处理…

短视频矩阵管理系统:如何提升内容质量,帮助企业获客?

在数字化营销蓬勃发展的今天&#xff0c;短视频已成为企业推广的重要阵地。然而&#xff0c;如何高效管理短视频内容&#xff0c;提升内容质量&#xff0c;进而帮助企业精准获客&#xff0c;成为企业亟待解决的问题。短视频矩阵管理系统应运而生&#xff0c;以其强大的功能和灵…

uniapp:使用mescroll实现左导航,右数据(数据带分页)

<template><view class"u-wrap"><u-navbar title"复购" :is-back"false" :border-bottom"false" title-color"#282828"></u-navbar><view class"u-menu-wrap"><scroll-view scr…

Visual Studio下安装引入Boost库

背景&#xff1a; 在 Win 上通过 Visual Studio 运行 c 代码&#xff0c;引入头文件 #include <boost/...>&#xff0c;显式无法打开&#xff0c;需要手动下载boost并进行配置。 1、下载boost Boost官网&#xff1a;Boost Downloads 下载boost&#xff0c;解压&#xf…

2024年高职物联网实验室建设及物联网实训平台整体解决方案

随着物联网技术的蓬勃发展&#xff0c;其在各行业的应用日益广泛&#xff0c;对具备物联网专业技能的高素质人才需求也急剧增加。为了满足这一市场需求&#xff0c;高职院校作为技能型人才培养的重要阵地&#xff0c;亟需加强物联网专业的建设。本文旨在提出《2024年高职物联网…

STM32基础篇:EXTI × 事件 × EXTI标准库

EXTI EXTI简介 EXTI&#xff1a;译作外部中断/事件控制器&#xff0c;STM32的众多片上外设之一&#xff0c;能够检测外部输入信号的边沿变化并由此产生中断。 例如&#xff0c;在检测按键时&#xff0c;按键按下时会使电平产生翻转&#xff0c;因此可以使用EXTI来读取按下时…

ChatGPT摆脱“AI味”:全面提升写作质感

ChatGPT在各种写作、创作场景都发挥了很大的价值&#xff0c;即使中文语料库占比不到5%&#xff0c;也能生成流畅的中文文本。但随着使用的深入&#xff0c;大家也逐渐发现了机器生成的内容&#xff0c;往往带有一种僵硬、刻板的“AI味”&#xff0c;尤其在论文、自媒体写作中&…

[RK3308H_Linux] 关于8+2(8路模拟麦克风 + 2路es7243e回采)的调试心得

问题描述 RK3308H 使用8路个模拟麦克风录音&#xff0c;2路用es7243e做回采 解决方案&#xff1a; 首先先调8路模拟麦克风&#xff0c;根据原理图确定使用的是哪路I2S。 以下为dts配置&#xff0c;acodec的属性注释附上。 &acodec {status "okay";rockchip,m…

CCNA-2-V7-模块7–9:可用且可靠的网络考试答案

1.一台启用了DHCP的客户端PC刚刚启动。客户端PC在与DHCP服务器通信时,将在哪两个步骤中使用广播消息?(选两个。) DHCPDISCOVERDHCPACKDHCPOFFERDHCPREQUESTDHCPNAK 2.管理员发出命令:管理员想达到什么目的? Router(config)# interface g0/1 Router(config-if)# ip address …

智充科技营收增速放缓:经营成本飙升,应收账款大幅增长

《港湾商业观察》黄懿 6月10日&#xff0c; XCHG Limited 智能充电有限公司(下称&#xff1a;智充科技)在美国证监会(SEC)更新招股书&#xff0c;拟在美国纳斯达克上市&#xff0c;其股票代码为“XCH”。北京智充科技有限公司为其国内运营主体&#xff08;下称“北京智充科技”…

深入理解Java集合框架:构建高效、灵活的数据管理方案

深入理解Java集合框架&#xff1a;构建高效、灵活的数据管理方案 引言 Java集合框架&#xff08;Java Collections Framework, JCF&#xff09;是Java语言提供的一套用于表示和操作集合的统一架构。它包含了一系列的接口和类&#xff0c;用于存储和操作对象集合&#xff0c;如…

两个视频怎么剪辑成一个视频?3个方法分享

两个视频怎么剪辑成一个视频&#xff1f;将两个视频剪辑成一个视频&#xff0c;是现代数字内容创作中的高频需求&#xff0c;它不仅简化了素材管理&#xff0c;还能通过创意剪辑提升作品连贯性与表现力。通过精心编排&#xff0c;两个视频片段可以无缝融合&#xff0c;讲述更完…