🤵♂️ 个人主页:@艾派森的个人主页
✍🏻作者简介:Python学习者
🐋 希望大家多多支持,我们一起进步!😄
如果文章对你有帮助的话,
欢迎评论 💬点赞👍🏻 收藏 📂加关注+
目录
1.数据收集、预处理及基本统计分析
1.1数据收集
1.2数据预处理
1.2.1新浪微博原创文本预处理
1.2.2 B站视频等其他平台原创文本预处理
1.3 数据基本统计
1.3.1 微博平台数据统计分析
1.2.2 B站等其他平台数据统计分析
2.研究设计
2.1 主题词演化分析
2.1.1 卡塔尔世界杯三个时期的主题分析
2.1.2 关键事件的主题分析
2.1.3 弹幕文本与评论文本主题对比
2.2 主题情感演化分析
2.3 结合主题词演化与主题情感演化
3.研究结果与分析
3.1世界杯赛事舆情演化情感
3.2世界杯赛事舆情引导策略建议
4.结论
1.数据收集、预处理及基本统计分析
1.1数据收集
2022年11月21日-12月18日,四年一届的世界杯足球比赛在卡塔尔历经了27天后完美谢幕。我们使用Python网络爬虫技术,编写程序,爬取咪咕视频、央视频、B站视频和新浪微博中的数据,主要以评论数据为主。其中新浪微博收集时间跨度为2022年11月20日至2022年12月21日,收集内容以世界杯为关键词的原创帖子数据(包括用户昵称、微博正文、发布位置、话题、转发数、点赞数、评论数、发布时间等),其余平台爬取的是卡塔尔世界杯八强的比赛评论相关数据(包括比赛名称、用户id、用户ip所属地、评论内容等)。最后新浪微博收集到的数据为 186667 条,其余平台收集到的数据总计 167531 条。
表 1 数据收集
数据来源及数目 | 新浪微博 | B站 | 央视频 | 咪咕视频 |
文本条数(条) | 186667 | 103567 | 29639 | 34325 |
1.2数据预处理
将所有文本信息进行清洗。由于评论中会出现单个文本条目中仅含有表情图标包括图片表情和颜文字表情以及无意义的数字,统一处理为空白数据一并去除。
1.2.1新浪微博原创文本预处理
微博热搜原创文本爬虫示例
删除掉无关属性,仅保留id、user_id、微博正文、点赞数、评论数、收藏数、发布时间等数据,使用python剔除原创文本全部是表情包或异常字符等非文本数据,最后剩余186667条微博原创文本数据。
1.2.2 B站视频等其他平台原创文本预处理
由于咪咕视频和央视频中的比赛评论文本数据较少,所以在这里使用python中的pandas库将这两个平台的数据与B站视频数据进行合并处理。将数据合并之后,使用python中的re正则表达式初步剔除表情包、特殊字符、空白词条等非文本数据。
B站等其他平台八强比赛评论文本爬虫示例
1.3 数据基本统计
1.3.1 微博平台数据统计分析
微博虽然没有获取比赛直播的权限,但是其平台作为国内最大的社交媒体之一,用户在其平台发布的关于卡塔尔世界杯的信息数量也是十分庞大的。从原创文本总数趋势线图中可看出,微博平台在11月21日卡塔尔世界杯开幕式的时候,原创文本总数出现第一波高峰,随机数量开始下降,在11月24日出现第二波小高峰,分析原因是德国vs日本出现爆冷,德国输给日本。随后逐渐下降,出现冷淡期,直到12月09日八强赛的开始,原创文本总数开始回暖,数量逐渐上升,最终在12月18日和12月19日两天达到最高峰,随之而来的也是卡塔尔世界杯的闭幕,原创文本总数开始暴跌,开始消亡时期。
原创文本点赞、评论、转发数趋势大致相同,且与原创文本总数趋势也大致相同,都是在11月21日出现第一波小高峰,在11月24日出现第二波小高峰,随后开始下降直到八强赛的开始,开始逐步上升,出现小高峰,最后在决赛日18日附近出现最高峰,随之开始消亡时期。
1.2.2 B站等其他平台数据统计分析
央视频、咪咕视频分别是cctv和体育届知名官方的网上平台,其都获取了卡塔尔世界杯的转播权限,B站虽没有获取转播权限,但是用户在每场比赛前后也活跃在B站各个角落,最后抓取这些平台上八强比赛的用户评论数据,共计167531条,在12.14日克罗地亚对战阿根廷出现小高峰,并于决赛达到顶峰。且从八强比赛的用户活跃量看出,只要出现阿根廷的比赛,其用户活跃量都是相对较高的,说明在本届世界杯中,球迷主要关注的球队的阿根廷队,或许与其球员梅西有关。
在八强赛中,我们通过分析评论用户的ip属地,使用地图可视化工具将在八强赛中的各地区球迷分布情况展现出来,通过词云图发现,沿海中的广东、江苏、山东球迷分布较多,内地中四川和河南的球迷分布较多。
2.研究设计
2.1 主题词演化分析
在提取主题词之前,先将待分析的文本做中文文本预处理,包括剔除异常字符、通用词等,由于体育竞赛相关的词汇在jieba库中没有完全摘录,现根据几段测试文本的分词结果,添加32个体育竞赛与卡塔尔世界杯相关的词汇,添加进jieba库中分词的分词词典。并使用中文停用词词表结合哈工大停用词词表进行分词词语剔除,根据剔除结果在停用词词表中补充新的无意义停用词。最后根据处理完的词语词频表,并使用前1000个词语绘制各个时期和各个重要事件的词云图。
2.1.1 卡塔尔世界杯三个时期的主题分析
在热点事件的发展时期,根据所有汇总的文本信息进行分词后,大部分网友在网络上留下的文本信息的词频统计绘制的词云图显示,网络上在这个时期对热点事件的关注集中在赛事进程,比较关注哪些球队会在小组赛出线或晋级,如‘卡塔尔’、‘日本’、‘葡萄牙’、‘晋级’、‘小组赛’等,同时也关注世界杯比赛赞助方的各种活动,如‘蒙牛’、‘抽奖’、‘箱奶’、‘链接’、‘网页’、‘积分’、‘大转盘’等。
发展时期词云图
主题词提取采用LDA模型,根据主题词中词语的重复情况以及LDA可视化中主题相互覆盖情况调整主题个数,同时结合lda困惑度值发现主题数在5-6个时困惑度最低,但某几个主题词重合度高,最终调整为3个主题。将每个主题打印出主题下的主题词语可以看出网友在这个时期主要还是关注球队的晋级情况以及比赛赞助方的活动等等,与上面词云图分析的大致相同。
发展时期主题词可视化
发展时期主题词表
主题词提取 | 主题编码 | 主题词 |
主题1 | 比赛赞助 | 蒙牛 抽奖 链接 积分 送出 活动 大转盘 箱奶 限量 好礼 |
主题2 | 赛程情况 | 卡塔尔 阿根廷 克罗地亚 梅西 小组赛 日本 足球 巴西 |
主题3 | 赛后评价 | 加油 精彩 不错 助威 喜欢 熬夜 快乐 青春 梦想 赌球 |
在热点事件的爆发时期,球员梅西所在的阿根廷队进入了最后的决赛并取得了冠军,可以看到网络上相关的文本都围绕在‘阿根廷’、‘梅西’、‘冠军’、‘夺冠’等词。网友们关注的内容可分为三类,半决赛和决赛中的球队或球员如‘克罗地亚’、‘摩洛哥’、‘法国’、‘阿根廷’、‘梅西’、‘姆巴佩’等;阿根廷队夺冠后的庆祝如‘冠军’、‘大力神杯’、‘恭喜’、‘圆梦’等;以及对国足的希望如‘中国’、‘北京’、‘国家队’、‘希望’。
爆发时期词云图
爆发时期主要是收集在决赛前后的文本数据,从主题词来看主要是网友对于阿根廷队夺冠的热烈祝贺和赞扬。
爆发时期主题词可视化
爆发时期主题词表
主题词提取 | 主题编码 | 主题词 |
主题1 | 比赛情况 | 法国 阿根廷 克罗地亚 摩洛哥 决赛 半决赛 梅西 姆巴佩 球队 裁判 本届 点球 |
主题2 | 夺冠庆祝 | 梅西 阿根廷 夺冠 大力神杯 恭喜 球王 圆梦 终于 精彩 青春 老板 庆祝 圆满 梦想 雄鹰 夺得 捧起 |
主题3 | 赛事报道 | 决赛 竞猜 现场 晚上 解说 直播 国家 关注 体育 网络 |
在热点事件的消亡时期,词频结果显示了网友对此次热点事件从几方面的评价。大部分网友热烈庆祝阿根廷队取得卡塔尔世界杯冠军,出现高频词如‘阿根廷’、‘梅西’、‘冠军’和‘夺冠’;部分球迷在看到了自己喜欢的球员梅西圆梦世界杯后,也感叹希望自己国家的足球队能有所改变,同时也希望世界杯能有望在北京举办一次,出现如‘中国’、‘北京’、‘球队’、‘球员’、‘参加’等。与此同时,可能还出现了与本届世界杯无关的热点事件,如‘疫情’、‘法院院长’、‘法官’、‘案件’、‘打击报复’等。
消亡时期词云图
消亡时期主题词可视化
消亡时期主题词表
主题词提取 | 主题编码 | 主题词 |
主题1 | 意义评价 | 梅西 冠军 结束 球王 朋友 人世 青春 梦想 终于 遗憾 发现 永远 宇宙 喜欢 精彩 |
主题2 | 赛后情况 | 阿根廷 决赛 结束 联赛 英超 参加 训练 皇马 未来 转会 合同 曼联 国足 |
主题3 | 其他事件 | 石景山 张英周 法院院长 案件 疫情 法官 打击报复 说法 调整 卫健委 急救 整顿 枉法 年度 |
2.1.2 关键事件的主题分析
11月21日是卡塔尔世界杯揭幕战第一天,作为东道主的卡塔尔对阵厄瓜多尔,然而卡塔尔最终却输掉了比赛,东道主卡塔尔成为世界杯首支被淘汰的球队,这一新闻迅速引爆网络。微博热搜和B站等相关视频平台的原创文本量创下历届历史新高。根据词频统计生成词云图可以看出,‘厄瓜多尔’、‘卡塔尔’、‘世界杯’、‘东道主’、‘脱单’、‘预测’、‘揭幕战’等对该场比赛的词频最大。
卡塔尔被淘汰事件词云图
卡塔尔被淘汰文本主题可视化
卡塔尔被淘汰主题词表
主题词提取 | 主题编码 | 主题词 |
主题1 | 比赛情况 | 卡塔尔 厄瓜多尔 揭幕战 东道主 世界杯 开幕式 足球 平局 主场 |
主题2 | 赛前分析 | 预测 阴谋论 比分 懂球 反向 差距 分析 拿下 预言家 胜负 吃瓜 |
主题3 | 体育彩票 | 彩票 赚钱 赌球 软件 体彩 赔率 本金 平台 概率 反买 小球 大小 |
主题4 | 赛后感受 | 兄弟 喜欢 国家 中国队 喜极而泣 面子 输 大哭 吃瓜 滑稽 可惜 |
11月23日,在日本vs德国的小组赛中,德国遭遇爆冷输给日本,引发了一波热点,当日热搜词条‘日本战胜德国’相较于时间前后的阅读量和原创数据量多出5倍左右。从词频可以看出粉丝对于这两个队伍的比赛平均内容比较多,对于日本队,主要是以‘恭喜’、‘厉害’、‘武士’、‘喜欢’、‘祝贺’、‘胜利’为主的正面情感,而对于德国队,主要是以‘冷门’、‘爆冷’、‘滑稽’、‘没想到’、‘剧本’等负面的情绪。出线这一情况的原因可能是大多数网友相信德国的球队实力而买了德国赢,结果惨遭爆冷,进而出现了很多负面情绪。
日本战胜德国词云图
日本战胜德国文本主题可视化
日本战胜德国主题词表
主题词提取 | 主题编码 | 主题词 |
主题1 | 赛前情况 | 日本 亚洲 支持 希望 武士 强队 实力 加油 一定 东亚 |
主题2 | 粉丝心态 | 大哭 生气 偷笑 羡慕 卧槽 大笑 喜极而泣 吃瓜 骄傲 压力 |
主题3 | 赛后评价 | 喜欢 祝贺 漂亮 厉害 预言家 不错 爆冷 赌狗 风水 精彩 |
北京时间12月18日晚,卡塔尔世界杯迎来最后的决赛,对阵队伍为阿根廷和法国,12月18日和12月19日两天在微博热搜和B站等视频平台出现了大量的关于阿根廷夺冠的视频和言论。根据高频词语生成词云可以看出,”阿根廷,”法国”、‘’梅西”、“姆巴佩“、“点球“、“夺冠“等对该场比赛的词频量最大,其次是网友们对比赛中的选手表现和比赛结果相关的词汇,如“球王”、“希望”、“雄鹰”、“预测”、“毒奶”、“大哭”等。
阿根廷夺冠词云图
阿根廷夺冠主题可视化
针对阿根廷夺冠事件的主题词,与爆发时期的主题词相似,产生的主题和主题内的词语大致相同出现概率最高的是在决赛比赛期间对于比赛结果的期待与猜想和结果对自身的影响如‘脱单’等愿景类型的词语。
阿根廷夺冠主题词表
主题词提取 | 主题编码 | 主题词 |
主题1 | 鼓励激励 | 加油 必胜 阿根廷 法国 支持 预测 梅西 今晚 看看 毒奶 |
主题2 | 比赛过程 | 点球 裁判 犯规 进攻 保卫 门将 解说 足球 世界杯 绝杀 |
主题3 | 粉丝心情 | 大哭 喜极而泣 打脸 卧槽 保佑 喜欢 心态 滑稽 恭喜 |
主题4 | 赛后评价 | 脱单 谢谢 梅西 吃瓜 夺冠 兄弟 圆梦 肯定 高卢雄鹰 |
2.1.3 弹幕文本与评论文本主题对比
在爬取文本数据的过程中,同一时期的视频评论与弹幕文本在形式上有较大差距,故挑选爆发时期的评论文本与弹幕文本,提取各自的主题与主题词进行分析。
弹幕文本词云图
通过观察评论文本与弹幕文本,弹幕文本多为短句,编写发送速度快。词频统计主要关注于比赛中的实时情况,比如球迷的鼓励言论‘加油’、‘必胜’、‘支持’、‘夺冠’等。
弹幕文本主题可视化
弹幕文本主题词表
主题词提取 | 主题词 |
主题1 | 必胜 点球 希望 毒奶 预言家 胜利 梅西 决赛 足球 支持 |
主题2 | 梅西 球王 老板 必胜 大力神杯 雄鹰 老鹰 天佑 骄傲 胜利 |
主题3 | 胜利 祝贺 恭喜 梅西 团结 圆梦 泪目 必胜 回家 打脸 |
弹幕文本的LDA主题提取效果并不是很理想,三个主题中词语重复率很高但是根据主题可视化结果又显示三个主题的主题分类是十分显著的,说明实时弹幕类型的短文本数据在主题提取上可能需要更精细化的设计。
评论文本主要是比赛前或比赛后的网友留言,常常会出现已知结果后来评论的情况。由于只选取了爆发时期的两种文本对比,所以网友留下评论的时间大部分会出现在决赛之后,比如高频词“梅西”、‘冠军’、‘夺冠’等等。绝大部分网友在梅西夺冠后的愿望可能是‘脱单’等。
评论文本词云图
评论文本主题可视化
评论文本主题词表
主题词提取 | 主题编码 | 主题词 |
主题1 | 比赛评价 | 世界杯 决赛 卡塔尔 大战 加时赛 裁判 今晚 精彩 刺激 可惜 加时 进攻 门将 离谱 |
主题2 | 球迷状况 | 吃瓜 支持 兄弟 感谢 大笑 心脏 打脸 稳住 剧本 香槟 哭哭 卧槽 嗑瓜子 |
主题3 | 赛后评价 | 梅西 夺冠 大哭 球王 恭喜 大力神杯 圆梦 老板 奇迹 中国 分析 完美 终于 |
评论文本的主题与高频词词云图展现的内容基本相符,基本关于对获胜队伍的赛场表现和选手个人的表扬与鼓励。
2.2 主题情感演化分析
使用snowNLP库做文本情感分析,鉴于体育比赛相关文本有独特的语言结构与差异性,以及snowNLP库情感打分模块是使用消费者评价文本进行训练的。故在积极语料库与消极语料库中添加体育相关文本进行训练,利用训练后的模型进行打分。
经过情感打分后,以0.5分值为分界线,将其分为积极文本和消极文本,统计各个时期的正负情绪占比。对比文本平均情感分值与中位情感分值来看,在事件的三个时期都是积极情感分值大于0.5中介值,平均值和中位数都大于0.5,说明积极文本数量明显大于消极文本数量。而且随着时期的发展,情感分值是逐渐下降的,发展时期分值最高,消亡时期分值最低。
单从积极与消极文本的占比变化来看,三个时期变化较为一致,三个时期都是积极情感占据大多数,消极情感占少数,且随着时期的变化(发展-爆发-消亡),积极情感的文本数量逐渐下降,消极情感的文本数量逐渐上升,说明从发展到消亡阶段,网友的情绪变化越来越消极、失望。
2.3 结合主题词演化与主题情感演化
从两个平台收集到的数据量起伏率可以看出,整个S11英雄联盟全球总决赛可以明显划分为三个时期。由于该事件是能够确定开始时间的热点事件,相较于网络舆情生命周期理论常划分的四个以上的阶段数来说,缺少“潜伏期”、“萌动期”和“起始期”等类似的事件发酵阶段。
结合主题词演化与情感演化的结果来分析。在热点事件的发展时期,由于发展时期收集的比赛场次数较多,从主题提取角度看,网友们发表的综合评价类文字居多,包括对赛事进程的关注和赞助费的活动等。从情感打分的结果来看,这个时期网友发布的与这个事件相关的文字积极情感分值大且数量多,说明这个时期网友的对卡塔尔世界杯的情感是非常友好喜爱的。
在热点事件的爆发时期,该时期主要关注最后一场比赛。从分词结果来看,网友的评论文本多为赛中评价,决赛中关键机会把握的评价如“点球”、“进攻”、“防守”等主题词更能表达网友实时的反应。而展现的主题关注在夺冠的喜悦和祝福中,网友们的综合评价情感分值虽然比发展时期的分值相比略微有所下降,但是还是积极情感占多数且分值大,更比消亡时期的分值大,说明这个时期网友的情感还是较为不错且稳定的。
在热点事件的消亡时期,主题多为爆发时期的延续,经过几天时间的发酵,网友的关注点渐渐聚焦于冠军队伍的每一个选手上,进行更细节的评价。并出现与夺冠意义相关的主题类似网友表达该球队或某位球员蛰伏多年终于夺冠的激动心情。在此时期也出现一些其他不好的新闻案件,包括疫情的影响,此时网友的情感分值相比前两个时期,分值又有下降的趋势,消极情感数量增加,情感分值降低。
3.研究结果与分析
3.1世界杯赛事舆情演化情感
研究发现,本次卡塔尔世界杯比赛的整体热点起伏符合网络舆情时间的生命周期原理理论,在事件发展过程中,网友们参与讨论的人数和文本条数都有明显的发展、爆发和消亡三个时期相应的变化。
首先,在热点事件发展时期,网友更关注赛事赛程的安排,球队在比赛过程中的整体配合与表现。而且此时对于相关话题的积极情绪较多,在该事件主题下网络舆论环境较好,是三个时期中最好的。
其次,在热点事件爆发时期,爆发时期时间较短,网友们更关注决赛的两只球队的详细情况,以及比赛过程中各个相关方的实时详细情况,在极短时间内有极高的关注热度并且相关舆论积极情绪虽不如发展时期,但是其分值还是处于较高的水平。
最后,在热点事件消亡时期,虽然大部分网友还沉浸在阿根廷夺冠的喜悦和激动中,但是也出现了一些不好的新闻,导致网友的情绪出现波动,出现大量消极情绪文本。但是总体来看,还是积极情感占多数。
3.2世界杯赛事舆情引导策略建议
在热点事件发展时期,赛事主办方可以更关注网友们在赛程安排上发表的建议或反馈,观察是否需要作出决策调整。该时期可以重点关注一些热门球队和热门选手的赛场表现以及赛事结果,实时地产出和推高相应的热点话题,吸引更多网友参与讨论。同时也要注意对选手个人或球队可能导致的网络暴力伤害,降低相关负面话题热度,营造正面良好的舆论环境氛围。
在热点事件的爆发时期,由于极高的实时热点,是赛事主办方可以有效利用并发挥出体育赛事传播工作的重点,在赛前、赛中和赛后都应该一定程度加大对相关话题的推高热度,应尤为关注事件细节,并挖掘可能成为高热度热搜的话题。同时加强对赛事过程中的相关运营人员如解说员和导播员的引导工作,提醒他们在此时时刻关注自己的行为是否有引发网友讨论等,及时获知反馈及时调整。
在事件的消亡时期,赛事主办方应联合相关俱乐部、微博媒体及时或提前发布抵制粉丝极端庆祝活动,降低可能引发公关风险的额外成本,降低对公共网络社会和现实社会有负面影响的话题热度,遏制网络舆情的进一步负面演化,尽可能减少负面事件带来的社会成本。发布或产出正面积极的热点话题,引导网民情绪,在网络环境中留下一个积极形象。
4.结论
本文通过爬取微博、B站、咪咕等视频平台上卡塔尔世界杯赛事相关博文数据和视频评论,在数据预处理中进行了基于原创文本量、点赞量、评论量、转发量、ip属地统计量的统计分析,并通过分析不同时期的相关数据量发展趋势划分了三个热点事件发展阶段,发展时期、爆发时期、消亡时期。
其次,使用LDA主题提模型和snowNLP情感分析模型,针对不同的热点事件发展时期,分别进行主题提取和情感分析。可以发现不同时期,网民对世界杯赛事的关注人数由少到多、关注角度由面到点,关注话题随时期的变化逐步细化至爆发时期达到极细致的话题切入角度。在情感上,事件总体是积极情绪逐渐减弱,消极情绪逐渐增强,其中事件发展和消亡时期的舆论情绪差距较大,发展时期情感分值最大,消亡时期情感分值最小,爆发时期处于中间值。
最后通过分析的文本数据,呈现该热点事件的演化情况以及对此提出赛事主办方可以迎合网友关注角度由整体到局部的变化做出积极产出与推高正面话题和降低负面话题热度策略的建议。
本研究由于采用了多个平台的多种类型的文本材料进行舆情分析,在文本类型归一化处理程度还不够好,尤其是弹幕文本与评论文本的融合度不好,导致分词和主题提取的模型处理结果不是很明显,应当选取更加单一的文本类型或者更好的处理实时短文本与评论长文本的文本结构,或依据文本长短类型选取更加适合的主题提取模型。
资料获取,更多粉丝福利,关注下方公众号获取