python获取tx弹幕数据并制作词云图

news2024/11/19 14:46:49

前言

大家早好、午好、晚好吖 ❤ ~欢迎光临本文章

知识点介绍:

  • 爬虫基本思路流程

  • requests模块的使用

  • pandas读取表格数据

环境介绍:

开发环境:

  • python 3.8 运行代码

  • pycharm 2022.3 辅助敲代码

模块使用:

  • requests >>> pip install requests

  • pandas >>> pip install pandas

  • jieba

  • stylecloud

第三方模块安装:

win + R 输入cmd 输入安装命令 pip install 模块名

(如果你觉得安装速度比较慢, 你可以切换国内镜像源)

采集弹幕代码展示

完整源码、教程 点击此处跳转文末名片获取 ,我都放在这里了。

导入模块

import requests     # 发送请求 第三方模块
import csv          # 内置模块 保存数据
f = open('弹幕.csv', mode='a', newline='', encoding='utf-8-sig')
csv_writer = csv.writer(f)
csv_writer.writerow(['nick', 'create_time', 'content'])

伪装及多页采集

# 请求头: 伪装
# 键: 拼音
# 值: 字
# {'user-agent': 'Mozilla/5.0....'} Python叫做字典 存储数据的  列表也是存储数据的 []
headers = {
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/106.0.0.0 Safari/537.36'
}
for i in range(0, 100):
    # 请求方法: GET
    url = f'https://dm.video.qq.com/barrage/segment/r0044k5cbzb/t/v1/{i*30000}/{i*30000+30000}/083002a_1666174141'
  1. 发送请求
    # 函数传参 默认位置传参, 指定参数传参
    response = requests.get(url, headers=headers)
  1. 获取数据 <Response [200]>: 请求成功
    json_data = response.json()
  1. 解析数据 提取数据
    # 字典(可以通过键取值) 和 列表 的取值方式
    # [1,2,3,4,5,6,7]
    barrage_list = json_data['barrage_list']
    for barrage in barrage_list:
        content = barrage['content']
        nick = barrage['nick']
        create_time = barrage['create_time']
        print(nick, create_time, content)
  1. 保存数据
        csv_writer.writerow([nick, create_time, content])

词云图代码

导入模块

import pandas as pd  # 第三方模块
import jieba
import stylecloud
  1. 导入数据
df = pd.read_csv('弹幕.csv')

def get_cut_words(content_):
    # 定义停用词的表
    stop_words = []
    with open('stop_words.txt', 'r', encoding='utf-8-sig') as f:
        lines = f.readlines()
        for line in lines:
            stop_words.append(line.strip())

添加关键词

    my_words = ['666', '某音']
    for i in my_words:
        jieba.add_word(i)
    word_num = jieba.lcut(content_.str.cat(sep='。'), cut_all=False)
    word_num_selected = [i for i in word_num if i not in stop_words and len(i) >= 2]
    return word_num_selected

text = get_cut_words(df['content'])

stylecloud.gen_stylecloud(
    text=' '.join(text),
    collocations=False,
    font_path=r'C:\Windows\Fonts\msyh.ttc',
    icon_name='fab fa-youtube',
    size=768,
    output_name='video.png'
)

括展小知识

  1. .text: 只要是文本内容 都可以用.text

  2. .content: 获取二进制数据, 如果当你访问的链接为 图片/视频/音频

  3. .json(): 只支持 {}/[] 取出来之后的数据 要么是字典 要么是列表 要么就是报错

尾语 💝

好了,今天的分享就差不多到这里了!

完整代码、更多资源、疑惑解答直接点击下方名片自取即可。

对下一篇大家想看什么,可在评论区留言哦!看到我会更新哒(ง •_•)ง

喜欢就关注一下博主,或点赞收藏评论一下我的文章叭!!!

最后,宣传一下呀~👇👇👇更多源码、资料、素材、解答、交流皆点击下方名片获取呀👇👇👇

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/562791.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

​年轻人的情绪,都藏在知乎的短故事里

“谢邀&#xff0c;与世界分享我刚编的故事。” 这是一句在知乎被调侃的老梗。它源自于知乎上有众多隐匿的大佬&#xff0c;他们经历过各种奇闻轶事&#xff0c;也乐于分享传奇的人生经历&#xff0c;而这其间&#xff0c;很多真假难辨的事迹&#xff0c;也被很多用户笑称可以当…

这几款好用的软件分享给你

软件一&#xff1a;Handbrake Handbrake是一款免费开源的视频转码软件&#xff0c;适用于Mac、Windows和Linux系统。它可以将几乎所有视频格式转换为其他格式&#xff0c;包括MP4、MKV、AVI等等。作为一个强大的视频编码器&#xff0c;它可以压缩视频大小&#xff0c;并提供多…

Android Qcom USB Driver学习(十一)

该系列文章总目录链接与各部分简介&#xff1a; Android Qcom USB Driver学习(零) 基于TI的Firmware Update固件升级的流程分析usb appliction layers的数据 USB Protocol Package ①/② map to check password correct Package Format: Byte[0] Report Id Byte[1] Valid L…

玩转SpringCloud Alibaba,看阿里大佬的笔记是真香

大家都知道&#xff0c;SpringCloudAlibaba 风靡 Java 开发行业&#xff0c;各个公司都在用这套技术&#xff0c;所以咱们 Java 工程师不管是日常工作或是出去面试&#xff0c;都会用到或者被问到关于SpringCloudAlibaba的应用以及底层原理 所以说&#xff0c;小编下面带来一份…

用于视频编辑和渲染的最佳GPU是什么?

购买新的图形卡&#xff08;GPU&#xff09;可能很困难&#xff0c;尤其是如果涉及您所不熟悉的所有技术问题。 显卡市场上的大多数消费者只需要了解显卡在自己喜欢的游戏中的性能&#xff0c;并确定购买决定即可。但是&#xff0c;如果您想购买GPU进行视频编辑或3D渲染&#…

网络安全工程师考证指南

已经到2023年了&#xff0c;那么信息安全类证书最有前途的有哪些呢&#xff1f;今天和大家一起聊聊这个话题&#xff01; 1.CISP(国家登记的信息安全专业人员) 就CISP而言&#xff0c;安全实践者基本耳闻&#xff0c;算是国内权威认证&#xff0c;毕竟有政府背景为认证做背书&…

微服务环境搭建(spring cloud Alibaba)(一)

模块: 商品模块, 订单模块, 用户模块 一. 1. 技术选型以及准备工作 maven : 3.8.8版本 数据库: MySQL 8.0.32 持久层: springData , jpa 其他java环境 : SpringCloud Alibaba 技术栈 2. 模块 设计 springcloud- alibaba 父工程 shop - common 公共模块 [ 实体类 ] sh…

【技术】多端能力服务统一是一种关键的技术和架构

多端能力服务统一是一种关键的技术和服务架构&#xff0c;旨在为不同终端设备提供一致的用户体验和功能。通过采用前端和后端技术的组合&#xff0c;如响应式 Web 设计、PWA、跨平台移动应用开发框架、RESTful API、GraphQL、WebSocket、Serverless 架构和微服务架构&#xff0…

实现并测试协同滤波算法

访问【WRITE-BUG数字空间】_[内附完整源码和文档] 本次实验实现了基于用户和基于项的协同滤波算法&#xff0c;并在 Movielens 两个较小的数据集上进行了测试&#xff0c;测试采用 RMSE 进行评估 一、问题简述 1.1 推荐系统问题 推荐系统问题旨在用户推荐相关项&#xff0c;项…

如何利用CiteSpace快速锁定领域内最新研究热点并制作精美的可视化专题图

在科研工作中&#xff0c;我们常常需要面对海量的文献进行阅读和分析&#xff0c;如何在这些文献当中找出值得精读、细读的关键文献&#xff0c;挖掘学科前沿&#xff0c;找到研究热点就成为了开展研究之前首先需要解决的问题。CiteSpace作为一款优秀的文献计量学软件&#xff…

六、数据仓库详细介绍(ETL)经验篇

0x00 前言 日常工作中大多数时候都是在做数据开发&#xff0c;ETL 无处不在。虽然最近两年主要做的大数据开发&#xff0c;但感觉日常干的这些还是 ETL 那点事儿&#xff0c;区别只是技术组件全换了、数据量大了很多。 前几年数仓势微&#xff0c;是因为传统的那些工具数据库等…

每个程序员必备的基础设施--Codeium

自从 chartGPT3 横空出世以后&#xff0c;AI 技术越来越深入到每个人的生活中&#xff0c;这里不谈 AI 到底是不是真的存在着类人的思想和智慧&#xff0c;也不谈是否取代人类的问题。本着实用主义的原则&#xff0c;先让它能为我所用。 我在工作中已经深入使用了 chartGPT 和…

【详解栈Stack与队列Queue】

&#x1f320;作者&#xff1a;TheMythWS. &#x1f386;专栏&#xff1a;《集合与数据结构》 &#x1f387;座右铭&#xff1a;不走心的努力都是在敷衍自己&#xff0c;让自己所做的选择&#xff0c;熠熠发光。 目录 栈 ( Stack ) 栈的概念 栈的使用 栈的模拟实现 栈…

idea的这款代码提示插件爱了

前言 Idea 是一款功能强大的集成开发环境&#xff08;IDE&#xff09;&#xff0c;它可以帮助开发人员更加高效地编写、调试和部署软件应用程序,Idea 还具有许多插件和扩展&#xff0c;可以根据开发人员的需要进行定制和扩展&#xff0c;从而提高开发效率,今天我们就来介绍一款…

Fourier分析入门——第7章——采样理论

目录 第 7 章 采样定理 7.1 引言 7.2 采样定理 7.3 错误识别(aliasing) 7.4 Parseval定理(Parseval[pzeifa:l]) 7.5 截断Fourier级数和回归理论(Truncated Fourier Series & Regression Theory) 第 7 章 采样定理 7.1 引言 在第 6 章中&#xff0c;我们发现有限区…

测试还是测开为你做个分析,让你少走弯路

软件测试和测试开发都是软件开发声明周期中非常重要的环节&#xff0c;缺一不可。当然了这两者还有区别的&#xff0c;比如果薪资待遇&#xff0c;开发要比测试待遇好&#xff0c;但测试里面功能测试和性能测试待遇又不同&#xff0c;掌握的技术不同、工龄都会有影响。 平均工…

一般小型企业,一个CRM系统要多少钱?都有哪些功能?

客户关系管理crm多少钱一套&#xff1f; 不同CRM要价不同&#xff0c;甚至同一款CRM产品在不同客户方部署下来的价格也是有差别的。 这篇给大家分享几款可实操的CRM管理软件的价位&#xff0c;有需要的可以做以参考&#xff01; 一、简道云CRM管理系统 模版地址&#xff1a;…

中国智造数据分析,预计2025年中国智能制造市场规模将达5.3万亿元

中国智造是制造强国建设主攻方向&#xff0c;也是中国制造公司可以提升核心竞争力的主要研究路径。智能制造成熟度水平能很好的衡量一个地区智能制造的发展水平。 分析全国成熟度二级及以上的企业数量分布&#xff0c;从图分析可以很直观的看出成熟度二级以上的企业数量主要分…

每日一题——三数之和(双指针)

每日一题 三数之和 题目链接 思路 解析函数原型 首先我们来看一下题目给的函数原型&#xff1a; int** threeSum(int* nums, int numsSize, int* returnSize, int**returnColumnSizes)题目要求我们返回一个二维数组&#xff0c;数组的行数代表着存在多少个满足条件的三元组&…

“向上管理”的7个最佳实践:如何管理你的老板?

向上管理是一种管理技巧&#xff0c;它指的是如何有效地管理你的老板。这种技巧可以帮助你更好地与老板沟通&#xff0c;提高工作效率&#xff0c;增加工作成就感。本文将介绍七个最佳实践&#xff0c;帮助你学会如何向上管理。 1. 了解老板的需求和期望 了解老板的需求和期望…