【Python实战】2023关键词是小孩儿?某歌结婚生女一步到位,Hu歌官宣已婚产女后的W博,笑死哈哈哈哈(爬虫+数据可视化)

news2024/11/26 18:21:24

 前言

办公室里很多喜欢Hu歌的小姑娘,听说他结婚了,而且孩子都生了,都非常惊讶。

就是我也是今天才知道的,哈哈哈哈(交通闭塞了些)😂😂。

所有文章完整的素材+源码都在👇👇

粉丝白嫖源码福利,请移步至CSDN社区或文末公众hao即可免费。

不过,现在的年轻姑娘们追星都很理性了,虽然爱豆结婚会有些意难平,但更多关注的还是一

个人的演技和人品,对于他是否结婚,是否生孩子,似乎没那么在意了。

时间过去一个月了,新闻热度已经差不多消退了,让我们看看那些粉丝们的评lun吧。

今天教大家一键采集某星W博粉丝评lun区数据信息,看看大家的祝福吧!

Python爬虫实战-采集W博评lun, 并做数据可视化。 

学会爬虫基本流程+W博动态数据抓包+所有的数据提取方式+词云图可视化 

(完整的源码跟讲解视频可以滴滴我哈 大部分爬虫的内容是有详细的视频讲解内容的 )

正文

一、环境准备

 1)运行环境 

 开发环境:

python 3.8: 解释器
pycharm: 代码编辑器
requests: 发送请求
parsel:  解析数据  jieba pandas stylecloud

部分自带的模块安装Python即可使用。 相对应的安装包/安装教程/激活码/使用教程/学习资

料/工具插件 可以直接找我厚台获取 。

 2)模块安装 

 第三方库的安装方式如下:

一般安装:pip install +模块名

 镜像源安装:pip install -i https://pypi.douban.com/simple/+模块名 

 (还有很多国内镜像源,这里是豆瓣的用习惯了,其他镜像源可以去看下之前文章都有的)

 模块安装问题可以详细的找我给大家讲一下的哈,之前其实也有的文章写了几个点的。 

二、思路讲解

1)爬虫原理: 

 模拟成 客户端(浏览器/手机) 向 服务器 发送网络请求 。

2)爬虫实现流程: 

一. 思路分析 找到数据来源 https://weibo.com/ajax/statuses/buildComments?is_reload=1&id=4863981833423714&is_show_bulletin=2&is_mix=0&count=10&uid=1223178222 network 记录网页数据 请求 。

二. 实现代码 1. 发送请求 2. 获取数据 3. 解析数据 4. 保存数据。

三、步骤流程

1)数据来源

2)用户身份信息(cookie),防盗链(referer),(user-agent)浏览器基本信息都在Headers

下面。

四、代码展示

​1)爬虫主程序

import requests     # 需要额外安装
import csv

# 半成品 (最基本的架构)
# 分布式
f = open('评论.csv', mode='a', encoding='utf-8-sig', newline='')
csv_writer = csv.writer(f)
csv_writer.writerow(['id', 'text_raw', 'source', 'like_counts', 'screen_name', 'followers_count'])
# 请求头
headers = {
    # 用户身份信息
    'cookie': 'SINAGLOBAL=2983116536906.6313.1675064186827; UOR=,,www.baidu.com; SUB=_2A25O3LQhDeRhGeNH6lIY-CjFyT-IHXVqPtxprDV8PUJbkNANLXXDkW1NSsgssEqW-GyChLyvK7V0MBeFYsy23ElC; SUBP=0033WrSXqPxfM725Ws9jqgMF55529P9D9WWNoXNAv0FwwfrPTiDyBL285NHD95Qf1K271Knc1Kz0Ws4Dqcjci--4iK.Ri-zXi--fi-2Xi-24i--Xi-zRiKy2i--4iKnfiKy2i--fi-isi-8Fi--Xi-z4iK.7; XSRF-TOKEN=gSKn52W-3CqnU16SUOqIOY5r; _s_tentry=weibo.com; Apache=3694052218654.842.1675252819884; ULV=1675252819940:5:2:5:3694052218654.842.1675252819884:1675237842632; WBPSESS=Q4mocWB9j3toNvru27wa1agqFWvDlaxybkjDQlV26btT8dAjnZKLHT6p8NAwVhAzIbygYan56xOn7f0H4XAe_IymVa9GmASzrKUCqV6J_Ml2bYGTL_URVrA5YnjNm62kuNboZbV4Cpn1MZTfoLbEWg==',
    # 防盗链
    'referer': 'https://weibo.com/1223178222/MqQsvemFc',
    # 浏览器基本信息
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/109.0.0.0 Safari/537.36'
}
next = 'count=10'
while True:
    url = f'https://weibo.com/ajax/statuses/buildComments?is_reload=1&id=4863981833423714&is_show_bulletin=2&is_mix=0&{next}&uid=1223178222'
    # 1. 发送请求
    response = requests.get(url=url, headers=headers)
    # 2. 获取数据
    # .text: 获取文本数据
    # .json(): json字符串数据
    # .content: 获取二进制数据
    # 2.1 出现乱码
    json_data = response.json()
    # 3. 解析数据
    # 结构化数据 :  json数据{}包裹的格式   转成字典, 使用字典取值 re
    # 非结构化数据: 网页源代码  lxml, bs4, parsel, re     css/xpath/re
    data_list = json_data['data']
    max_id = json_data['max_id']
    for data in data_list:
        text_raw = data['text_raw']
        try:
            source = data['source']
        except:
            source = "未知"
        id = data['id']
        like_counts = data['like_counts']
        screen_name = data['user']['screen_name']
        followers_count = data['user']['follwers_count']
        print(id, text_raw, source, like_counts, screen_name, followers_count)
        # 4. 保存数据
        csv_writer.writerow([id, text_raw, source, like_counts, screen_name, followers_count])
    next = 'max_id='+str(max_id)

2)效果展示

爬取信息效果——

可视化效果——

         

总结

入行演艺圈二十年,经历了不少坎坷,也创造了许多经典角色。如今,女儿终于平安降

 生,实在是人生一大幸事。想我最喜欢的《x剑系列》可是仙侠剧的YYDS啊~

好啦。今天的内容就写到这里结束了,我们下棋不见不散哦~

✨完整的素材源码等:可以滴滴我吖!或者点击文末hao自取免费拿的哈~

 🔨推荐往期文章——

项目0.9  【Python实战】WIFI密码小工具,甩万能钥匙十条街,WIFI任意连哦~(附源码)

项目1.0  【Python实战】再分享一款商品秒杀小工具,我已经把压箱底的宝贝拿出来啦~

项目0.7  【Python爬虫实战】 不生产小说,只做网站的搬运工,太牛逼了~(附源码)

项目0.8  【Python抢票神器】火车票枪票软件到底靠谱吗?实测—终极攻略。

🎁文章汇总——

Python文章合集 | (入门到实战、游戏、Turtle、案例等)

(文章汇总还有更多你案例等你来学习啦~源码找我即可免费!)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/384588.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Java常见知识点汇总

Java常见知识点汇总基础概念与常识1.Java 语言有哪些特点?2.JVM vs JDK vs JRE3.什么是字节码?采用字节码的好处是什么?4.为什么不全部使用 AOT 呢?5.为什么说 Java 语言“编译与解释并存”?6.Oracle JDK vs OpenJDK7.Java 和 C 的区别?基本语法1.注…

codeforces周赛div3#855记录

目录 总结 一,A. Is It a Cat? 二,B. Count the Number of Pairs 三,C1. Powering the Hero (easy version) 四,C2. Powering the Hero (hard version) 总结 真羡慕ACM校队的同学,能AC七八题,甚至ak …

飞天云动,站在下一个商业时代的门口

ChatGPT的爆火让AIGC再度成为热词,随之而来的是对其商业化的畅想——不是ChatGPT自身如何盈利,而是它乃至整个AIGC能给现在的商业环境带来多大改变。 这不由得令人想起另一个同样旨在改变世界的概念,元宇宙。不同的是,元宇宙更侧…

Apache Flink 1.16 功能解读

摘要:本文整理自阿里云高级开发工程师 Apache Flink Committer、Flink 1.16 Release Manager 黄兴勃(断尘),在 FFA 2022 核心技术专场的分享。本篇内容主要分为四个部分:综述持续领先的流处理更稳定易用高性能的批处理…

传输线的物理基础(一):地、信号和均匀传输线

我们每天都听到用到传输线,那么什么是传输线呢?一条同轴线缆是传输线,多层PCB板中带参考平面的PCB走线是传输线,我们可以理解为,传输线由任意两个具有长度的导体组成。接下来我们会看到,一条传输线用来将信…

想象力训练

一、课程目的1、了解想象力2、想象力训练二、静态想象法常用在单一图片上,比如一辆自行车要点1、形象鲜明 (大脑中生动的展现它的样子)2、放大:一点点放大它(后续的课程讲解经常用到放大这个方法)3、缩小:一点一点缩小它4、变多:一个变两个,两个变三个&a…

C++---数字三角形模型---传纸条(每日一道算法2023.2.26)

注意事项: 本题dp思路与 “线性dp–方格取数” 一致,下方思路仅证明为什么使用方格取数的思路是正确的。 题目: 小渊和小轩是好朋友也是同班同学,他们在一起总有谈不完的话题。 一次素质拓展活动中,班上同学安排坐成…

安卓开发调试使用 Charles抓包Https请求

1、Windows电脑安装证书Help->SSL Proxying -> Install Charles Root Certificate2、手机安装证书证书保存到电脑上.crt结尾的文件Help->SSL Proxying -> Save Charles Root Certificate2.复制到手机上 3.安装证书以红米手机为例打开手机设置-->密码与安全-->…

php宝塔搭建部署实战多模板cms管理系统源码

大家好啊,我是测评君,欢迎来到web测评。 本期给大家带来一套php开发的多模板cms管理系统源码。感兴趣的朋友可以自行下载学习。 技术架构 PHP7.0 nginx mysql5.7 JS CSS HTMLcnetos7以上 宝塔面板 文字搭建教程 下载源码,宝塔添加一…

在软件开发中如何将看板方法与 Scrum 集合使用?

什么是看板和 Scrum 的混合模式?适合在哪些场景使用?有哪些成功的案例可参考?本文将围绕以上问题展开。敏捷实践是一个团队过程,选择适合团队的敏捷框架时并没有什么技巧,无论您是使用看板方法、Scrum 还是两者的组合&…

【C++】vector的模拟实现(SGI版本)

吃不了自律的苦,又接受不了平庸的罪。想让自己变好,但又想舒服些。 你啊你……要么就不要去想,想了又不去做,犹犹豫豫,徘徊不前,患得患失… 文章目录一、四种构造函数1.vector的框架和无参构造2.构造函数调…

为什么FPGA在深度学习领域有着得天独厚的优势?

01 FPGA在深度学习领域有哪些优势 FPGA(Field-Programmable Gate Array)是一种灵活的可编程硬件设备,它在深度学习应用领域中具有许多优势。 首先,FPGA具有非常高的并行性。在深度学习中,许多计算都可以并行化&…

Verilog实现组合逻辑电路

在verilog 中可以实现的数字电路主要分为两类----组合逻辑电路和时序逻辑电路。组合逻辑电路比较简单,仅由基本逻辑门组成---如与门、或门和非门等。当电路的输入发生变化时,输出几乎(信号在电路中传递时会有一小段延迟)立即就发生…

sqlserver数据库备份策略及实战测试

文章目录启动SQL SERVER 代理服务配置完整备份差异备份和事务日志备份备份还原测试测试云端备份最近研究sqlserver数据库备份,这里吧测试过程总结分享!sqlserver日志备份主要分为三种 :全量备份、差异备份、事务日志备份。全量备份&#xff1…

大话数据结构-线性表

1 定义 线性表是零个或多个数据元素的有限序列。 2 抽象数据类型 ADT 线性表(List)Data:线性表的数据对象集合为{al,a2,a3,....an},每个元素的类型均为DataType。其中,除第一个元素a1外,每一个元素有且只有一个直接前驱元素&…

锁屏面试题百日百刷-Hive篇(八)

锁屏面试题百日百刷,每个工作日坚持更新面试题。锁屏面试题app、小程序现已上线,官网地址:https://www.demosoftware.cn。已收录了每日更新的面试题的所有内容,还包含特色的解锁屏幕复习面试题、每日编程题目邮件推送等功能。让你…

gitblit 安装使用

1 安装服务端 简而言之:需要安装 java,gitblit, git 三个软件 Windows 10环境使用Gitblit搭建局域网Git服务器 前言 安装Java并配置环境安装gitblit并配置启动gitblit为windows服务使用gitblit创建repository并管理用户 1.1 安装Java并配…

[Java·算法·中等]LeetCode215. 数组中的第K个最大元素

每天一题,防止痴呆题目示例分析思路1题解1分析思路2题解2分析思路3题解3👉️ 力扣原文 题目 给定整数数组 nums 和整数 k,请返回数组中第 k 个最大的元素。 请注意,你需要找的是数组排序后的第 k 个最大的元素,而不…

REFL: 联邦学习中智能的设备选择方法

原创 齐天宇 隐私计算研习社 收录于合集#联邦学习54个现有的FL方案使用随机的参与者选择来提高选择过程的公平性,但是这会导致资源的低效利用和较低的训练质量。本文系统地解决了FL中资源效率低效的问题,展示了智能参与者选择和合并来自落后参与者的更新…

React-高阶组件

认识高级组件 高阶函数的维基百科定义:至少满足以下条件之一 1、接受一个或多个函数作为输入; 2、输出一个函数; JavaScript中比较常见的 filter、map、reduce 都是高阶函数 那么说明是高阶组件呢? 高阶组件的英文是 Higher-Order Components,简称为 HOC;官方的…