前言

办公室里很多喜欢Hu歌的小姑娘，听说他结婚了，而且孩子都生了，都非常惊讶。

就是我也是今天才知道的，哈哈哈哈（交通闭塞了些）😂😂。

所有文章完整的素材+源码都在👇👇

粉丝白嫖源码福利，请移步至CSDN社区或文末公众hao即可免费。

不过，现在的年轻姑娘们追星都很理性了，虽然爱豆结婚会有些意难平，但更多关注的还是一

个人的演技和人品，对于他是否结婚，是否生孩子，似乎没那么在意了。

时间过去一个月了，新闻热度已经差不多消退了，让我们看看那些粉丝们的评lun吧。

今天教大家一键采集某星W博粉丝评lun区数据信息，看看大家的祝福吧！

Python爬虫实战-采集W博评lun, 并做数据可视化。 

学会爬虫基本流程+W博动态数据抓包+所有的数据提取方式+词云图可视化 

（完整的源码跟讲解视频可以滴滴我哈 大部分爬虫的内容是有详细的视频讲解内容的 ）

正文

一、环境准备

1）运行环境

开发环境：

python 3.8: 解释器
pycharm: 代码编辑器
requests: 发送请求
parsel:  解析数据  jieba pandas stylecloud

部分自带的模块安装Python即可使用。相对应的安装包/安装教程/激活码/使用教程/学习资

料/工具插件可以直接找我厚台获取。

2）模块安装

第三方库的安装方式如下：

一般安装：pip install +模块名

 镜像源安装：pip install -i https://pypi.douban.com/simple/+模块名 

 （还有很多国内镜像源，这里是豆瓣的用习惯了，其他镜像源可以去看下之前文章都有的）

模块安装问题可以详细的找我给大家讲一下的哈，之前其实也有的文章写了几个点的。

二、思路讲解

1）爬虫原理:

模拟成客户端(浏览器/手机) 向服务器发送网络请求。

2）爬虫实现流程:

一. 思路分析 找到数据来源 https://weibo.com/ajax/statuses/buildComments?is_reload=1&id=4863981833423714&is_show_bulletin=2&is_mix=0&count=10&uid=1223178222 network 记录网页数据 请求 。

二. 实现代码 1. 发送请求 2. 获取数据 3. 解析数据 4. 保存数据。

三、步骤流程

1）数据来源

2）用户身份信息（cookie），防盗链（referer），（user-agent）浏览器基本信息都在Headers

下面。

四、代码展示

1）爬虫主程序

import requests     # 需要额外安装
import csv

# 半成品 (最基本的架构)
# 分布式
f = open('评论.csv', mode='a', encoding='utf-8-sig', newline='')
csv_writer = csv.writer(f)
csv_writer.writerow(['id', 'text_raw', 'source', 'like_counts', 'screen_name', 'followers_count'])
# 请求头
headers = {
    # 用户身份信息
    'cookie': 'SINAGLOBAL=2983116536906.6313.1675064186827; UOR=,,www.baidu.com; SUB=_2A25O3LQhDeRhGeNH6lIY-CjFyT-IHXVqPtxprDV8PUJbkNANLXXDkW1NSsgssEqW-GyChLyvK7V0MBeFYsy23ElC; SUBP=0033WrSXqPxfM725Ws9jqgMF55529P9D9WWNoXNAv0FwwfrPTiDyBL285NHD95Qf1K271Knc1Kz0Ws4Dqcjci--4iK.Ri-zXi--fi-2Xi-24i--Xi-zRiKy2i--4iKnfiKy2i--fi-isi-8Fi--Xi-z4iK.7; XSRF-TOKEN=gSKn52W-3CqnU16SUOqIOY5r; _s_tentry=weibo.com; Apache=3694052218654.842.1675252819884; ULV=1675252819940:5:2:5:3694052218654.842.1675252819884:1675237842632; WBPSESS=Q4mocWB9j3toNvru27wa1agqFWvDlaxybkjDQlV26btT8dAjnZKLHT6p8NAwVhAzIbygYan56xOn7f0H4XAe_IymVa9GmASzrKUCqV6J_Ml2bYGTL_URVrA5YnjNm62kuNboZbV4Cpn1MZTfoLbEWg==',
    # 防盗链
    'referer': 'https://weibo.com/1223178222/MqQsvemFc',
    # 浏览器基本信息
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/109.0.0.0 Safari/537.36'
}
next = 'count=10'
while True:
    url = f'https://weibo.com/ajax/statuses/buildComments?is_reload=1&id=4863981833423714&is_show_bulletin=2&is_mix=0&{next}&uid=1223178222'
    # 1. 发送请求
    response = requests.get(url=url, headers=headers)
    # 2. 获取数据
    # .text: 获取文本数据
    # .json(): json字符串数据
    # .content: 获取二进制数据
    # 2.1 出现乱码
    json_data = response.json()
    # 3. 解析数据
    # 结构化数据 :  json数据{}包裹的格式   转成字典, 使用字典取值 re
    # 非结构化数据: 网页源代码  lxml, bs4, parsel, re     css/xpath/re
    data_list = json_data['data']
    max_id = json_data['max_id']
    for data in data_list:
        text_raw = data['text_raw']
        try:
            source = data['source']
        except:
            source = "未知"
        id = data['id']
        like_counts = data['like_counts']
        screen_name = data['user']['screen_name']
        followers_count = data['user']['follwers_count']
        print(id, text_raw, source, like_counts, screen_name, followers_count)
        # 4. 保存数据
        csv_writer.writerow([id, text_raw, source, like_counts, screen_name, followers_count])
    next = 'max_id='+str(max_id)