python爬虫实战(2)--爬取某博热搜数据

news2026/2/11 17:42:55

1. 准备工作

使用python语言可以快速实现，调用BeautifulSoup包里面的方法
安装BeautifulSoup

pip install BeautifulSoup

完成以后引入项目

2. 开发

定义url

    url = 'https://s.微博.com/top/summary?cate=realtimehot'

定义请求头，微博请求数据需要cookie，设置自己的cookie

header = {
    'User-Agent': 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.51 Mobile Safari/537.36',
    'Host': 's.weibo.com',
    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
    'Accept-Language': 'zh-CN,zh-Hans;q=0.9',
    'Accept-Encoding': 'gzip, deflate, br',
    # 定期更换Cookie
    'Cookie': '你的cookie'
}

cookie查看
在这里插入图片描述
分析数据结构，找到标签值

    items = soup.find('section', {'class': 'list'})

爬取的数据都是列表，定义好需要的列表list，循环标签值

 href_list = []
    text_list = []
    order_list = []
    type_list = []
    view_count_list = []
    for li in items.find_all('li'):
        # 链接地址
        order = li.find('strong')
        if order == None:
            continue
        href = li.find('a').get('href')
        href_list.append('https://s.weibo.com' + href)
        la = li.find('i')
        order_list.append(order.get_text())
        text = li.find('span').get_text()
        view_count = li.find('span').find('em').get_text()
        view_count_list.append(view_count)
        text1 = text.replace(view_count, '')
        text_list.append(text1)
        if la:
            type = trans_icon((la.get('class')[1]))
        else:
            type = trans_icon('')
        type_list.append(type)

中间有个热搜类别转换方法

def trans_icon(v_str):
    """转换热搜类别"""
    if v_str == 'icon_new':
        return '新'
    elif v_str == 'icon_hot':
        return '热'
    elif v_str == 'icon_boil':
        return '沸'
    elif v_str == 'icon_recommend':
        return '商'
    else:
        return '未知'

最后把抓取的数据存到xlsx


    df = pd.DataFrame(data)
    df.to_excel('C:\\Users\\Administrator\\Desktop\\微博热搜榜.xlsx', index=False)  # 保存结果数据

3. 效果

在这里插入图片描述

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/856970.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

python爬虫实战(2)--爬取某博热搜数据

1. 准备工作

2. 开发

3. 效果

相关文章

Windows 环境下 Python3 离线安装 cryptography 失败

java.lang.OutOfMemoryError- unable to create new native thread 问题排查

交叉编译驱动和应用出现警告提示错误“cc1:all warnings being treated as errors”解决方法

算法练习--链表相关

怎么改ip地址如何更改电脑ip地址

从零开始学习 Java：简单易懂的入门指南之面向对象（九）

后端开发8.品牌模块

基于jeecg-boot的nbcio-boot因升级mybatis-plus到3.5.3.1和JSQLParser 到4.6而引起的在线报表配置报错处理

vue2传值方式总结（十一种方法）

golang 自定义exporter - 服务连接数 portConnCount_exporter 导出器

【山河送书第六期】:《码上行动:零基础学会Python编程( ChatGPT版)》参与活动，送书两本！！

Openlayers实战：多数据分散聚合

【基础IO】动静态库 {动静态库的创建和使用；动态库的加载；默认优先使用动态链接；为什么要有库；动态链接的优缺点；静态链接的优缺点；一些有趣的库}

8个值得收藏的在线3D建模工具

Scala（第六章面向对象）

实例034 直接在窗体上绘图

Pycharm 双击启动失败？

什么是埋阻埋容工艺？

uniapp支付宝微信支付功能实现

【对于一维信号的匹配】对一个一维（时间）信号y使用自定义基B执行匹配追踪（MP）研究（Matlab代码实现）