【爬虫实战】python微博热搜榜Top50

news2026/2/15 22:09:08

一.最终效果

二.项目代码

2.1 新建项目

本文使用scrapy分布式、多线程爬虫框架编写的高性能爬虫，因此新建、运行scrapy项目3步骤：

1.新建项目:
scrapy startproject weibo_hot

2.新建 spider:
scrapy genspider hot_search "weibo.com"

3.运行 spider:
scrapy crawl hot_search

注意：hot_search 是spider中的name

4.编写item：

class WeiboHotItem(scrapy.Item):

    index = scrapy.Field()
    topic_flag = scrapy.Field()
    icon_desc_color = scrapy.Field()
    small_icon_desc = scrapy.Field()
    small_icon_desc_color = scrapy.Field()
    is_hot = scrapy.Field()
    is_gov = scrapy.Field()
    note = scrapy.Field()
    mid = scrapy.Field()
    url = scrapy.Field()
    flag = scrapy.Field()
    name = scrapy.Field()
    word = scrapy.Field()
    pos = scrapy.Field()
    icon_desc = scrapy.Field()

5.编写爬虫解析代码：


import os
from itemadapter import ItemAdapter
from .settings import DATA_URI
from .Utils import Tool

tool = Tool()


class WeiboHotPipeline:

    def open_spider(self, spider):

        self.hot_line = "index,mid,word,label_name,raw_hot,category,onboard_time\n"

        data_dir = os.path.join(DATA_URI)
        file_path = data_dir + '/hot.csv'
        #判断文件夹存放的位置是否存在，不存在则新建文件夹
        if os.path.isfile(file_path):
            self.data_file = open(file_path, 'a', encoding='utf-8')
        else:
            if not os.path.exists(data_dir):
                os.makedirs(data_dir)
            self.data_file = open(file_path, 'a', encoding='utf-8')
            self.data_file.write(self.hot_line)

    def close_spider(self, spider):  # 在关闭一个spider的时候自动运行
        self.data_file.close()

    def process_item(self, item, spider):
        try:

            hot_line = '{},{},{},{},{},{},{}\n'.format(
                item.get('index', ''),
                item.get('mid', ''),
                item.get('word', ''),
                item.get('label_name', ''),
                item.get('raw_hot', ''),
                tool.translate_chars(item.get('category', '')),
                tool.get_format_time(item.get('onboard_time', '')),
            )
            self.data_file.write(hot_line)
        except BaseException as e:
            print("hot错误在这里>>>>>>>>>>>>>", e, "<<<<<<<<<<<<<错误在这里")
        return item

三.注意事项

settings.py配置项修改


# Obey robots.txt rules
ROBOTSTXT_OBEY = False # 关闭，否则根据weibo的爬虫策略爬虫无法获取数据

如果

四.运行过程

五.项目说明文档

六.获取完整源码

爱学习的小伙伴，本次案例的完整源码，已上传微信公众号“一个努力奔跑的snail”，后台回复 热搜榜 即可获取。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1094771.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

【爬虫实战】python微博热搜榜Top50

一.最终效果

二.项目代码

2.1 新建项目

三.注意事项

四.运行过程

五.项目说明文档

六.获取完整源码

相关文章

AI低代码维格云日历视图怎么用？

23面向对象案例1

Marvin攻击25 年之久的RSA解密漏洞重现

343. 整数拆分 96.不同的二叉搜索树

springboot aop详解

CSS变量 var()的用法

基于人工电场优化的BP神经网络（分类应用） - 附代码

ARM +FPGA GPIB IP核实现

22python生命周期的一种案例

月薪过二万的Java面试

创新YOLOv5改进：结合全新可变形大核注意力（D-LKA Attention）实现多尺度目标涨点

Java并发面试题：（一）线程的5种状态及转换

设计模式(1)-设计模式前置基础知识

三大方法快速发现商业规律

新时代高效记账：自动化智能如何进行财务管理

【linux kernel】对linux内核设备的注册机制和查找机制分析

冲刺十五届蓝桥杯P0006平面切分

如何能优化网站开展速度

ArcGIS JS API 演示Demo

PyTorch入门教学——使用PyCharm创建一个PyTorch项目