python爬虫实战(10)--获取本站热榜

news2026/3/7 19:01:35

1. 需要的类库

import requests
import pandas as pd

2. 分析

通过分析，本站的热榜数据可以直接通过接口拿到，故不需要解析标签，请求热榜数据接口

    url = "https://xxxt/xxxx/web/blog/hot-rank?page=0&pageSize=25&type=" #本站地址

直接请求解析会有点问题，数据无法解析，加上请求头

headers = {
    "Accept": "*/*",
    "Accept-Encoding": "gzip, deflate, br",
    "Accept-Language": "zh-CN,zh;q=0.9",
    "Sec-Ch-Ua": "\"Chromium\";v=\"116\", \"Not)A;Brand\";v=\"24\", \"Google Chrome\";v=\"116\"",
    "Sec-Ch-Ua-Mobile": "?1",
    "Sec-Ch-Ua-Platform": "\"Android\"",
    "Sec-Fetch-Dest": "empty",
    "Sec-Fetch-Mode": "cors",
    "Sec-Fetch-Site": "same-site",
    "User-Agent": "Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/116.0.0.0 Mobile Safari/537.36"
}

完整请求代码

    # 发送HTTP请求
    r = requests.get(url, headers=headers)

    # 解析JSON数据
    data = r.json()

    # 提取所需信息
    articles = []
    for item in data["data"]:
        title = item["articleTitle"]
        link = item["articleDetailUrl"]
        rank = item["hotRankScore"]
        likes = item["favorCount"]
        comments = item["commentCount"]
        views = item["viewCount"]
        author = item["nickName"]
        time = item["period"]

        articles.append({
            "标题": title,
            "链接": link,
            "热度分": rank,
            "点赞数": likes,
            "评论数": comments,
            "查看数": views,
            "作者": author,
            "时间": time
        })

3.导出Excel

    # 创建DataFrame
    df = pd.DataFrame(articles)

    # 将DataFrame保存为Excel文件
    df.to_excel("csdn_top.xlsx", index=False)

4. 成果展示

在这里插入图片描述

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1373908.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

python爬虫实战(10)--获取本站热榜

1. 需要的类库

2. 分析

3.导出Excel

4. 成果展示

相关文章

【集合大练习】---------------简易学生管理系统

哪个品牌的运动耳机比较好？哪个运动耳机好？2024年运动耳机推荐

红黑树的了解以及代码实现

微信，支付宝“免密支付”，关闭教程！

全网最详细mysql5.7安装(保姆级别)

【MATLAB】 TVFEMD信号分解算法

微电网能效管理系统在寿宁县五校迁建项目的设计与应用——安科瑞赵嘉敏

目标跟踪算法的目标丢失与遮挡处理 - 注意力机制

Container ansible disguises local ansible 【容器 ansible 伪装本地 ansible】

中间捕获事件：IntermediateCatchingEvent(TimerEvent)

Linux习题3

linux搭建SRS服务器

Object.keys()

UE4 4.21-4.27使用编辑器蓝图EditorBlueprint方法

Golang leetcode142 环形链表暴力map 快慢指针法

FridaHook（一）——Java层常见方法

Windows 环境多个JDK安装与切换

众和策略证券开户首选：交易规则和开通条件解析！

[C#]调用tesseact-ocr的traineddata模型进行ocr文字识别

RHCE9学习指南第19章网络时间服务器