python爬虫实战(10)--获取本站热榜

news2024/11/24 17:31:57

1. 需要的类库

import requests
import pandas as pd

2. 分析

通过分析,本站的热榜数据可以直接通过接口拿到,故不需要解析标签,请求热榜数据接口

    url = "https://xxxt/xxxx/web/blog/hot-rank?page=0&pageSize=25&type=" #本站地址

直接请求解析会有点问题,数据无法解析,加上请求头

headers = {
    "Accept": "*/*",
    "Accept-Encoding": "gzip, deflate, br",
    "Accept-Language": "zh-CN,zh;q=0.9",
    "Sec-Ch-Ua": "\"Chromium\";v=\"116\", \"Not)A;Brand\";v=\"24\", \"Google Chrome\";v=\"116\"",
    "Sec-Ch-Ua-Mobile": "?1",
    "Sec-Ch-Ua-Platform": "\"Android\"",
    "Sec-Fetch-Dest": "empty",
    "Sec-Fetch-Mode": "cors",
    "Sec-Fetch-Site": "same-site",
    "User-Agent": "Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/116.0.0.0 Mobile Safari/537.36"
}

完整请求代码

    # 发送HTTP请求
    r = requests.get(url, headers=headers)

    # 解析JSON数据
    data = r.json()

    # 提取所需信息
    articles = []
    for item in data["data"]:
        title = item["articleTitle"]
        link = item["articleDetailUrl"]
        rank = item["hotRankScore"]
        likes = item["favorCount"]
        comments = item["commentCount"]
        views = item["viewCount"]
        author = item["nickName"]
        time = item["period"]

        articles.append({
            "标题": title,
            "链接": link,
            "热度分": rank,
            "点赞数": likes,
            "评论数": comments,
            "查看数": views,
            "作者": author,
            "时间": time
        })

3.导出Excel

    # 创建DataFrame
    df = pd.DataFrame(articles)

    # 将DataFrame保存为Excel文件
    df.to_excel("csdn_top.xlsx", index=False)

4. 成果展示

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1373908.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【集合大练习】---------------简易学生管理系统

目标: 实现学生对象新增,删除,查看,对象信息修改 整体实现思路: 1.定义学生类-------------创建学生对象 2.管理界面代码编写-------------命令提示面板 3.添加学生的代码编写---------add功能实现 4.查看学生信…

哪个品牌的运动耳机比较好?哪个运动耳机好?2024年运动耳机推荐

​对于追求健康生活方式的人,高质量的运动耳机是维持锻炼动力和专注的不可或缺的装备。在跑步、骑行或进行其他形式的锻炼时,运动耳机能为我们提供动感的音乐,为运动体验增添活力。以下是市场上一些表现出色的运动耳机,都来看看有…

红黑树的了解以及代码实现

什么是红黑树 红黑树是在二叉搜索树的基础上添加颜色,通过对任何一条路径的颜色的限制,确保红黑树的任何一条路径不会超过其他路径的两倍,是一棵近似平衡的树。 红黑树的节点不是红色就是黑色,其节点的排列除了需要按二插搜索树的…

微信,支付宝“免密支付”,关闭教程!

不久前,一位中年妇女捡到了一部手机,并使用免密支付的方式消费掉了手机里的所有余额。这一事件在微博上成为了热搜话题,引起了网友们的热议。 据报道,一名泸州市的居民在捡到一部他人的手机后,发现该手机没有设置锁屏密…

全网最详细mysql5.7安装(保姆级别)

文章目录 数据库MySQL5.7安装包安装环境变量配置检测是否安装配置成功MySQL 启动和关闭 数据库 概念:数据库(DataBase)简称:DB 用于存储和管理数据的仓库 数据库的特点 1、持久化存储数据,其实数据库就是一个文件系统…

【MATLAB】 TVFEMD信号分解算法

有意向获取代码,请转文末观看代码获取方式~ 1 基本定义 TVFEMD (Time-Variant Filtered Empirical Mode Decomposition) 是一种信号分解算法,它是基于 EMD (Empirical Mode Decomposition) 方法发展而来的。 EMD是一种自适应的数据分析方法&#xff0…

微电网能效管理系统在寿宁县五校迁建项目的设计与应用——安科瑞赵嘉敏

基本信息: 项目名称:寿宁县五校迁建项目(现为寿宁县一中)企业微电网能效管理系统 项目地点:福建省寿宁县 实施时间:2023年4月 项目总览图: 项目简介: 寿宁县第一中学创办于1938年7月,是一所…

目标跟踪算法的目标丢失与遮挡处理 - 注意力机制

目标跟踪算法在处理目标遮挡和丢失情况时,采用了多种技术和策略。这些技术主要集中在提高算法的鲁棒性和适应性上,使其能够在复杂环境中有效跟踪目标。以下是一些常见的处理方法: 多模型融合:通过结合多个跟踪模型或特征表示&…

Container ansible disguises local ansible 【容器 ansible 伪装本地 ansible】

预备条件: ctr & crictl $ nerdctl & containerd install了解 kubespray 是什么 kubespray 包含 ansible、ansible-playbook命令以及通过kubespray项目安装kubernetes集群的介质。 nerdctl pull quay.io/kubespray/kubespray:v2.23.1 nerdctl save -o qu…

中间捕获事件:IntermediateCatchingEvent(TimerEvent)

一:TimerEvent https://monday.blog.csdn.net/article/details/134435415 应用场景: 定时启动流程:该类型节点作为流程的开始节点,不需要显式启动流程,只需要部署。节点延时审批。节点超时处理:对在指定…

Linux习题3

解析: grep:查找文件内的内容 gzip:压缩文件,文件经压缩后会增加 gz:扩展名 find:在指定目录下查找文件 解析: A hosts文件是Linux系统上一个负责ip地址与域名快速解析的文件,以…

linux搭建SRS服务器

linux搭建SRS服务器 文章目录 linux搭建SRS服务器SRS说明实验说明搭建步骤推流步骤查看web端服务器拉流步骤final SRS说明 SRS(simple Rtmp Server),是一个简单高效的实时视频服务器,支持RTMP/WebRTC/HLS/HTTP-FLV/SRT, 是国人自己开发的一款…

Object.keys()

目录 1、Object.keys() 是什么? 2、Object.keys(obj) 用法: 2.1 如果对象是一个对象,会返回对象的属性名组成的数组; 2.2 如果对象是一个数组,则返回索引组成的数组: 2.3 如果是字符串,返回…

UE4 4.21-4.27使用编辑器蓝图EditorBlueprint方法

在UE4 4.21中,编辑器蓝图(Editor Blueprint)是一个强大的工具,允许开发者扩展和自定义Unreal编辑器的功能。通过编辑器蓝图,我们可以创建自定义的工具和功能,以优化开发流程。 本教程将指导您如何在UE4 4.…

Golang leetcode142 环形链表 暴力map 快慢指针法

文章目录 环形链表 leetcode142暴力遍历 map哈希记录快慢指针法 环形链表 leetcode142 该题目要求找到入环的第一个节点 我们可以通过map进行记录,没到新的节点查询是否经过原有节点 入环节点,上两个节点的next相同 若有入环节点,则一定能检…

FridaHook(一)——Java层常见方法

1、frida安装运行 pc:pip install frida模拟器: adb connect 127.0.0.1:7555 adb shell cat /proc/cpuinfo下载对应版本frida-server,安装运行 adb push frida-server /data/local/tmp adb shell cd /data/local/tmp chmod 777 frida-serve…

Windows 环境多个JDK安装与切换

一、下载jdk 去Oracle官网上下载想要安装的jdk版本,https://www.oracle.com/java/technologies/downloads/。 二、安装jdk 双击.exe文件,选择好安装目录进行安装。多个版本的jdk重复这两步操作就好。 三、多版本的jdk都下载安装完成之后&#xff0…

众和策略证券开户首选:交易规则和开通条件解析!

一、新三板注册条件 新三板分为2个层级: 立异层:注册前10个生意日日均资产100万及以上,两年的股票生意阅历,危险承受能力C4及以上。 基础层:注册前10个生意日日均资产200万及以上,两年的股票生意阅历&am…

[C#]调用tesseact-ocr的traineddata模型进行ocr文字识别

【框架地址】 https://github.com/charlesw/tesseract 【算法介绍】 Tesseract OCR是一个开源的光学字符识别引擎,它可以将图像中的文字转换成可编辑和可搜索的文本格式。Tesseract由惠普实验室于1985年开始开发,并在2005年被Google收购后成为了开源项…

RHCE9学习指南 第19章 网络时间服务器

19.1 时间同步的必要性 对于一些服务来说对时间要求非常严格,例如,图19-1所示由三台服务器搭建的ceph集群。 图19-1 三台机器搭建的集群对时间要求比较高 这三台服务器的时间必须要保持一样,如果不一样,就会显示报警信息。那么…