Python爬虫获取接口数据

news2024/11/25 14:32:22

Python爬虫获取接口数据

    • 正常人的操作
    • ​​​​​​​​​​爬虫的思路
      • 标题获取请求信息
    • 标题请求转换为代码
    • 完整代码
    • 请求返回信息
    • 执行程序

获取静态网页数据的教程,适用于我们要爬取的数据在网页源代码中出现,但是还是有很多的数据是源代码中没有的,需要通过接口访问服务器来获得,下面我就来讲讲如何爬取这类数据。

以巨潮资讯网爬取比亚迪企业年报为例。

正常人的操作

  1. 打开巨潮资讯网官网
  2. 找到比亚迪的公告
  3. 在分类里面选择筛选信息,找到自己想要的信息
    在这里插入图片描述

​​​​​​​​​​爬虫的思路

标题获取请求信息

在正常人的操作第三步,当我们选择一个类别时,毫无疑问浏览器肯定会对服务器发送请求信息,服务器返回信息后我们才能看到想要的信息,看一下怎么获取这个请求:
访问巨潮资讯网
按下F12或者是右键检查,进入网络,先清空乱七八糟的网络信息
在这里插入图片描述
在这里插入图片描述
当我们选择一个类别时会看到右边多出一个query请求,这个就是我们向服务器发出的请求
在这里插入图片描述
我们可以查看query这条请求的信息

标题请求转换为代码

上一步我们获取到了请求信息,我们就可以使用python造一个请求头,主要包含请求头和请求负载,我们荡当然可以使用比较奔的方法一个一个的复制粘贴,把东西搬到代码上,这里推荐一个工具能自动帮我们把请求格式化我们想要的

把请求复制下来
在这里插入图片描述

在Curl命令转代码工具 (sbox.cn)这个在线网站添加链接描述可以直接转换为python代码
在这里插入图片描述

完整代码

import requests

cookies = {
   
    'JSESSIONID': 'CAD9F65CD46FDD1F77B67CFC6402D040',
    'SF_cookie_4': '27783614',
    'insert_cookie': '37836164',
    '_sp_ses.2141': '*',
    'routeId': '.uc1',
    '_sp_id.2141': '1daed846-960d-4bc8-8264-49d6e32f05e9.1710837792.1.1710837937.1710837792.751f332b-bf90-48ab-b50a-bf568067731e',
    'SID': '44cda023-0192-4967-a51a-18a09faa35e7',
    'cninfo_user_browse': '002594,gshk0001211,%E6%AF%94%E4%BA%9A%E8%BF%AA',
}

headers = {
   
    'Accept': 'application/json, text/javascript, */*; q=0.01',
    'Accept-Language': 'zh-CN,zh;q=0.9,en;q=0.8',
    'Connection': 'keep-alive',
    'Content-Type': 'application/x-www-form-urlencoded; charset=UTF-8',
    # 'Cookie': 'JSESSIONID=CAD9F65CD46FDD1F77B67CFC6402D040; SF_cookie_4=27783614; insert_cookie=37836164; _sp_ses.2141=*; routeId=.uc1; _sp_id.2141=1daed846-960d-4bc8-8264-49d6e32f05e9.1710837792.1.1710837937.1710

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1531278.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

游戏服务端配置“热更”及“秒启动”终极方案(golang/ygluu/卢益贵)

游戏服务端配置“热更”及“秒启动”终极方案 ygluu 卢益贵 关键词:游戏微服务架构、游戏服务端热更、模块化解耦、golang 目录 一、前言 二、异步线程加载/重载方案 三、配置表碎片化方案 四、指针间接引用 五、重载通知 六、示例代码 七、相关连接 一、…

【CKA模拟题】别再犯难!一文教你用两种方式快速创建Pod!

题干 For this question, please set this context (In exam, diff cluster name) kubectl config use-context kubernetes-adminkubernetesCreate a pod called sleep-pod using the nginx image and also sleep for give any value for seconds. 使用nginx image创建一个名…

探索山海鲸可视化:相较于Excel的独特优势分析

作为一名新用户,我近期开始接触并尝试使用山海鲸可视化工具,这款软件最初吸引我的点在其免费可视化编辑、本地化部署的特点,用了一段时间后,我发现相较于之前使用的Excel来制作可视化看板,两者在多个方面有着显著的区别…

WordPress Plugin NotificationX插件 SQL注入漏洞复现(CVE-2024-1698)

0x01 产品简介 WordPress和WordPress plugin都是WordPress基金会的产品。WordPress是一套使用PHP语言开发的博客平台。该平台支持在PHP和MySQL的服务器上架设个人博客网站。 0x02 漏洞概述 WordPress plugin NotificationX是一个应用插件。2.8.2版本及之前 存在安全漏洞,该…

数据库简介与MySQL编译安装

1数据库基础 什么是数据库 数据库(Database)是一个有组织的数据存储系统,用于有效地存储、检索、管理和维护数据。数据库系统允许用户以结构化的方式存储和操作大量数据,并提供了一种可靠的方法来管理和维护这些数据&#xff0c…

<地球科学专题>机器学习与灾害风险

<地球科学专题>机器学习与灾害风险 南昌大学黄发明副教授同济大学--张东明教授https://www.koushare.com/lives/room/081366 蔻享直播间,稍后会有快速回放。 南昌大学黄发明副教授

Linux--Ubuntu安装

Linux操作系统时程序员必须要学的操作系统。接下来我们就来看一下Linux操作系统是如何安装的 我们在 Vmware 虚拟机中安装 linux 系统&#xff0c;所以需要先安装 vmware 软件&#xff0c;然后再 安装 Linux 系统。 一.所需安装文件&#xff1a; Vmware 下载地址(现在最新版的…

基于Zigbee技术的智能家居系统(附详细使用教程+完整代码+原理图+完整课设报告)

🎊项目专栏:【Zigbee课程设计系列文章】(附详细使用教程+完整代码+原理图+完整课设报告) 前言 👑由于无线传感器网络(也即是Zigbee)作为🌐物联网工程的一门必修专业课,具有很强的实用性,因此很多院校都开设了zigbee的实训课程;👑同时最近很多使用了我的单片机课…

数据库系统概论(超详解!!!) 第四节 关系数据库标准语言SQL(上)

1.SQL概述 SQL&#xff08;Structured Query Language&#xff09;结构化查询语言&#xff0c;是关系数据库的标准语言 SQL是一个通用的、功能极强的关系数据库语言 SQL的动词 基本概念 基本表 &#xff1a;本身独立存在的表&#xff1b; SQL中一个关系就对应一个基本表&am…

【PostGresql】------ pg多表数据多个条件汇总 使用 union 方法示例代码

1. 示例代码如下&#xff1a; SELECT"ID","DT_DATE","CNAME","RMAN_NAME","DEP_NAME","DEP_ID","INVEST_MAN_NAME","TYPE_NAME","INVEST_LEVEL_NAME","POSITION_NAME",…

常用负载均衡详解

一、介绍 在互联网场景下&#xff0c;负载均衡&#xff08;Load Balance&#xff09;是分布式系统架构设计中必须考虑的一个环节&#xff0c;它通常是指将负载流量&#xff08;工作任务、访问请求&#xff09;平衡、分摊到多个操作单元&#xff08;服务器、组件&#xff09;上去…

Sora 发布的意义能和 ChatGPT 相比吗?

个人觉得&#xff0c;Sora 的发布弥补了ChatGPT语言模型在视频内容领域的不足&#xff0c;简单来说&#xff0c;这两个模型均有自己的优势&#xff0c;ChatGPT是一种语言模型&#xff0c;可以理解和解释自然语言&#xff0c;而Sora是文字到视频转化的应用&#xff0c;将文本内容…

Transformer的前世今生 day04(ELMO、Attention注意力机制)

ELMO 前情回顾 NNLM模型&#xff1a;主要任务是在预测下一个词&#xff0c;副产品是词向量Word2Vec模型&#xff1a;主要任务是生成词向量 CBOW&#xff1a;训练目标是根据上下文预测目标词Skip-gram&#xff1a;训练目标是根据目标词预测上下文词 ELMO模型的流程 针对Wor…

ArmSoM Rockchip系列产品 通用教程 之 RTC 使用

1. RTC 简介​ RTC&#xff1a;(Real_Time Clock)&#xff1a;实时时钟 HYM8563是一种低功耗实时时钟&#xff08;RTC&#xff09;芯片&#xff0c;用于提供精确的时间和日期信息。它提供一个可编程的时钟输出&#xff0c;一个中断输出和一个掉电检测器&#xff0c;所有的地址…

HTML实现卷轴动画完整源码附注释

动画效果截图 页面的html结构代码 <!DOCTYPE html> <html> <head lang=

福克斯2010 1.8L 手动档

老车了记录点东西 好看也便宜 福克斯维修保养费用调查_保养维护_车系文章_空港平行进口汽车交易服务中心 https://tjautoland.net/article-40.html 福克斯自从上市后&#xff0c;凭借其时尚动感的外形、良好的操控性和极佳的驾乘舒适度&#xff0c;在国内紧凑型市场上持续热…

最新ChatGPT/GPT4科研应用与AI绘图及论文高效写作教程

原文链接&#xff1a;最新ChatGPT/GPT4科研应用与AI绘图及论文高效写作教程https://mp.weixin.qq.com/s?__bizMzUzNTczMDMxMg&mid2247598050&idx5&sn70fd3f5946d581ad9c1363295b130ef5&chksmfa823e05cdf5b713baf9cf1381bfb2455ad675a0b21e194bef8b76f35d6aa77…

人工智能快速发展:AI机器人是否能全面替代人工客服?

随着人工智能技术的飞速发展&#xff0c;AI机器人在各个领域的应用越来越广泛。其中&#xff0c;人工客服行业也开始出现了AI机器人的身影。然而&#xff0c;能否完全将人工客服替换为AI机器人仍存在许多争议。 本文将从AI快速发展的背景出发&#xff0c;分析AI机器人取代人工…

SAP SD UKM_ITEMS_READ 信贷风险总额

这几天&#xff0c;业务怀疑 信贷金额不对&#xff0c;来查数据&#xff0c;发现信贷风险总额 是从UKM_ITEMS_READ获取的&#xff0c;但是具体数据在哪里&#xff0c;还是不确认。 最终咨询老师后&#xff0c;提供了文档 SAP S4 HANA信贷管理之信贷未清表_ukm_commts_delete-CS…

Vue3+.NET6前后端分离式管理后台实战(五)

1&#xff0c;Vue3.NET6前后端分离式管理后台实战(五)已经在订阅号发布有兴趣的可以关注一下&#xff01; 2&#xff0c;有兴趣请扫码关注谢谢&#xff01;