爬虫请求响应以及提取数据

news2024/10/9 14:55:38

爬虫请求响应以及提取数据

回顾:
网页给客户端响应数据, 有哪些写法(在爬虫入门之爬虫原理以及请求响应这篇博客咯嘛有提到)?
1.响应对象.text(获取网页数据的时候会用到)
2.响应对象.content(将图片, 音频或视频等数据存放到文件的时候会用到)

那这一篇文章, 介绍一个新的写法:
响应对象.json(), 这个方法在获取网页数据所对应的请求数据时会用到
什么情况下会使用
当再浏览器对应的响应中看到的数据结构有点像python中的字典或者列表(因为浏览器中不叫字典或者列
表,只是说数据格式类似)

我们通过代码的案例, 来讲解响应对象.json()的写法。

代码:

import requests
url = 'https://careers.tencent.com/tencentcareer/api/post/Query?
timestamp=1726832959000&countryId=&cityId=&bgIds=&productId=&categoryId=&parentCategoryId=&
attrId=1&keyword=&pageIndex=1&pageSize=10&language=zh-cn&area=cn'
res = requests.get(url)
# print(type(res.text)) # 如果使用响应对象.text 那么得到的数据永远都是字符串类型
# print(type(res.json()))# 如果使用响应对象.text 那么得到的数据都是字典类型
data = res.json() # 使用data变量存储字典数据 字典更方便取值
# 结合循环编写解析的代码
count = 1 # 输出的序号
for i in data['Data']['Posts']:
    # 岗位名称
    RecruitPostName = i['RecruitPostName']
    # 所在城市
    LocationName = i['LocationName']
    # 岗位内容
    Responsibility = i['Responsibility']
    print(count,RecruitPostName,LocationName,Responsibility)
    count += 1

这个url怎么来的, 首先打开腾讯招聘

接着点击技术类那个框, 跳转到如下页面:

然后再请求中找到Query……, 这个就是我们需要爬取的数据请求。
每个网站, 需要爬取的数据请求都不一样, 这个需要自己找。
我们双击那个请求, 可以发现, 后台返回了数据。

所以url就是https://careers.tencent.com/tencentcareer/api/post/Query?
timestamp=1726832959000&countryId=&cityId=&bgIds=&productId=&categoryId=&parentCategoryId=&
attrId=1&keyword=&pageIndex=1&pageSize=10&language=zh-cn&area=cn, 也就是请求。

说明:
data = res.json()这句话, 使用data变量存储字典数据, 因为字典更方便取值
我们可以发现请求里面, 有个Posts的列表(数组), 所以我们先要获取到那个列表再循环, 使用for i in data[‘Data’][‘Posts’]这句话进行循环, 因为Posts列表再Data里面, 所以要data[‘Data’][‘Posts’]这样写。然后在循环里面, 有三行代码, 获取岗位名称, RecruitPostName = i[‘RecruitPostName’], 获取所在城市, LocationName = i[‘LocationName’], 获取岗位内容, Responsibility = i[‘Responsibility’]。因为岗位名称、所在城市、岗位内容这三个东西都在Posts列表里面, 而i就是每一次遍历出来的列表里面的一条数据, 所以可以用i[‘字段名’]这么写。

伪装

url = 'https://movie.douban.com/j/chart/top_list?
type=10&interval_id=100%3A90&action=&start=0&limit=20'
# 响应的数据格式:[{},{}] 列表嵌套字典
res = requests.get(url)
data = res.json()
print(data) # 报错
# 得到的响应数据不是一个纯列表或者纯字典的时候 就会报如下错误
# requests.exceptions.JSONDecodeError: Expecting value: line 1 column 1 (char 0)
# 改响应对象.text输出
print(res.text) # 当前获取到的数据是空字符串 为什么浏览器可以正常得到数据,而爬虫得不到

结果:

为什么会报错?
原因: 对方识别了当前的客户端是爬虫, 所以不给数据
如何解决: 我们需要用到伪装
如何实现伪装: 在请求头当中带上请求头(从浏览器复制过来)

修改过后的代码:

# 使用字典保存请求头信息
url = 'https://movie.douban.com/j/chart/top_list?
type=10&interval_id=100%3A90&action=&start=0&limit=20'
# 响应的数据格式:[{},{}] 列表嵌套字典
headers = {
   
    'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like
    Gecko) Chrome/128.0.0.0 Safari/537.36'
}
# 携带请求头的方式:headers参数传参
res = requests.get(url,headers=headers)
data = res.json()
print(data)
print(text)

此时此刻, 我们就能够获取到数据啦!

我们看一个完整的一个案例, 爬取豆瓣电影的数据:

import requests

url = 'https://movie.douban.com/j/chart/top_list?type=10&interval_id=100%3A90&action=&start=0&limit=20'
# user-agent对应的是客户端的版本信息Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/128.0.0.0 Safari/537.36
headers = {
   
    "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/128.0.0.0 Safari/537.36"
}
response = requests.get(url, headers=headers)
# print(response.text)
# print(type(response.json()))
data = response.json()
count = 1
for i in data:
    # i = 第一次循环取出的是 列表种的第一个字典 对应的是一个电影信息
    # 电影名
    title = i['title']
    # 演员表
    actors = i['actors']
    

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2199296.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

小白打造爆款必备:速卖通平台测评与买家号培养全解析

随着亚马逊平台风控的持续升级,众多卖家面临着封店、侵权等诸多挑战,迫使许多商家开始探索其他市场,如速卖通、Temu等平台,这些平台对新入驻的卖家提供了显著的流量扶持。在速卖通平台的运营中,如何迅速且有效地提升店…

动态规划11:面试题 17.16. 按摩师

动态规划解题步骤: 1.确定状态表示:dp[i]是什么 2.确定状态转移方程:dp[i]等于什么 3.初始化:确保状态转移方程不越界 4.确定填表顺序:根据状态转移方程即可确定填表顺序 5.确定返回值 题目链接:面试…

论文翻译 | Language Models are Few-Shot Learners 语言模型是少样本学习者(上)

摘要 最近的工作表明,通过在大规模文本语料库上进行预训练,然后在特定任务上进行微调,许多自然语言处理(NLP)任务和基准测试都取得了显著的提升。尽管这种方法在架构上通常是任务无关的,但它仍然需要成千上…

【vue2.7.16系列】手把手教你搭建后台系统__配置路由(3)

新建页面 我们把 components 改名为 views,并在 views 目录下添加三个页面,Login.vue,Home.vue,404.vue。 三个页面内容简单相似,只有简单的页面标识,如首页页面是 “Home Page”。 Home.vue,…

windows客户端SSH连接ubuntu/linux服务器,三种网络连接:局域网,内网穿透(sakuraftp),虚拟局域网(zerotier)

windows客户端SSH连接ubuntu/linux服务器,三种网络连接:局域网,内网穿透(sakuraftp),虚拟局域网(zerotier) 目录 SSH简述、三种网络连接特点SSH简述局域网内连接内网穿透&#xff08…

SpringBoot助力校园资料分享:快速上手指南

2相关技术 2.1 MYSQL数据库 MySQL是一个真正的多学生、多线程SQL数据库服务器。 是基于SQL的客户/服务器模式的关系数据库管理系统,它的有点有有功能强大、使用简单、管理方便、安全可靠性高、运行速度快、多线程、跨平台性、完全网络化、稳定性等,非常适…

LabVIEW提高开发效率技巧----队列使用

在LabVIEW开发中,队列是实现并行处理、数据传递和任务调度的关键机制之一,合理使用队列可以有效提高程序性能并避免内存问题。结合队列长度限制和其他队列相关技巧,以下是队列使用的详细说明: 1. 队列长度限制 限制队列的长度可以…

maven打包常用命令

跳过tset打包 mvn package -Dmaven.test.skiptrue

构建高效水果购物平台:SpringBoot飘香网站案例

1系统概述 1.1 研究背景 如今互联网高速发展,网络遍布全球,通过互联网发布的消息能快而方便的传播到世界每个角落,并且互联网上能传播的信息也很广,比如文字、图片、声音、视频等。从而,这种种好处使得互联网成了信息传…

入门级攻略:如何容器化部署微服务?

如何容器化部署微服务?第一步理解容器化基础,第二步创建Dockerfile,第三步构建推送镜像,第四步部署微服务,第五步管理微服务、第六步优化更新。容器化部署微服务是现代软件开发中的一种高效方法,可提供良好…

55页可编辑PPT | 制造企业数字化转型顶层规划案例

基于集团的战略和运营特点,数字化转型应如何考虑? 在集团的战略和运营特点基础上进行数字化转型,需要实现业务多元化,整合资源和流程,推动国际化拓展,实施差异化战略,并通过数据驱动决策&#…

3D图形学新手简明教程

如今,3D 计算机图形 (CG) 无处不在。从视频游戏到医疗应用。 电影行业由计算机主导,而不仅仅是科幻和动画。在拍摄《爱尔兰人》时,马丁斯科塞斯使用计算机特效让演员罗伯特德尼罗、乔佩西和阿尔帕西诺变年轻。 当你意识到第一部采用计算机生…

国产长芯微LUM6100高可靠性双通道双向I2C数字隔离器P2P替代ADUM1250 ADUM1251替代ISO1540 ISO1541

描述 LUM6100系列是高可靠性的双向l2C数字隔离器。提供符合UL1577的多种电气隔离耐压(3.75kVrms, 5kVrms),且具有高电磁抗扰度和低辐射的特性。支持I2C时钟高达2MHZ,共模瞬态抗干扰度(CMTI)高达150kV/μs。宽供电范围可直接对接大多数MCU等数字接口,并且…

Python笔记之识别到当前python脚本所在的目录,而不是执行python命令的目录

Python笔记之识别到当前python脚本所在的目录,而不是执行python命令的目录 code review! 文章目录 Python笔记之识别到当前python脚本所在的目录,而不是执行python命令的目录1.题解2.在脚本所在的目录后面拼接下一层目录 1.题解 要在Python脚本中识别到…

Vue3中Watch的同步和异步

在 Vue 3 中&#xff0c;watch 是一个强大的工具&#xff0c;适合监视响应式数据的变化并处理副作用逻辑。最近在做CodeReview的时候&#xff0c;发现了一些对watch使用上不太合理的地方&#xff0c;整理了一个类似的例子。 案例分析 先来看看例子&#xff1a; <template>…

2024年10月13日(星期天)骑行知青堂

2024年10月13日 (星期天&#xff09;骑行知青堂&#xff0c;早8:30到9:00&#xff0c; 金殿水库大坝集合&#xff0c;9:00准时出发【因迟到者&#xff0c;骑行速度快者&#xff0c;可自行追赶偶遇。】 偶遇地点:金殿水库大坝集合 &#xff0c;家住东&#xff0c;南&#xff0…

华为Datacom考什么?要考几门?

华为认证细致地分为 HCIA、HCIP 和 HCIE 这三个具有显著差异的级别。 就在今天&#xff0c;让咱们一同分别针对改版后三个级别的 Datacom 考试展开全面且深入的介绍。 细致探讨看看它们各自具体考查哪些内容&#xff0c;究竟要通过考几门课程才能成功获取证书。 01、HCIA-Dat…

自动化测试中如何高效进行元素定位!

前言 在自动化测试中&#xff0c;元素定位是一项非常重要的工作。良好的元素定位可以帮助测试人员处理大量的测试用例&#xff0c;加快测试进度&#xff0c;降低工作负担。但是在实际的测试工作中&#xff0c;我们常常遇到各种各样的定位问题&#xff0c;比如元素定位失败、元…

Java的锁机制详解

在并发编程中&#xff0c;锁 是用于控制多个线程对共享资源进行访问的工具。Java提供了多种锁机制&#xff0c;从最基础的 synchronized 到高级的 ReentrantLock&#xff0c;这些锁帮助我们确保线程安全&#xff0c;并能有效避免数据竞争和死锁问题。 1. synchronized 关键字…

使用 Yarn 下载前端依赖报错

背景&#xff1a;尝试使用yarn下载前端项目依赖 运行&#xff1a; yarn install报错&#xff1a; 错误: 找不到或无法加载主类 install运行&#xff1a; yarn提示&#xff1a; 怀疑是否是 yarn 安装的问题&#xff1a; 执行&#xff1a;yarn -v 这个错误提示通常说明系…