requests请求库(爬取)

news2024/12/30 1:49:09

文章目录

  • requests模块
    • 链接拼接(params参数)
    • UA伪装(headers参数)
    • POST请求
    • 页面局部信息爬取(GET)
    • 爬取国家药品监督管理监督总局中基于中华人民共和国化妆品生产许可证相关数据
    • 爬取图片

爬虫分类
通用爬虫:爬取系统重要组成部分,抓取的是一整张页面
聚焦爬虫:是建立在通用爬虫的基础上,爬取的是页面中特定的局部内容
增量式爬虫:检测网站中数据更新的情况,只会爬取网站中最新更新出来的内容

requests模块

requests模块:python中原生的一款基于网络请求的模块,功能非常强大,简单便捷,效率极高

requests模块下载:pip install requests
请求流程:指定url,发起请求,获取响应数据,数据解析,持久化存储

import requests

# 制定URL
url = 'https://www.baidu.com/'
# 发起请求,获取请求数据
r = requests.get(url)
print(r.text)  # 输出网页内容
# 保存源码为baidu.htmnl
with open('./baidu.html', 'w', encoding='utf-8') as fp:
    fp.write(r.text)

print(r.status_code)     #状态码,200表示成功
# 200

链接拼接(params参数)

如果GET请求还需要添加额外的信息,可以利用params参数,比如url为http://httpbin.org/get,需要访问的是http://httpbin.org/get?name=gremey&age=22,则可以利用params参数,代码如下:

import requests

data = {
    'name':'gremey',
    'age':22
}
url = 'http://httpbin.org/get'
r = requests.get(url, params=data)

UA伪装(headers参数)

UA:USer-Agent请求载体的身份

UA检测:门户网站的服务器会检测对应请求的载体身份,如果监测到请求身份为某一款浏览器,说明该请求是一个正常请求 但是如果检测到请求的载体身份标识不是基于某一款浏览器,则标识该浏览为不正常的请求(爬虫),则服务器很可能拒接该请求

UA伪装:让爬虫对应得请求身份标识伪装成某一款浏览器

import requests

# UA伪装:将对应的User-Agent封装到一个字典
headers = {'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_4) AppleWebKit/537.36 (KHTML like Gecko) Chrome/52.0.2743.116 Safari/537.36'}
url = 'https://www.baidu.com/'
r = requests.get(url,headers=headers)

POST请求

以百度翻译为例,在左上方输入单词,左下方会立马实时出现翻译(页面局部刷新,ajax请求),目标是获取左下方红方框的内容
在这里插入图片描述在左边选择找到右边kw内容是上面输入的单词内容
在这里插入图片描述在下面图中可以看出这是POST请求,请求的URL是https://fanyi.baidu.com/sug,请求的数据是json格式,json格式爬出来的数据可以使用json()方法转化为字典格式,不是json格式不能使用json()方法
在这里插入图片描述

import requests
import json

url = 'https://fanyi.baidu.com/sug'
# post请求参数处理(同get请求)
data = {
    'kw': 'pig'
}
headers = {'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_4) AppleWebKit/537.36 (KHTML like Gecko) Chrome/52.0.2743.116 Safari/537.36'}
r = requests.post(url=url, data=data,headers=headers)
print(r.text)
#如果服务器是json类型才可以使用json方法
print(r.json())
# 保存json格式文本
f = open('./pig.json', 'w', encoding='utf-8')
json.dump(r.json(), fp=f, ensure_ascii=False)

再以肯德基店铺查询为例,他的data数据如下:
在这里插入图片描述
keywoed代表查询地点,pageIndex参数代表页码数
在这里插入图片描述

页面局部信息爬取(GET)

以爬取豆瓣电影评分为例,到豆瓣官网查看电影排行榜,选择喜剧,不断往下滑动,下面会不断刷新出新的内容
在这里插入图片描述该请求的URL为https://movie.douban.com/j/chart/top_list,加上其下方的几个data参数,可以看到这个请求的数据也是json格式,也可以用json方法

import requests
import json

url = 'https://movie.douban.com/j/chart/top_list'
data = {
    'type': '24',
    'interval_id': '100:90',
    'action': '',
    'start': '1',   # 从库中的第几部开始的位置
    'limit': '20'   # 一次取多少个
}
headers = {'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_4) AppleWebKit/537.36 (KHTML like Gecko) Chrome/52.0.2743.116 Safari/537.36'}
r = requests.get(url=url, params=data, headers=headers)
print(r.json())
# 保存json格式文本
f = open('./pig.json', 'w', encoding='utf-8')
json.dump(r.json(), fp=f, ensure_ascii=False)

爬取国家药品监督管理监督总局中基于中华人民共和国化妆品生产许可证相关数据

URL:http://125.35.6.84:81/xk/
到该网站点击红方框内的会显示信息详情页面
在这里插入图片描述
详情页面如下,我们需要的就是这里面的数据

在这里插入图片描述

import requests

url = 'http://125.35.6.84:81/xk/'
headers = {'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_4) AppleWebKit/537.36 (KHTML like Gecko) Chrome/52.0.2743.116 Safari/537.36'}
r = requests.get(url=url, headers=headers)
with open('./a.html', 'w', encoding='utf-8') as fp:
    fp.write(r.text)

通过上面代码爬取保存的页面和浏览器的相比,首页中没有企业名称等信息,截图如下:
在这里插入图片描述在这里插入图片描述不显示企业信息,则该信息不是通过http://125.35.6.84:81/xk/这个URL获取的,而是通过其他方法加载出来的数据,称为动态加载的数据(通过ajax请求得到的)

按F12打开页面详细信息,从新进入页面,页面下方XHR里面会显示一个数据包,如下:
在这里插入图片描述
这里面有请求的URL,该请求为POST请求,数据类型为json格式,请求的data数据如下:在这里插入图片描述这里可以爬取获得后面需要的id值

进入企业详情页面,按F12打开页面详情,刷新该页面,发现左下方有个数据包,右边有URL请求方式,以及id参数等信息在这里插入图片描述
在这里插入图片描述
所有企业详情页面的URL都相同,只有id参数不同
如果我们可以批量获取多家企业的id后,就可以讲id和url形成一个完整的详情页面对应数据的Ajax请求的url

import requests

# 批量获取企业id值
url = 'http://125.35.6.84:81/xk/itownet/portalAction.do?method=getXkzsList'
# 参数封装
data = {
    'on': 'true',
    'page': '1',  # 页面,通过这里可以便利获取每页所有企业信息
    'pageSize': '15',  # 页面显示企业数量
    'productName': '',
    'conditionType': '1',
    'applyname': '',
    'applysn': '',
}
headers = {'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_4) AppleWebKit/537.36 (KHTML like Gecko) Chrome/52.0.2743.116 Safari/537.36'}
r = requests.post(url=url, headers=headers, data=data)
jsons = r.json()
# 存储id
id_list = []
for dic in jsons['list']:
    id_list.append(dic['ID'])
# 获取企业详情数据
post_url = 'http://125.35.6.84:81/xk/itownet/portalAction.do?method=getXkzsById'
for id in id_list:
    data = {
        'id': id
    }
    js = requests.post(url=post_url, headers=headers, data=data)
    # 输出企业详情页面的具体信息数据
    print(js.json())

爬取图片

在百度图片中找一张图片,复制图片的链接,然后爬取该链接即可获取其图片(浏览该链接会有图片)

import requests

url = 'https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2021%2F0919%2F2bb40aecj00qzo05j000dd200jg00etg00jg00et.jpg&thumbnail=650x2147483647&quality=80&type=jpg'
headers = {'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_4) AppleWebKit/537.36 (KHTML like Gecko) Chrome/52.0.2743.116 Safari/537.36'}
r = requests.post(url=url, headers=headers)
with open('baidu.jpg', 'wb') as f:
    f.write(r.content)

# text(字符串)  content(二进制)  json(对象)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/134984.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

分布式存储从FastDFS切换到Minio

什么是Minio 基于官网的介绍如下:MinIO 是一款高性能、分布式的对象存储系统. 它是一款软件产品, 可以100%的运行在标准硬件。即X86等低成本机器也能够很好的运行MinIO。 从官网的介绍可以看出Minio是一款和FastDFS类似的工具,分布式存储系统。目前在使…

运行MAT项目环境配置中出现的问题及参考方案

MAT项目是用于修复图片中缺失的部分:及为图像中缺失的区域产生视觉吸引力和语义适当的内容。 项目链接:GitHub - fenglinglwb/MAT: MAT: Mask-Aware Transformer for Large Hole Image InpaintingMAT: Mask-Aware Transformer for Large Hole Image Inp…

国内有没有可以全职远程办公的程序员工作?

明作为一个曾经靠兼职开发远程办公来赚钱的程序员,既碰到过无良甲方,开发完了不结尾款,最后通过法律手段才解决问题;也接过自称甲方的中介单,耗费心力拿到尾款,最后发现人家拿的钱比自己还多......这一路兼…

方格取数--数字三角形dp问题

项目场景: 线性dp 数字三角形类问题 问题描述 设有 NN 的方格图,我们在其中的某些方格中填入正整数,而其它的方格中则放入数字0。如下图所示: 某人从图中的左上角 A 出发,可以向下行走,也可以向右行走&am…

WebGL及Threejs学习介绍

一、学习背景及实现的效果 这十年来Web得到了飞速的发展,随着WebGL的普及,网页的表现能力越来越强大,网页上已经可以开始做出很多复杂的动画、精美的效果;还能通过WebGL在网页中绘制高性能的3d图形。随着浏览器的性能和网络、带宽…

github实用搜索技巧

github搜索指令教程一. in:根据某个关键词来进行检索1.关键词:name: 项目名称description : 项目描述readme : 项目帮助文档语法 &#xff1a;language:xx(检索什么语言的内容)组合检索二.根据stars||forks||pushed关键字查找1.数量范围: xxx关键词 stars:>或者:<2.区间范…

Pytorch 数据操作

神经网络所处理的数据类型都为tensor类型数据&#xff0c;我们首先需要导入库torch import torch 使用 arange 创建一个行向量 x。这个行向量包含以0开始的前12个整数&#xff0c;它们默认创建为整数。除非额外指定&#xff0c;新的张量将存储在内存中&#xff0c;并采用基于…

进程替换心得

进程替换 1️⃣ 什么是进程替换 1.我们想让子进程不执行父进程部分代码&#xff0c;执行新的程序时我们需要进行进程替换。 ** 程序替换的原理 ** &#xff1a; 将磁盘中的程序&#xff0c;加载入内存结构。重新建立页表映射&#xff0c;谁执行程序替换就程序建立谁的映射(子…

redis 的 java 客户端

Jedis 客户端 1&#xff09;引入依赖&#xff1a; <?xml version"1.0" encoding"UTF-8"?> <project xmlns"http://maven.apache.org/POM/4.0.0"xmlns:xsi"http://www.w3.org/2001/XMLSchema-instance"xsi:schemaLocation&…

【Vim】Vim 常用编辑操作

目录 正则表达式 vim 命令 vim的工作模式 撤销修改、重做与保存 光标移动命令 文本插入操作 文本删除操作 文本复制、剪切与粘贴 文本的修改与替换 多窗口操作 正则表达式 简单地说&#xff0c;正则表达式是一种符号表示法&#xff0c;用于识别文本模式。在某种程度上…

Python--栈与队列的相互实现

我们都知道这两个数据结构很相似,但是又有差别, 就好像是对立统一的一样. 栈是一种后进先出的数据结构&#xff0c;元素从顶端入栈&#xff0c;然后从顶端出栈。 队列是一种先进先出的数据结构&#xff0c;元素从后端入队&#xff0c;然后从前端出队。 首先我们都知道用Python的…

leetcode--动态规划问题

动态规划1.基本动态规划 一维&#xff08;1&#xff09;爬楼梯(70)&#xff08;2&#xff09;打家劫舍(198)&#xff08;3&#xff09;等差数列划分(413)2.基本动态规划 二维&#xff08;1&#xff09;最小路径和(64)&#xff08;2&#xff09;01 矩阵(542)&#xff08;3&#…

02SpringCloudAlibaba服务注册中心—Eureka

推荐与对比观看&#xff1a;003SpringCloud---Eureka_gh_xiaohe的博客-CSDN博客 服务提供者 1、 2、pom.xml 3、改yum 4、主启动 5、业务类 测试1&#xff1a; 访问&#xff1a; 服务消费者 1、 2、pom.xml 3、改yum 4、主启动 5、业务类 config controller 测…

【代码封装 center和bounds介绍 Objective-C语言】

一、继续上篇文章的例子 1.刚才我们说了,这个“上下左右”无非就是移动一下frame而已 但是,我们发现,“上下左右”四个功能,我们写了4个方法, 这样做的话,有点儿太繁琐了 所以呢,接下来我们想个办法,能不能把这四个方法,封装一下 封装成1个呢,不要这么多 我们先…

使用Alfred + Gitee搭建免费图床

环境 系统: Mac 工具: Alfred, git, homebrew, pngpaste. 语言: perl 其他: Gitee 工具下载 https://gitee.com/serpmelon/inazuma 思路 使用Gitee仓库作为图床, 使用Alfred工作流简化上传图片流程, 并将上传图片地址转换为markdown格式输出到剪切板中. 使用 复制一张图…

植物大战僵尸:无冷却分析方法

植物大战僵尸这款游戏可以说是很多90后的回忆了&#xff0c;基本上只要是90后或多或少的都接触过&#xff0c;而玩游戏与制作辅助是两个概念&#xff0c;今天我将给大家分享一些游戏辅助方面的制作技巧&#xff0c;来供大家参考。 植物无冷却的实现 根据上节课查找太阳花生产…

基于springboot+Vue的社团管理系统(程序+文档+数据库)

大家好✌&#xff01;我是CZ淡陌。一名专注以理论为基础实战为主的技术博主&#xff0c;将再这里为大家分享优质的实战项目&#xff0c;本人在Java毕业设计领域有多年的经验&#xff0c;陆续会更新更多优质的Java实战项目&#xff0c;希望你能有所收获&#xff0c;少走一些弯路…

(02)Cartographer源码无死角解析-(44) 2D栅格地图→ProbabilityGrid

讲解关于slam一系列文章汇总链接:史上最全slam从零开始&#xff0c;针对于本栏目讲解(02)Cartographer源码无死角解析-链接如下: (02)Cartographer源码无死角解析- (00)目录_最新无死角讲解&#xff1a;https://blog.csdn.net/weixin_43013761/article/details/127350885 文末…

win10系统如何找回删除文件?教你五种恢复方法

在使用win10系统过程中&#xff0c;意外删除数据是经常发生的事情&#xff0c;那么win10系统如何找回删除文件呢&#xff1f;下面为大家总结了这五种win10文件误删除恢复方法&#xff0c;希望能够帮助到您。 ▍方法一、 ctrlz撤销法 ctrlz撤销法十分适用于恢复刚刚删除的文件…

绘图神器draw.io(写文必备)

绘图神器draw.io&#xff08;写文必备&#xff09; 前言 大家早上好&#xff0c;我是毛小悠&#xff0c;一个前端开发工程师。 最近发现一个绘图神器&#xff0c;没错&#xff0c;就是标题中的draw.io。免费、开源&#xff0c;功能强大&#xff0c;真的非常适合程序员。 我…