爬虫知识--01

news2025/1/16 5:51:16

爬虫介绍

# 爬虫的概念:

        通过编程技术(python:request,selenium),获取互联网中的数据(app,小程序,网站),数据清洗(xpaht,lxml)后存到库中(mysql,redis,文件,excel,mongodb)

# 基本思路:

        通过编程语言,模拟发送http请求,获取数据,解析,入库
# 过程:

        爬取过程,解析过程,会遇到反扒
        抓app,小程序,会通过抓包工具(charles,Fiddler),抓取手机发送的所有请求
# 爬虫协议:
        君子协议:https://xxx/robots.txt
# 百度是个大爬虫:
    百度/谷歌搜索引擎,启动了一个爬虫,一刻不停的在互联网中爬取网站,存到库中(es)
    用户在百度输入框中,输入搜索内容,去百度的库中搜索,返回给前端,前端点击,去了真正的地址
    seo 优化:不花钱,搜索关键词的结果,排的靠前
        -伪静态
    sem 优化:花钱买关键词

requests模块介绍

# requests模块:模拟发送http请求模块,封装了urlib3(python内置的发送http请求的模块)
    爬虫会用
    后端: 向其他api接口发送请求
    同步
#  requests库发送请求将网页内容下载下来以后,并不会执行js代码,这需要我们自己分析目标站点然后发起新的request请求
# 第三方: pip3 install requests

requests发送get请求

#  requests可以模拟发送http请求,有的时候,网站会禁止

        禁止的原因是:模拟的不像,有的东西没带
# http请求:请求头中没带东西,没带cookie,客户端类型,referer...

import requests
res=requests.get('https://www.cnblogs.com/')  # 这个网站没有反扒
print(res.text) # 响应体内容

携带get参数

# 携带get参数方式一:

import requests
res=requests.get('https://api.map.baidu.com/place/v2/search?ak=6E823f587c95f0148c19993539b99295&region=上海&query=肯德基&output=json')
print(res.text)

# 携带get参数方式二:

import requests
params = {
    'ak': '6E823f587c95f0148c19993539b99295',
    'region': '上海',
    'query': '肯德基',
    'output': 'json',
}
res = requests.get('https://api.map.baidu.com/place/v2/search',params=params)
print(res.text)  # 响应体内容

# url 编码和解码:

from urllib.parse import quote,unquote
s='上海'  # %E4%B8%8A%E6%B5%B7
print(quote(s))
print(unquote('%E4%B8%8A%E6%B5%B7'))

携带请求头

import requests
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/121.0.0.0 Safari/537.36'
}
res = requests.get('https://dig.chouti.com/',headers=headers)
print(res.text)

发送post请求携带cookie

# 是否登录:有个标志
        前后端混合项目:登录信息-->放在cookie中了
        前后端分离项目:登录信息--》后端规定的--》放在请求头的

# 方式一:放在请求头中

import requests
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/121.0.0.0 Safari/537.36',
    'Cookie': 'deviceId=web.eyJ0eXAiOiJKV1QiLCJhbGciOiJIUzI1NiJ9.eyJqaWQiOiJiNjEzOGM2OS02ZWRlLTQ3MWItODI4Yy03YTg2ZTE3M2E3NjEiLCJleHBpcmUiOiIxNzEwOTAxNjM1MTMxIn0.JluPFMn3LLUGKeTFPyw7rVwR-BWLiG9V6Ss0RGDHjxw; Hm_lvt_03b2668f8e8699e91d479d62bc7630f1=1708309636; __snaker__id=miaeDoa9MzunPIo0; gdxidpyhxdE=lMhl43kDvnAOqQQcQs9vEoTiy8k90nSwfT3DkVSzGwu3uAQWI9jqa2GcIUvryeOY0kX6kfPuhJUAGrR6ql0iv%2F6mCzqh6DHE1%5CP%2BaIXeUQgLcfqlklCcq2V9CgWbvQRGeRaduwzkcPYwf6CXZiW9a87NxU%2BRlYq57Zq01j2gMK0BaX%2FK%3A1708310847499; token=eyJ0eXAiOiJKV1QiLCJhbGciOiJIUzI1NiJ9.eyJqaWQiOiJjZHVfNTMyMDcwNzg0NjAiLCJleHBpcmUiOiIxNzEwOTAxOTY5NTM2In0.eseWTCMqp-yHa7rWgSvPhnWVhhQAgqGIvIgLGbvcBcc; Hm_lpvt_03b2668f8e8699e91d479d62bc7630f1=1708309982'
}
data = {
    'linkId': '41566118'  # 文章id
}
# 没有登录---》返回的数据不是咱们想要的
res = requests.post('https://dig.chouti.com/link/vote', headers=headers, data=data)
print(res.text)

# 方式二:放在cookie中

        cookie特殊,后期用的频率很高

import requests

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/121.0.0.0 Safari/537.36',
}
data = {
    'linkId': '41566118'
}
cookie = {
    'token': 'eyJ0eXAiOiJKV1QiLCJhbGciOiJIUzI1NiJ9.eyJqaWQiOiJjZHVfNTMyMDcwNzg0NjAiLCJleHBpcmUiOiIxNzEwOTAxOTY5NTM2In0.eseWTCMqp-yHa7rWgSvPhnWVhhQAgqGIvIgLGbvcBcc'
}

# 没有登录---》返回的数据不是咱们想要的
res = requests.post('https://dig.chouti.com/link/vote', headers=headers, data=data, cookies=cookie)
print(res.text)

post请求携带参数

# post请求有三种编码方式:

                json,urlencoded,form-data

# 方式一:data参数是urlencoded

        以data字典形式携带urlencoded编码,最终会被编码为name=lqz&age=19放在请体中

import requests
res=requests.post('地址',data={'name':'lqz','age':19})
# res=requests.post('地址',data=b'name=lqz&age=19')

# 方式二:json编码:json
        # 以json字典形式携带json编码,最终它会被编码为{'name':'lqz','age':19}放在请体中

import requests
res=requests.post('地址',json={'name':'lqz','age':19})

模拟登录

# 登录接口通过post请求,登录后能拿到登录信息,再发请求携带登录信息就是登录状态

        可见即可爬

import requests

data = {
    'username': '616564099@qq.com',
    'password': 'lqz123',
    'captcha': '3333',
    'remember': '1',
    'ref': ' http://www.aa7a.cn/',  # 登录成功,重定向到这个地址
    'act': 'act_login',
}
header = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/121.0.0.0 Safari/537.36'
}
res = requests.post('http://www.aa7a.cn/user.php', headers=header, data=data)
print(res.text)
# 登录成功的cookie
cookies=res.cookies
print(cookies)


# 向首页发送请求--->携带cookie便是登录状态
res=requests.get('http://www.aa7a.cn/',cookies=cookies)
print('616564099@qq.com' in res.text)

响应对象

# 使用requests模块发送请求:  request对象请求头,请求参数,请求体

        本质就是http请求,被包装成一个对象
# 响应回来:response对象有http响应,cookie,响应头,响应体...
        request:http请求
        response:http响应    


# 爬取普通图片:

import requests
header = {
     'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/121.0.0.0 Safari/537.36'
 }
respone = requests.get('https://www.jianshu.com/',headers=header)

#  如果下载图片,视频:

        图片防盗链,通过referer做的,请求头中有个referer参数,上次访问的地址

import requests
header={
    'Referer':'https://www.tupianzj.com/'
}
res=requests.get('https://img.lianzhixiu.com/uploads/allimg/180514/9-1P514153131.jpg',headers=header)
print(res.content)
with open('美女.jpg','wb') as f:
    f.write(res.content)
#  图片,视频---》迭代着把数据保存到本地
# with open('code.jpg','wb') as f:
#     for line in res.iter_content(chunk_size=1024):
#        f.write(line)

# respone属性:

print(respone.text)  # 响应体---》字符串形式
print(respone.content)  # 响应体---》bytes格式

print(respone.status_code)  # 响应状态码
print(respone.headers)  # 响应头

print(respone.cookies)  # 响应的cookie
print(respone.cookies.get_dict())  # cookiejar对象--->转成字典格式
print(respone.cookies.items())  # cookie的value值

print(respone.url)  # 请求地址
print(respone.history)  # 访问历史---》重定向,才会有

print(respone.encoding)  # 编码格式

response.iter_content() # 图片,视频---》迭代着把数据保存到本地

ssl 认证

# http和 https:
    http:超文本传输协议
    https:安全的超文本传输协议,防止被篡改,截取...
    https=http+ssl/tls
    必须有证书:才能通信

import requests

header = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/121.0.0.0 Safari/537.36'
}
respone = requests.get('https://www.jianshu.com/',headers=header,verify=False)
# respone = requests.get('https://www.jianshu.com/',headers=header,cert=('/path/server.crt','/path/key'))
print(respone.text)

使用代理

# 代理有正向代理和向代理

# 大神写了开源的免费代理:

        原理:有些网站提供免费的代理,通过爬虫技术爬取别人的免费代理,验证过后自己用

               加入自己的id访问不了,可以使用免费代理生成id再去访问

import requests

res = requests.get('http://demo.spiderpy.cn/get/?type=https')
print(res.json())
print(res.json()['proxy'])

# 112.30.155.83:12792
header = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/121.0.0.0 Safari/537.36'
}
# respone = requests.get('https://www.jianshu.com/', headers=header, proxies={'https': res.json()['proxy']})
respone = requests.get('https://www.jianshu.com/', headers=header)
print(respone.text)

超时设置,异常处理,上传文件

# 超时:

import requests
respone=requests.get('https://www.baidu.com',timeout=0.0001)
print(respose.text)

# 异常处理:

import requests
from requests.exceptions import * #可以查看requests.exceptions获取异常类型
try:
    r=requests.get('http://www.baidu.com',timeout=0.00001)
except RequestException:
    print('Error')
# except ConnectionError: #网络不通
#     print('-----')
# except Timeout:
#     print('aaaaa')

# 上传文件:

import requests
files={'file':open('a.jpg','rb')}
respone=requests.post('http://httpbin.org/post',files=files)
print(respone.status_code)

今日思维导图: 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1458924.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

GIN框架介绍以及使用

Gin是一个用Go语言编写的web框架。它是一个类似于martini但拥有更好性能的API框架, 由于使用了httprouter,速度提高了近40倍。 如果你是性能和高效的追求者, 你会爱上Gin,而且现在大多数企业都在使用Gin框架,反正学一学总没有错。 1、 GIn框…

微信小程序-绑定数据并在后台获取它

如图 遍历列表的过程中需要绑定数据&#xff0c;点击时候需要绑定数据 这里是源代码 <block wx:for"{{productList}}" wx:key"productId"><view class"product-item" bindtap"handleProductClick" data-product-id"{{i…

【J1939】一、概述,协议基础

文章目录 1. 背景2. 要点3. J1939帧细节3.1 协议数据单元(Protocol Data Unit,PDU)3.2 参数组编号(PGN)3.3 可疑参数编号(Suspect Parameter Number,SPN)参考1. 背景 J1939是一种用于商用车辆的通信协议,它定义了一套车辆电子控制单元之间进行数据通信的规范。J1939协议…

Java+SpringBoot:滑雪场管理的技术革新

✍✍计算机编程指导师 ⭐⭐个人介绍&#xff1a;自己非常喜欢研究技术问题&#xff01;专业做Java、Python、微信小程序、安卓、大数据、爬虫、Golang、大屏等实战项目。 ⛽⛽实战项目&#xff1a;有源码或者技术上的问题欢迎在评论区一起讨论交流&#xff01; ⚡⚡ Java实战 |…

用CSS3画一个三角形

<style> .up{width:0;height:0;border: 100px solid transparent;border-top: 100px solid red;/*红色*/ } .down{width:0;height:0;border: 100px solid transparent;border-bottom: 100px solid blue;/*蓝色*/ } .left{width:0;height:0;border: 100px solid transpare…

各种手型都合适,功能高度可定制,雷柏VT9PRO mini和VT9PRO游戏鼠标上手

去年雷柏推出了一系列支持4KHz回报率的鼠标&#xff0c;有着非常敏捷的反应速度&#xff0c;在游戏中操作体验十分出色。尤其是这系列4K鼠标不仅型号丰富&#xff0c;而且对玩家的操作习惯、手型适应也很好&#xff0c;像是VT9系列就主打轻巧&#xff0c;还有专门针对小手用户的…

【动态规划专栏】专题一:斐波那契数列模型--------4.解码方法

本专栏内容为&#xff1a;算法学习专栏&#xff0c;分为优选算法专栏&#xff0c;贪心算法专栏&#xff0c;动态规划专栏以及递归&#xff0c;搜索与回溯算法专栏四部分。 通过本专栏的深入学习&#xff0c;你可以了解并掌握算法。 &#x1f493;博主csdn个人主页&#xff1a;小…

Sora震撼发布:让你成为导演的时代终于到来!

关注【云原生百宝箱】公众号&#xff0c;获取更多云原生消息 OpenAI重磅发布了他们的视频生成大模型Sora&#xff0c;该模型可支持长达一分钟的高质量视频内容的生成&#xff0c;又着实又令人震惊了一把。 OpenAI朝着突破人类想象力的界限又迈出了一步&#xff0c;我相信你至少…

解决npm淘宝镜像到期问题

1 背景 由于node安装插件是从国外服务器下载&#xff0c;如果没有“特殊手法”&#xff0c;就可能会遇到下载速度慢、或其它异常问题。 所以如果npm的服务器在中国就好了&#xff0c;于是我们乐于分享的淘宝团队干了这事。你可以用此只读的淘宝服务代替官方版本&#xff0c;且…

Keepalived实现Nginx的高可用集群案例

服务器规划: serverb(nginx2):192.168.233.144 serverc(客户端):192.168.233.140 serverd(nginx1):192.168.233.141 结构图: serverd(nginx1): # 安装nginx yum install nginx -y# 进入nginx配置目录 cd /e…

你真的了解—————NumPy吗

&#x1f308;个人主页&#xff1a;小田爱学编程 &#x1f525; 系列专栏&#xff1a;opencv &#x1f3c6;&#x1f3c6;关注博主&#xff0c;随时获取更多关于IT的优质内容&#xff01;&#x1f3c6;&#x1f3c6; &#x1f600;欢迎来到小田代码世界~ &#x1f601; 喜欢的…

DS:循环队列的实现

创作不易&#xff0c;给个三连吧&#xff01;&#xff01; 一、前言 对于循环队列&#xff0c;博主也是源自于一道力扣的OJ题 力扣&#xff1a;循环队列的设置 后来我在网上查过&#xff0c;这个循环队列是有自己的应用场景的&#xff01;&#xff01;并不是出题者为了出题…

软件工具安装遇到bug、报错不知道怎么解决?看这里!

前言 本文举例了几个常见的软件工具使用问题&#xff0c;文末会提供一些我自己整理和使用的工具资料 。 "在追逐零 Bug 的路上&#xff0c;我们不断学习、改进&#xff0c;更加坚定自己的技术信念。让我们相信&#xff0c;每一个 Bug 都是我们成长的机会。" 一、VM…

全面解读视频生成模型Sora

2024年2月15日&#xff0c;OpenAI在其官网发布了《Video generation models as world simulators》的报告&#xff0c;该报告提出了作为世界模拟器的视频生成模型Sora。 OpenAI对Sora介绍如下&#xff1a; We explore large-scale training of generative models on video dat…

【Simulink系列】——动态系统仿真 之 连续系统线性连续系统

声明&#xff1a;本系列博客参考有关专业书籍&#xff0c;截图均为自己实操&#xff0c;仅供交流学习&#xff01; 一、连续系统定义 连续系统输出在时间上连续变化&#xff0c;而非间隔采样取值&#xff0c;满足以下条件&#xff1a; ①输出连续变化&#xff0c;变化的间隔…

解锁文档处理新境界:ONLYOFFICE编辑功能为开发者带来新机遇

引言 ONLYOFFICE最新发布的文档8.0版本带来了一系列引人注目的功能和优化&#xff0c;为用户提供了更强大、更高效的在线编辑体验。这次更新涵盖了多个方面&#xff0c;包括PDF表单、RTL支持、单变量求解、图表向导以及插件界面设计更新等。这些新功能不仅提升了文档处理的便利…

免费下载的指纹浏览器推荐,有效保护您的隐私安全

在这个数字化快速发展的时代&#xff0c;我们每天都在网上留下无数的足迹。无论是在线购物、社交媒体互动还是处理跨境电商事务&#xff0c;我们的每一次点击都可能被跟踪&#xff0c;我们的个人信息和隐私正处于风险之中。在网络世界中&#xff0c;一个简单的浏览器指纹就能暴…

智慧社区管理系统:构建未来的生活模式

在这个信息化、智能化的时代&#xff0c;我们期待的不再是简单的居住空间&#xff0c;而是一个集安全、便捷、舒适、环保于一体的智能化社区。为此&#xff0c;我们推出了全新的智慧社区管理系统&#xff0c;旨在将先进的科技力量引入社区管理&#xff0c;为居民提供更优质的生…

Python UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte 0xa4 in position 49

0x00 错误 UnicodeDecodeError: gbk codec cant decode byte 0xa4 in position 49: illegal multibyte sequence 这个错误出现的场景是这样的&#xff1a; 我把一个在 Mac 电脑生成的 .txt 文件 拷贝到了 Windows 电脑上 在读取 .txt 文件内容时 出现了这个错误 应该是 编…

视频监控需求八问:视频智能分析/视频汇聚平台EasyCVR有何特性?

最近TSINGSEE青犀视频在与业内伙伴进行项目合作的过程中&#xff0c;针对安防监控可视化视频管理系统EasyCVR视频融合平台在电信运营商项目中的应用&#xff0c;进行了多方面的项目需求沟通。今天我们就该项目沟通为案例&#xff0c;来具体了解一下用户关心度较高的关于视频智能…