【Python爬虫三天从0到1】Day1:爬虫核心

news2024/11/17 8:25:50

目录

1.HTTP协议与WEB开发

(1)简介

(2)请求协议和响应协议

2. requests&反爬破解

(1)UA反爬

(2)referer反爬

(3)cookie反爬

3.请求参数

(1)get请求以及查询参数

(2)post请求以及请求体参数

4.爬虫图片和视频

(1)直接爬取媒体数据流

5.打码平台

获取验证码

打码平台:图鉴

1.模拟登陆(破解验证码)

2.抖音下载一个视频


f463957016464de6b313a31744930f2b.jpeg

1.HTTP协议与WEB开发

我们要知其然并知其所以然,在讲爬虫之前先把他的 “根” 说清楚

互联网是什么?

简单地说:互联网本身就是一种信息的分享和传递,我们上网的过程本质上就是一种下载资源的过程。

(1)简介

HTTP协议是Hyper Text Transfer Protocol(超文本传输协议)的缩写,是用于万维网
(WWW:World Wide Web)服务器与本地浏览器之间传输超文本的传送协议。HTTP是一个属于应用层的面向对象的协议,由于其简捷、快速的方式,适用于分布式超媒体信息系统。它于1990年提出,经过几年的使用与发展,得到不断地完善和扩展。HTTP协议工作于客户端-服务端架构为上。浏览器作为HTTP客户端通过URL向HTTP服务端即WEB服务器发送所有请求。Web服务器根据接收到的请求后,向客户端发送响应信息。
815d219108254692862490019f8422e5.png

(2)请求协议和响应协议

http协议包含由浏览器发送数据到服务器需要遵循的请求协议与服务器发送数据到浏览器需要遵循的请求协议。用于HTTP协议交互的信被为HTTP报文。请求端(客户端)的HTTP报文 做请求报文,响应端(服务器端)的 做响应报文。HTTP报文本身是由多行数据构成的字文本。

be129ee9bb3c462d83ecbd08820ae37f.png

一个完整的URL包括:协议、ip、端口、路径、参数

URL:
https://www.baidu.com/s?wd=yuan
协议://域名(IP)/路径?查询参数(a=1&b=2&c=3)

请求方式:get与post请求

  • GET提交的数据会放在URL之后,以?分割URL和传输数据,参数之间以&相连,如EditBook?name=test1&id=123456. POST方法是把提交的数据放在HTTP包的请求体中

  • GET提交的数据大小有限制(因为浏览器对URL的长度有限制),而POST方法提交的数据没有限制

响应状态码:状态码 是当客户端向服务器端发送请求时, 返回的请求结果。借助状态码,用户可以知道服务器端是正常 理了请求,还是出 现了 。状态码如200 OK,以3位数字和原因组成。

请求头:

  • Accept:能够接收的数据格式

  • Accept-Encoding:能够接收的压缩方式
  • User-Agent:客户端代理

  • Content-Type:指定发送的请求体数据的编码类型和格式。

2. requests&反爬破解

(1)UA反爬

73a7f533410b4df1917338f7c60edaac.png

import requests

url = 'https://www.baidu.com/'
my_headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/118.0.0.0 Safari/537.36'
}

resp = requests.get(url, headers=my_headers)
# print(resp.status_code) # 响应状态码
# print(resp.headers) # 响应头
# print(resp.text) # 响应返回的内容

# 文档下载
with open('baidu.html', 'w', encoding='utf-8') as f:
    f.write(resp.text)

(2)referer反爬

两种请求:

  • text(html)
  • AJAX/json(html、css、js)

a1555502a72047958ba532346461d293.png

import requests

url = 'https://m.douban.com/rexxar/api/v2/movie/recommend?refresh=0&start=0&count=20&selected_categories=%7B%7D&uncollect=false&tags='
my_headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/118.0.0.0 Safari/537.36',
    'Referer': 'https://movie.douban.com/explore'
}

resp = requests.get(url, headers=my_headers)
# print(resp.json())


with open('douban.json','w') as f:
    f.write(resp.text)

(3)cookie反爬

039641820bf042639f9810e6701137fe.png

import requests

url = 'https://stock.xueqiu.com/v5/stock/screener/quote/list.json?type=sha&order_by=percent&order=desc&size=10&page=1'
cookie='xq_a_token=e2f0876e8fd368a0be2b6d38a49ed2dd5eec7557; xqat=e2f0876e8fd368a0be2b6d38a49ed2dd5eec7557; xq_r_token=2a5b753b2db675b4ac36c938d20120660651116d; xq_id_token=eyJ0eXAiOiJKV1QiLCJhbGciOiJSUzI1NiJ9.eyJ1aWQiOi0xLCJpc3MiOiJ1YyIsImV4cCI6MTcwMDY5OTg3NSwiY3RtIjoxNjk4MjM4NzE0MTc3LCJjaWQiOiJkOWQwbjRBWnVwIn0.aqSRg4NSgDo_B0rpAi6IqTX6bgyfKElHCAOhVKAovoNkn7v2os2QhkK1A-1nw5GmGxPFIRIN63rdl_ucw7SFDtAKfXHq24XpmicjGTz-UA4Z0ec70opumo4apOqENC84064mCh21ODMI5stVImrWjWdMrsylJjAe8DpB0SiNbbYZeUdSHXY1XyyqR-WCVh58etJhusilb4HYS-ruAUVXspgzW8XF8Nehnplgrk0eVx1KK_Le6EYqKkqw0mGOlHd1T1Ft7bpjMn8VFwJ5LriDC9IGw-PFT6aTIHnR6Aw3-fAyGj0SK35zJcaxjYw9yNhJFGQvCow-zsyDxKcbvZisXQ; cookiesu=491698238770530; u=491698238770530; device_id=f19daf13250cbd45bc5ea0d7b699854b; Hm_lvt_1db88642e346389874251b5a1eded6e3=1698238794; s=aq11dck1v6; Hm_lpvt_1db88642e346389874251b5a1eded6e3=1698239089'

my_headers = {
    'User-Agent': 'https://stock.xueqiu.com/v5/stock/screener/quote/list.json?type=sha&order_by=percent&order=desc&size=10&page=1',
    'Referer': 'https://xueqiu.com/hq',
    'Cookie': cookie

}
resp=requests.get(url,headers=my_headers)

print(resp.text)


3.请求参数

(1)get请求以及查询参数

import requests

url = 'https://m.douban.com/rexxar/api/v2/movie/recommend'

my_headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/118.0.0.0 Safari/537.36',
    'Referer': 'https://movie.douban.com/explore'
}

my_params = {
    'start': 0,
    'count': 60,
    'tags': '爱情'
}

resp = requests.get(url, headers=my_headers, params=my_params)
# print(resp.json())

with open('douban1.json','w') as f:
    f.write(resp.text)

(2)post请求以及请求体参数

d887fdf768f04a54a5d8bf09745b37ca.png

import  requests


url='https://aidemo.youdao.com/trans'

my_headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/118.0.0.0 Safari/537.36',
    'Referer': 'https://ai.youdao.com/'
}

while 1:
    wd = input('请输入翻译的内容>>>')

    my_data={
        'q': wd,
        'from': 'Auto',
        'to': 'Auto'
    }

    resp = requests.post(url,headers=my_headers,data=my_data)
    print(resp.json().get('translation')[0])


4.爬虫图片和视频

(1)直接爬取媒体数据流

60c3b010217c48ec96b4a49b9194a987.png

import requests


resp=requests.get('https://pic.netbian.com/uploads/allimg/231012/200615-1697112375eae9.jpg')

print(resp.content) # 响应字节串
# print(resp.text) # 响应字符串

# 写文件
with open('meinv.png','wb') as f:
    f.write(resp.content)


5.打码平台

获取验证码

 先清空一下数据包

点击刷新验证码,找到携带验证码图片的数据包(可以预览一下)

试一下请求网址能否搜索到验证码,并刷新页面,看一下是否每次刷新验证码都会随之改变

编写爬虫代码,下载验证码

import requests

url = 'https://so.gushiwen.cn/RandCode.ashx?t=1698274193608?t=1698274440797?t=1698274448532'

resp = requests.get(url)

with open('code.png', 'wb') as f:
    f.write(resp.content)

看一下是否成功下载,并重新执行代码,看一下验证码是否刷新

打码平台:图鉴

点击开发文档

选择Python

分析一下脚本内容

import base64
import json
import requests
# 一、图片文字类型(默认 3 数英混合):
# 1 : 纯数字
# 1001:纯数字2
# 2 : 纯英文
# 1002:纯英文2
# 3 : 数英混合
# 1003:数英混合2
#  4 : 闪动GIF
# 7 : 无感学习(独家)
# 11 : 计算题
# 1005:  快速计算题
# 16 : 汉字
# 32 : 通用文字识别(证件、单据)
# 66:  问答题
# 49 :recaptcha图片识别
# 二、图片旋转角度类型:
# 29 :  旋转类型
#
# 三、图片坐标点选类型:
# 19 :  1个坐标
# 20 :  3个坐标
# 21 :  3 ~ 5个坐标
# 22 :  5 ~ 8个坐标
# 27 :  1 ~ 4个坐标
# 48 : 轨迹类型
#
# 四、缺口识别
# 18 : 缺口识别(需要2张图 一张目标图一张缺口图)
# 33 : 单缺口识别(返回X轴坐标 只需要1张图)
# 五、拼图识别
# 53:拼图识别
def base64_api(uname, pwd, img, typeid):
    with open(img, 'rb') as f:
        base64_data = base64.b64encode(f.read())
        b64 = base64_data.decode()
    data = {"username": uname, "password": pwd, "typeid": typeid, "image": b64}
    result = json.loads(requests.post("http://api.ttshitu.com/predict", json=data).text)
    if result['success']:
        return result["data"]["result"]
    else:
        #!!!!!!!注意:返回 人工不足等 错误情况 请加逻辑处理防止脚本卡死 继续重新 识别
        return result["message"]
    return ""


if __name__ == "__main__":
    img_path = "C:/Users/Administrator/Desktop/file.jpg"
    result = base64_api(uname='你的账号', pwd='你的密码', img=img_path, typeid=3)
    print(result)

修改脚本参数

运行程序,对比运行结果和图片验证码是否一样


6.今日作业

1.模拟登陆(破解验证码)

要求:

  1. 目标网站:古诗文网

2.抖音下载一个视频

要求:

  1. 目标网站:抖音
  2. 用户:刘浩存

先清空一下数据包

2a7ac4de211d4fb798b604aaff5a4ea7.png

慢慢滑动下拉框,找到此种数据包

00b6996e60f64c9dbc81ba14406c815d.png

也可以筛选一下

fa25ce1002b344a59b680848727dd411.png

找到图片的绝对网址

fb95a2839cae43a382e185fb31583b31.png

试一下能否播放

939bd5b763894b87b7217157509780a3.png

编写爬虫代码,下载视频

import requests


resp=requests.get('http://v26-web.douyinvod.com/5e92b6ed6a4633b2470c7ccb7944af80/653941a0/video/tos/cn/tos-cn-ve-15-alinc2/03b58eaab171471c9751fef4792da4d2/?a=6383\u0026ch=10010\u0026cr=3\u0026dr=0\u0026lr=all\u0026cd=0%7C0%7C0%7C3\u0026cv=1\u0026br=936\u0026bt=936\u0026cs=0\u0026ds=4\u0026ft=bvTKJbQQqUisf_0ZPo0OW_EklpPiXXb0rFVJEFNiYRCPD-I\u0026mime_type=video_mp4\u0026qs=0\u0026rc=ZDRmZzU7Njo2NDplZmdpO0BpM3dnNmd0NWRneTMzNGkzM0BiYjI1XmM0NmMxYzRiLzEwYSM0ajRhMC5ncjZfLS1jLTBzcw%3D%3D\u0026btag=e00010000\u0026dy_q=1698247554\u0026l=20231025232554EFBDF4DD234ADE2761D5')

with open('liuhaocun.mp4','wb') as f:
    f.write(resp.content)

检查是否下载成功

aa756c6d4e2c4683b4034bbf86c35b7b.png

liuhaocun.mp4

本文所涉及的他人内容包括但不限于文字、图片、音频、视频等,来源于各个渠道和资源,并非本文作者原创。在使用他人内容时,本文作者已经尽力确保遵循适用的版权法律和相关规定,并尽力寻找和确认素材的合法来源。在此声明中的他人内容的使用,仅出于分享和传播信息的目的,并不代表本文作者对其内容的观点或立场进行支持或认可。本文作者对他人内容的准确性、完整性或时效性不承担责任,并且不保证这些素材没有侵犯任何第三方的知识产权。

素材来源:

  • 路飞学城

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1142579.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

基于springboot实现校园交友网站管理系统项目【项目源码+论文说明】

基于springboot实现校园交友网站管理系统演示 摘要 随着信息技术和网络技术的飞速发展,人类已进入全新信息化时代,传统管理技术已无法高效,便捷地管理信息。为了迎合时代需求,优化管理效率,各种各样的管理系统应运而生…

为什么说大模型微调是每个人都必备的核心技能?

▼最近直播超级多,预约保你有收获 近期直播:《基于开源 LLM 大模型的微调(Fine tuning)实战》 0 — 为什么要对 LLM 大模型进行微调(Fine tuning)? LLM 大模型(比如:Chat…

python自动化测试(三):xpath获取元素

目录 前置代码 一、什么是xpath方式 二、通过xpath 单组属性名属性值 的方式进行元素定位 三、通过xpath的多组属性进行元素的定位 四、通过xpath文本值的方式进行元素定位 五、通过模糊的文本值方式进行元素定位 前置代码 # codingutf-8 from selenium import webdrive…

export declare const TestService和export const TestService的区别

两者的主要区别在于导出方式的差异和访问方式的差异。 export declare const TestService:这种方式使用了export declare语法来导出一个常量TestService。export declare语法告诉编译器,此处的声明是供其他模块使用的,但是在当前模块中并没有…

Could not update Flowable database schema: unknown version from database:

文章目录 一、出现问题的情况二、解决方法1、 act_ge_property这个表里面的版本改成flowable-engine的版本号2、act_id_property表的schema.version版本也改成和flowable-engine版本一致(如图所示) 一、出现问题的情况 项目集成flowable流程框架的时候&…

第15届蓝桥杯Scratch选拔赛中级(STEMA)真题2023年8月

第15届蓝桥杯Scratch选拔赛中级(STEMA)真题2023年8月 一、单选题 第 1 题 单选题 点击以下积木块,生成的随机数是一个( )。 A.整数 B.小数 C.整数或小数 D.以上都不对 第 2 题 单选题 运行以下程序&#xff0…

全自动洗衣机什么牌子好?迷你洗衣机品牌推荐

这两年小型洗衣机可以称得上较火的小电器,小小的身躯却有大大的能力,一键可以同时启动洗、漂、脱三种全自动为一体化功能,在多功能和性能的提升上,还可以解放我们双手的同时将衣物给清洗干净,让越来越多小伙伴选择一款…

态势感知中的连续与离散

在态势感知中,连续和离散都是重要的概念。连续通常指的是可以在一定范围内连续变化的状态或变量,例如高度、照度、加速度等。这些连续的状态可以通过传感器等设备进行实时监测和采集,得到连续的数值。在态势感知中,可以利用这些连…

在全新ubuntu上用gpu训练paddleocr模型遇到的坑与解决办法

目录 一. 我的ubuntu版本![在这里插入图片描述](https://img-blog.csdnimg.cn/297945917309494ab03b50764e6fb775.png)二.首先拉取paddleocr源代码三.下载模型四.训练前的准备1.在源代码文件夹里创造一个自己放东西的文件2.准备数据2.1数据标注2.2数据划分 3.改写yml配置文件4.…

规范预算执行,构建企业预算管理一体化建设

随着我国财政改革的不断深入,在财政部总结了历次财政预算改革经验的基础上,我国以优化财政预算管理体系为目标,通过整合各类业务以实现企业预算管理一体化建设。其目的是更好的提升预算管理的质量,系统准确地反映企业预算情况&…

ffmpeg中examples编译报不兼容错误解决办法

ffmpeg中examples编译报不兼容错误解决办法 参考examples下的README可知,编译之前需要设置 PKG_CONFIG_PATH路径。 export PKG_CONFIG_PATH/home/user/work/ffmpeg/ffmpeg/_install_uclibc/lib/pkgconfig之后执行make出现如下错误: 基本都是由于库的版…

如何设置位移贴图模拟物体裂缝?

1、位移贴图的原理? 位移贴图(Displacement Map)是一种用于增强模型细节的贴图技术,它可以通过改变模型表面的几何形状来实现更加真实的效果。与其他贴图技术不同,位移贴图不仅仅是给模型表面添加纹理和颜色&#xff…

在Mac上安装MongoDB 5.0

MongoDB 5.0安装 1、环境描述 操作系统:macOS 14.0 (23A344) 2、安装MongoDB 2.1、tar解压包安装 下载地址:Download MongoDB Community Server | MongoDB 创建一个目录,以便数据库将文件放入其中。(默认情况下,数据…

Unity3D 如何用unity引擎然后用c#语言搭建自己的服务器

Unity3D是一款强大的游戏开发引擎,可以用于创建各种类型的游戏。在游戏开发过程中,经常需要与服务器进行通信来实现一些功能,比如保存和加载游戏数据、实现多人游戏等。本文将介绍如何使用Unity引擎和C#语言搭建自己的服务器,并给…

Python 自动化详解(pyautogui)

文章目录 1 概述1.1 第三方库:pyautogui1.2 坐标说明 2 操作对象2.1 鼠标2.1.1 定位2.1.2 移动2.1.3 拖动2.1.4 滚动2.1.5 点击 2.2 键盘2.2.1 输入2.2.2 按键2.2.3 快捷键 2.3 屏幕2.3.1 截图2.3.2 分辨率 2.4 信息提示2.4.1 提示框2.4.2 选择框2.4.3 密码输入2.4.…

Simulink和GUI联合使用

1、内容简介 略 9-可以交流、咨询、答疑 2、内容说明 Simulink和GUI联合使用 Simulink、GUI、参数传递 3、仿真分析 4、参考论文 略

一种基于Redis时间和权重关联的分布式优先级队列方法

技术背景: 深度学习平台(或存在异步任务调度的平台),存在不同的操作用户,用户存在不同的部门,调度的硬件服务器资源,按照不同的资源类型,操作系统,GPU卡的型号区分成不同…

【EI会议征稿】 2024年遥感、测绘与图像处理国际学术会议(RSMIP2024)

2024年遥感、测绘与图像处理国际学术会议(RSMIP2024) 2024 International Conference on Remote Sensing, Mapping and Image Processing 2024年遥感、测绘与图像处理国际学术会议(RSMIP2024)将于2024年1月19日-21日在中国厦门举行。会议主要围绕遥感、测绘与图像处理等研究领…

系统定时器

存不住时间,时间转换成对应的数字量,频率和周期的一个关系了,周期是以时间为单位,时间存不住,把周期换成频率 SysTick一般用在实时操作系统,为系统提供时钟信号, systick包括俩种时钟源 1.FCL…

DBeaver安装与使用教程(超详细安装与使用教程),好用免费的数据库管理工具

DBeaver安装步骤 资源下载: https://download.csdn.net/download/qq_37181642/88479235 官网地址: https://dbeaver.io/ 安装dbeaver 点击上图.exe安装工具,安装完成后不要打开 。 windows配置hosts 在hosts文件中加入: 127.0.0…