python爬虫入门小案例

news2026/1/7 22:00:17

python爬虫

以下内容仅供学习交流,请勿用作其他用途,若涉及隐私和版权问题,请及时联系我删除

闲来无事,学了学爬虫小知识,适合入门,文笔拙劣,还望见谅

爬虫是什么:

爬取网页上的文字,图片,视频,音频
自动化操作浏览器,比如填写表单,打卡,提高工作效率

爬虫的注意事项:

爬虫前阅读robots.txt
注意遵守相关法律规定
反爬:防止爬虫程序对网站数据就行爬取
反反爬:破解网站中的反爬机制,获取相关数据

什么是HTTP协议:

HTTP协议:HyperText Transfer Protocol,超文本传输协议,发布和接收HTML的协议,服务器端口号:80端口
HTTPS协议:HTTP协议的加密版本,在HTTP下加入了SSL层,服务器端口号:443

我们平时输入网址时不需要手动输入端口号,浏览器会自动识别,例如下图,CSDN使用的是HTTPS协议,我们可以手动输入:443,按下回车,仍可访问网页

在这里插入图片描述

输入错误的端口号,会加载失败,例如我们输入:80,会显示响应无效

在这里插入图片描述

什么是URL:

URL:Uniform Resource Locator,统一资源定位符
scheme://host:port/path/?query-string=xxx#anchor
scheme:访问的协议,常见的协议:http,https,ftp
host:主机名,域名,比如www.taobao.com
port:端口号,默认80或443
path:查找路径,sz.58.com/chuzu ,这里的chuzu就是path
query-string:查询字符串,www.baidu.com/s?wd=python,后面的wd=python就是查询字符串
anchor:锚点,前端用作页面定位用的,现在一些前后端分离项目,也用锚点来做导航

常见请求方法:

Requests Method:HTTP协议定义了8种请求方法,最常用的四种请求方法：GET, POST, PUT, DELETE,

剩下四种不常用的请求方法:HEAD、‌OPTIONS、‌TRACE和CONNECT,下面介绍一下get请求和post请求

get请求:一般情况下,只从服务器获取数据下来,并不会对服务器资源长生任何影响的时候会使用get请求
post请求:向服务器发送数据(登录),上传文件.会对服务器资源产生影响的时候使用post请求

如何查看请求方式：

打开浏览器,进行网页搜索,单击鼠标右键,选择最下方的"检查"

在这里插入图片描述

①选择Network

②刷新网页

③选择第一个文件,点击后就可以查看请求方法是“GET"

在这里插入图片描述

登录界面通常会产生"POST"请求,随便输入账号试一试,显示的是”POST“请求
在这里插入图片描述

请求头参数:

User-Agent:浏览器名称,网络爬虫中经常使用到,请求一个网页时,服务器通过这个参数就可以知道是哪种服务器发送的
通过爬虫发送的请求,User-Agent是Python,为了避免反爬,通常设置为一些浏览器的值来伪装爬虫

Referer:表明当前这个请求从哪个url过来的,对于反爬中,如果不是从指定页面过来的,那么就不做相关的响应

Cookie:http协议是无状态的,一个人发送了两次请求,服务器没有能力知道这两个请求是否来自同一个人,因此用cookie来做标识,一般想要做登录后才能访问的网站,那么就需要发送cookie信息

在Network中的headers中可以查看User-Agent,Referer和Cookie

在这里插入图片描述

状态响应码:

状态响应码:Response Code
200:请求正常,服务器正常的返回数据
301:永久重定向,访问www.jingdong.com的时候会重定向到www.jd.com
302:临时重定向,访问一个需要登录的页面的时候,而此时没有登录,那么就会重定向到登录页面
400:请求的url在服务器找不到,即请求url错误
403:服务器拒绝访问,权限不够,或者是被反爬了
500:服务器内部错误,可能是服务器出现bug了,或者宕机了

状态响应码的详解，请看这篇文章:https://blog.csdn.net/2202_75922690/article/details/137112746

爬虫小尝试:

request网页采集

需要在pycharm中安装requests模块

#request网页采集
import requests
keyword=input("请输入搜索关键词:")

#指定url
url=f'https://www.baidu.com/s?tn=15007414_15_dg&ie=utf-8&wd={keyword}'
#header要在自己电脑浏览器中找，不是用别人的代码
header={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/126.0.0.0 Safari/537.36'}

#网络请求,获得响应
reponse=requests.get(url=url,headers=header)
print(reponse.text)
#写入文件中,在本地找到然后打开就是网页
with open(keyword+'.html','w',encoding='utf-8') as f:
    f.write(reponse.text)
    print(f'已下载...{keyword}')

在这里插入图片描述

打开保存的文件，在浏览器中打开,如图:

在这里插入图片描述

post请求爬取翻译

需要用到的模块:import requests,import pprint

在这里插入图片描述

这是动态加载的,当我们输入查询词汇时,发送的是post请求,传回来数据,由于是post请求,需要找到ajax数据,因此要点击Fetch/XHR进行查找
在这里插入图片描述

输入单词anchor,进行查找,注意到sug有好几个,点击第一个sug,发现单词是’a’,点击第二个sug,发现单词是’an’,第三个sug是’anc’,一直到最后一个sug是’anchor’,我们可以发现我们想要找的数据极有可能是在这里面,点击它的Headers,可以查找Request URL,这是我们要请求的URL

在这里插入图片描述

查看Payload的数据是’kw:anchor’,而Preview里面的数据有anchor,由此我们发现通过数据’kw:anchor’发送post请求就可以拿到包含anchor的数据

import pprint
import requests#导入包
import os
keyword=input('请输入要查询的词汇(输入空格退出):')
url='https://fanyi.baidu.com/sug'
header={'User-Agent':
'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/126.0.0.0 Safari/537.36'}
data={
    'kw': keyword
}
while keyword!=' ':
    res = requests.post(url=url, headers=header, data=data)
    if res.json()['data']==list( ):
        print('抱歉,没有您要查询的结果,请重新输入')
    else:
        pprint.pprint(res.json()['data'][0]['v'])
    keyword = input('请输入要查询的词汇(输入空格退出):')
    data = {
        'kw': keyword
    }
os.system('pause')