爬虫基础1

一、爬虫的基本概念

1.什么是爬虫？

请求网站并提取数据的自动化程序

2.爬虫的分类

2.1 通用爬虫（大而全）

功能强大，采集面广，通常用于搜索引擎：百度，360，谷歌

2.2 聚焦爬虫，主题爬虫（小而精）

功能相对单一（只针对特定的网站的特定内容进行爬取）

2.3增量式爬虫（只采集更新后的内容）

爬取更新后的内容，新闻，漫画，视频…（区分新老数据）

3.ROOT协议

什么是robots协议？

3.1 Robots协议的全称是"网络爬虫排除标准" (Robots Exclusion Protocol)，简称为Robots协议。

3.2 Robots协议的一个很重要作用就是网站告知爬虫哪些页面可以抓取，哪些不

行。君子协定:指代的是口头上的协议，如果爬取了，可能会出现法律纠纷(商用).

二、爬虫的基本流程

1.发起请求

通过HTTP库向目标站点发起请求，即发起一个Request，请求可以包含额外的headers信息，等待服务器响应。

2.获取响应内容

如果服务器能正常响应，会得到一个Response，Response的内容便是索要获取的页面内容，类型可能有HTML，Json字符串，二进制数据（如图片视频）等类型

3.解析内容

得到的内容可能是HTML，可以用正则表达式、网页解析库进行解析，可能是Json，可以直接转为Json对象解析，可能是二进制数据，可能做保存或进一步处理

4.保存数据

保存形式多样，可以保存为文本，也可保存至数据库或者保存特定格式的文件

三、Request和Response

1．浏览器就发送消息给该网址所在的服务器,这个过程叫做HTTP Request。

2．服务器收到浏览器发送的消息后，能够根据浏览器发送消息的内容,做相应处理,然

后把消息回传给浏览器。这个过程叫做HTTP Response。

3．浏览器收到服务器的Response信息后，会对信息进行相应处理,然后展示。

4.Request

4.1 主要有GET、POST两种类型

4.2 URL全称统一资源定位符，如一个网页文档、一张图片、一个视频等都可

以用URL唯一来确定。

4.3 包含请求时的头部信息,如User-Agent、Host、Cookies等信息。

4.4 请求时额外携带的数据如表单提交时的表单数据。

5.Reponse

5.1 响应状态

有多种响应状态，如200代表成功、301跳转、404找不到页面、502服务器错误

5.2 响应头

如内容类型、内容长度、服务器信息、设置Cookie等等。

5.3 响应体

最主要的部分,包含了请求资源的内容, 如网页HTML、图片二进制数据等。

注意：在监测的时候用Ctrl+F调出搜索框

四、Requests模块

作用：发送网络请求，或得响应数据

开源地址：https://github.com/kennethreitz/requestshttps://github.com/kennethreitz/requests

安装： pip install requests -i https://pypi.douban.com/simple/

中文文档 API： http://docs.python-requests.org/zh_CN/latest/index.htmlhttp://docs.python-requests.org/zh_CN/latest/index.html

官方文档： Requests: 让 HTTP 服务人类 — Requests 2.18.1 文档https://requests.readthedocs.io/projects/cn/zh-cn/latest/

1.Requests请求

只能得到一个包的数据

url = 'https://www.baidu.com/'
response = requests.get(url)
print(response)#返回的是一个响应体对象

print(response.text)#获取响应体内容

print(response.status_code)#响应状态码

Get请求

url = 'https://httpbin.org/get'

#url = 'https://httpbin.org/get?age=18&&name=zhangsan'

data = {

    'name':'zhangsan',

    'age':19

}

response = requests.get(url,params=data)#params携带get请求的参数进行传参

print(response.text)

Post请求

rl = 'https://httpbin.org/post'

data = {

    'name':'zhangsan',

    'age':19

}

response = requests.post(url,data=data)#data:携带post请求需要的表单数据，在form里面形成

print(response.text)

自己理解：

对于Get来说，主要在网址输入时即输入URL的时候用到，而POST则是在网页里面，比如翻译时的单词输入等

获取Json数据

url = 'https://httpbin.org/get'

result = requests.get(url)

result_data = result.json()

print(result_data)

print(type(result_data))

会发现Py里面的Json数据就是字典类型

获取二进制据数据

url = 'https://b.bdstatic.com/searchbox/icms/searchbox/img/ci_boy.png'

result = requests.get(url)

#print(result.text) #二进制数据转文本会显示乱码，str

print(result.content)#会发现是以b开头的bite类型二进制数据,bytes



data = result.content

with open('TuPian.png','wb') as f:  #wb是写入二进制

    f.write(data)

初步伪装小爬虫——添加headers

浏览器用户身份的标识，缺少的话服务器会认为你不是一个正常的浏览器用户，而是一个爬虫程序

User-agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/124.0.0.0 Safari/537.36 Edg/124.0.0.0

import requests

import fake_useragent

ua = fake_useragent.UserAgent()

ua_fake = ua.chrome

url = 'https://www.jianshu.com/'

headers = {

    #'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/124.0.0.0 Safari/537.36 Edg/124.0.0.0'

    'User-Agent':ua_fake

}


result = requests.get(url,headers = headers)

print(result.text)

会话维持

例如爬取简书的收藏的时候，如果不登陆就无法爬取，可以在headers里面增加cookie内容即可，但要注意的是cookie有对应的时间

import requests

import fake_useragent


ua = fake_useragent.UserAgent()

ua_fake = ua.chrome

url = 'https://www.jianshu.com/'


headers = {

    #'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/124.0.0.0 Safari/537.36 Edg/124.0.0.0'

    'User-Agent':ua_fake,

    'cookie':''

}


result = requests.get(url,headers = headers)

print(result.text)

代理

import requests

p = {
    'http':'120.41.143.139:21037',
    'https':'120.41.143.139:21037',
}

url = 'https://www.jianshu.com/'

headers = {

    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/124.0.0.0 Safari/537.36 Edg/124.0.0.0'

}

result = requests.get(url,headers = headers,proxies=p)

print(result.text)

注意的是这里的ip无效,后面继续展开

五、正则表达式

1.正则表达式是对字符串操作的一种逻辑公式，就是用事先定义好的一些特殊字符以及这些特殊字符的组合，组成一个“规则字符串”，这个“规则字符串”用来表达对字符串的一种逻辑过滤

2.非Python独有

3.Python里面是使用re模块来实现的，不需要额外进行安装，是内置模块

常见匹配模式

re.match()方法的使用

import re



#content = 'Hello 123 456789 World_This is a Regex Demo'



#re.match('正则表达式','目标字符串')

#result = re.match('Hello\s\d\d\d\s\d{6}\s\w{10}',content)

#print(result.group())



#result = re.match('H.*Demo',content)



#result = re.match('Hello\s(\d{3})\s(\d{6})',content)

#print(result.group(1))  #这里0表示最先出现的括号，1表示第二次出现的括号

#print(result.group(1,2))    #这是一个元组，后面处理较麻烦



#content = 'Hello 123456789 World_This is a Regex Demo'

#result = re.match('He.*(\d+).*Demo',content)

#因为贪婪模式的存在，在He之后，Demo之前至少有一个数字字符，即9

#print(result.group(1)) #打印的为9



#加上？后，即为非贪婪

#result = re.match('He.*?(\d+).*Demo',content)

#print(result.group(1))



#content = """Hello 123456789

#World_This

# is a Regex

#  Demo"""

#result = re.match('He.*?(\d+).*Demo',content,re.S)#re.S忽略换行符

#print(result.group())



#\转义符,如果对\转义，则需要两个\\，也可以直接写r,再接一个\

#content = 'price is $9.99'

#result = re.match('price\sis\s\$9.99',content) #$这个在正则表达式有自己的含义

#print(result.group())

search方法

search全文检索，返回满足表达式的第一个

#result = re.search('<a\s\href="/3.mp3"\ssinger="(.*)">(.*)</a>',html)

#print(result.group(1))

Findall方法

用一个大列表返回满足所有的正则表达式结果

#result = re.findall('<a\s\href="(.*)"\ssinger="(.*)">(.*)</a>',html)

#for i in result:

#   print(i)

Re.sub()

#re.sub('要替换的目标的正则表达式','想要将前面匹配到的数据替换成什么','目标字符串')

#sub_html = re.sub('<i.*</i>','',html)

#result = re.findall('<a\s\href="(.*)"\ssinger="(.*)">(.*)</a>',sub_html)

#for i in result:

#   print(i)