requests爬虫

news2024/11/17 12:53:11

目录

一、爬虫概念及分类

二、requests模块

1、网页地址内容获取

2、图片爬取

3、UA伪装

三、动态加载数据


一、爬虫概念及分类

爬虫: 通过编写代码,让其模拟浏览器上网,然后在互联网中抓取数据的过程

分类:1、通用爬虫:要求我们爬取一整张页面源码数据;

2、聚焦爬虫:要求爬取一张页面中的局部数据;

3、增量式爬虫:用来监测网站数据更新的情况,以便爬取到网站最新出来的数据

4、分布式爬虫:提高爬取效率的终极武器

二、requests模块

概念:爬虫中一个基于网络请求的模块

作用:模拟浏览器发起请求

1、网页地址内容获取

编码流程进行代码编写:1、指定url;2、发起请求;3、获取响应数据(爬取到页面的源码数据);4、持久化存储

#基础用法
import requests
#1、指定url
url='https://cn.bing.com/?scope=web&FORM=HDRSC1'
#2、发起请求get方法的返回值为相应对象
response=requests.get(url=url)
#3、获取响应数据
page_text=response.text
#4、持久化存储
with open('./bing.html','w',encoding='utf-8') as fp:
    fp.write(page_text)

2、图片爬取

#批量数据爬取  将每一张图片的地址解析出来,然后对图片地址发起请求即可
import re
import os
filepath='F:\爬虫\Imgs'
touxiang_url='https://www.woyaogexing.com/touxiang/katong/2023/1283447.html'
#requests获取地址内容
page_text=requests.get(url=touxiang_url).text
#从当前源码数据中解析出图片地址
#使用正则表达式
pattern='<li class="tx-img">.*?<img class="lazy" src="(.*?)" width=.*?</li>'
img_src_list=re.findall(pattern,page_text,re.S)
#添加‘https’获取图片地址
for src in img_src_list:
    print('获取图片地址:',src)
    #重新获取图片地址
    src='https:'+src
    #根据地址进行图片下载
    img_content=requests.get(url=src).content
    imgPath=filepath+'/'+src.split('/')[-1]
    with open(imgPath,'wb') as fp:
        fp.write(img_content)

获取图片地址: //img2.woyaogexing.com/2023/05/08/005aa3924cab87452818ef5f4a3232da.jpg
获取图片地址: //img2.woyaogexing.com/2023/05/08/22e68d0eae12c58387de3a4ab1534590.jpg
获取图片地址: //img2.woyaogexing.com/2023/05/08/12ca38f204b200f8729a0979d06759f0.jpg
获取图片地址: //img2.woyaogexing.com/2023/05/08/d5afe7d88c6edbc1d06c48076f89aa9a.jpg
获取图片地址: //img2.woyaogexing.com/2023/05/08/ef415265e4a51ad4052cac3bfa8e996f.jpg
获取图片地址: //img2.woyaogexing.com/2023/05/08/af0fbf087afcc3fa12c8fc2aa7dcac0a.jpg

3、UA伪装

异常访问请求:网站后台已经检测出该次请求不是通过浏览器而是通过爬虫程序发起

UA伪装:从抓包工具中获取某个基于浏览器请求的User-Agent值,存储在hearders参数中。在日后写爬虫程序中都默认带上UA检测操作

#图片爬取
import requests
import urllib
headers={
    'User-Agent':'XXXXX'
        }
img_url='https://img1.baidu.com/it/u=413643897,2296924942&fm=253&fmt=auto&app=138&f=JPEG?w=800&h=500'
#requests 获取
response=requests.get(url=img_url,headers=headers)
img_data=response.content  #二进制的相应数据
with open('1.jpg','wb') as fp:
    fp.write(img_data)

三、动态加载数据

1、概念:有些数据是通过非浏览器地址栏中的url请求到的数据,而是其他请求请求到的数据,那么这些通过其他请求请求到的数据就是动态加载的数据

2、如果检测是否为动态加载数据?

在当前网页中打开抓包工具,捕获到地址栏的url对应的数据包,在该数据包的response选项卡搜索想要爬取的数据,如果搜索到了结果则表示数据不是动态加载的,否则表示数据为动态加载的

3、捕捉动态加载的数据(最重要的就是知道动态数据是怎么加载进去的,地址是多少,然后使用拼接得到网页完整地址)

定位到动态加载数据对应的数据包,从该数据包中就可以提取出(1)请求的url;(2)请求方式;(3)请求携带的参数;(4)看到响应数据

import requests
headers={
    'User-Agent':'XXXXX'
        }
img_url='https://movie.douban.com/review/best/'
#requests 获取
response=requests.get(url=img_url,headers=headers)
response.encoding='utf-8'
page_text=response.text
#使用正则表达式 去获取动态加载过程中网页的地址
pattern='<div data-cid="(.*?)">.*?</div>'
lag_src_list=re.findall(pattern,page_text,re.S)
#地址加载
for i in lag_src_list:
    lag_address='https://movie.douban.com/j/review/'+i+'/full'
    print('动态加载地址',lag_address)
    #数据爬取
    lag_text=requests.get(url=lag_address,headers=headers).text
    lagPath=filepath+'/'+i+'.html'
    with open(lagPath,'w',encoding='utf-8') as fp:
        fp.write(lag_text)

动态加载地址: https://movie.douban.com/j/review/15181845/full
动态加载地址: https://movie.douban.com/j/review/15181838/full
动态加载地址: https://movie.douban.com/j/review/15183915/full
动态加载地址: https://movie.douban.com/j/review/15187137/full
动态加载地址: https://movie.douban.com/j/review/15185698/full
动态加载地址: https://movie.douban.com/j/review/15180267/full
动态加载地址: https://movie.douban.com/j/review/15186857/full
动态加载地址: https://movie.douban.com/j/review/15186999/full
动态加载地址: https://movie.douban.com/j/review/15184854/full

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/554965.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Linux: ARM32各CPU模式下栈配置

文章目录 1. 前言2. 背景3. ARM32 中断向量表 和 中断处理流程3.1 ARM32 中断向量表3.2 ARM32 中断处理流程 4. ARM32 各CPU模式下的栈配置4.1 SVC模式下各CPU栈配置(内核栈配置)4.1.1 BOOT CPU SVC模式栈配置(内核栈配置)4.1.2 非 BOOT CPU SVC模式栈配置(内核栈配置) 4.2 中断…

实现快速多点触控,让App自动化测试操作更方便

目录 前言&#xff1a; PyAutoGUI简介&#xff1a; 代码示例&#xff1a; 总结&#xff1a; 前言&#xff1a; 随着智能设备的普及&#xff0c;触摸点的数量和触摸操作的复杂度也在不断增加。要想在触控界面上获得更高效率和更好的体验&#xff0c;多点触控操作是必不可少的…

历经70+场面试,我发现了大厂面试的套路都是···

今年的金三银四刚刚过去&#xff0c;我又想起了我在去年春招时面试了50余家&#xff0c;加上暑期实习面试了20余家&#xff0c;加起来也面试了70余场的面试场景了。 基本把国内有名的互联网公司都面了一遍&#xff0c;不敢说自己的面试经验很丰富&#xff0c;但也是不差的。 …

【JAVAEE】认识网络及网络通信

目录 1.网络发展史 1.1独立模式 1.2网络互连 1.2.1局域网 1.2.2广域网 2.网络通信基础 2.1IP地址 2.2端口号 2.3协议 2.4五元组 2.5协议分层 2.5.1什么是协议分层 2.5.2协议分层的作用 2.5.3TCP/IP五层&#xff08;或四层&#xff09;模型 3.封装和分用 1.网络发…

调用百度API自动生成春联

目录 1、作者介绍2、百度智能春联介绍录2.1 功能介绍2.2 技术特色 3、智能春联API接口介绍3.1 请求参数3.2 返回参数 4. 操作流程5. 代码实现 1、作者介绍 范宇帅&#xff0c;男&#xff0c;西安工程大学电子信息学院&#xff0c;2022级研究生 研究方向&#xff1a;多机器人协…

〖C++11〗线程库详解

「前言」文章是关于C11线程库相关的 「归属专栏」C嘎嘎 「笔者」枫叶先生(fy) 「座右铭」前行路上修真我 「枫叶先生有点文青病」 「每篇一句」 请不要把陌生人的些许善意&#xff0c; 视为珍稀的瑰宝&#xff0c; 却把身边亲近人的全部付出&#xff0c; 当做天经地义的事情&am…

比赛记录:Codeforces Round 874 (Div. 3) A~G

传送门:CF 前题提要:赛时A出了5道题,并且都是一遍过的,F题也已经找到了解决方法,但是没时间完成了.以为应该能上分,但是没想到赛后E题被hack掉了…绝了.然后打完这场 d i v 3 div3 div3后立马阳了,加上一大堆烦心事(包括但不限于各类考试).就导致现在才写出这篇题解. A题:A. …

移动机器人 | 火星探矿机器人

01、需求分析 “火星探矿机器人”旨在要开发若干个自主机器人&#xff0c;将其送到火星上去搜寻和采集火星上的矿产资源。 火星环境对于开发者和自主机器人而言事先不可知&#xff0c;但是可以想象火星表面会有多样化的地形情况&#xff0c;如河流、巨石、凹坑等&#xff0c;机…

公司从字节招来一个28K的测试工程师,让我见识到了什么才是真正的测试天花板

今天上班开早会就是新人见面仪式&#xff0c;听说来了个很厉害的大佬&#xff0c;年纪还不大&#xff0c;是上家公司离职过来的&#xff0c;薪资已经达到中高等水平&#xff0c;很多人都好奇不已&#xff0c;能拿到这个薪资应该人不简单&#xff0c;果然&#xff0c;自我介绍的…

队列——“数据结构与算法”

各位CSDN的uu们你们好呀&#xff0c;又好久不见啦&#xff0c;最近有点摆烂&#xff0c;甚是惭愧&#xff01;&#xff01;&#xff01;&#xff01;今天&#xff0c;小雅兰的内容是队列&#xff0c;下面&#xff0c;让我们进入队列的世界吧&#xff01;&#xff01;&#xff0…

Trigger +Pipeline 完整实战案例

2.4.1 案例环境说明 示例项目&#xff1a;http://code.icloud2native.com/root/spring-boot-helloWorld.git 触发机制: 用户推送代码至项目仓库由Push Hook 自东触发pipeline的流水线的执行 2.4.2 项目实现 1、在k8s上部署一个gitlab&#xff0c;前面上节已经完成。 2、运…

海睿思分享 | 类chatgpt模型在信息抽取领域的应用

大语言模型&#xff08;LLM&#xff0c;Large Language Model&#xff09;是指能够处理海量数据、拥有百亿级参数的深度学习模型&#xff0c;它已成为⼈⼯智能领域中的新热点。2022 年 11 ⽉ 30 号 ChatGPT 发布&#xff0c;其卓越的性能表现给整个⾏业带来了巨⼤的冲击。⼈们不…

2023年春季期末网球理论复习资料

&#xff08;含2023/2022/2021时事题&#xff0c;基于2012年期末网球理论复习资料修改&#xff09; 目录 网球的起源 网球的主要赛事 三大网球协会 大满贯 网球的场地 1. 球场线 2. 网球的球网 3.场地的类型 网球的规则 1.发球规则 2.计分方法 3.通则 4.赛…

在Octane中提升渲染速度的技巧(第1部分)

Mike Griggs是一位数字内容创建者&#xff0c;在为众多客户创建Mograph&#xff0c;VFX和CGI方面拥有超过二十年的经验。迈克格里格斯&#xff08;Mike Griggs&#xff09;在Creative Bloq上写了很多博客&#xff0c;该博客是国际媒体集团和领先的数字出版商Future plc的一部分…

手势识别q

本文介绍使用光电传感器的手势识别。 光电传感器手势识别区别于视觉手势识别&#xff0c;没有复杂的算法。LED发射光&#xff0c;当光线接触到手发生反射&#xff0c;反射光被传感器检测到&#xff0c;传感器检测到不同的手势反射的光不同&#xff0c;再根据芯片的内置算法判别…

【笔试强训编程题】Day5.( 统计回文 45842 ) 和( 连续最大和 58539)

作者简介&#xff1a;大家好&#xff0c;我是未央&#xff1b; 博客首页&#xff1a;未央.303 系列专栏&#xff1a;笔试强训编程题 每日一句&#xff1a;人的一生&#xff0c;可以有所作为的时机只有一次&#xff0c;那就是现在&#xff01;&#xff01;&#xff01;! 文章目录…

【嵌入式烧录/刷写文件】-2.5-Fill填充Intel Hex文件

案例背景(共8页精讲)&#xff1a;该篇将告诉你&#xff0c;如何对一个Hex文件进行填充&#xff1a; 对“起始地址”和“结束地址”内的非连续的Block块&#xff0c;进行填充&#xff1b;自定义填充范围。 目录 1 为什么要“Fill填充” 2 使用Vector HexView工具“填充”Hex…

【Linux0.11代码分析】09 之 ELF可执行程序02 - Section Headers解析

【Linux0.11代码分析】09 之 ELF可执行程序02 - Section Headers解析 一、ELF概述二、ELF的组成结构2.1 ELF header&#xff1a;解析出 section headers 含31个section节和 program headers 含13个segment段2.2 Section Headers&#xff1a;获取当前程序的31个section节区信息2…

18-03 MySQL高可用方案与选择

主从复制 读写分离 流程 原理 bin log STATEMENT 优点&#xff1a;记录的是执行的SQL,比较省空间&#xff0c;降低了主从复制时的IO开销缺点&#xff1a;由于记录的是SQL&#xff0c;所以MySQL多个节点之间复制的时候&#xff0c;特定场景下会导致数据不一致的情况 ROW 优点…

【多线程进阶二】JUC工具类 线程安全的集合类 死锁

目录 一、JUC工具类 &#x1f345;1、Callable接口 &#x1f345;2、ReentrantLock &#x1f345;3、原子类 &#x1f345;4、Semaphore信号量 &#x1f345;5、CountDownLatch 二、线程安全的集合类 ​&#x1f345;1、多线程环境下&#xff0c;怎么使用线程安全…