《零基础入门学习Python》第056讲:论一只爬虫的自我修养4:网络爬图

news2024/11/26 4:42:59

今天我们结合前面学习的知识,进行一个实例,从网络上下载图片,话说我们平时闲来无事会上煎蛋网看看新鲜事,那么,熟悉煎蛋网的朋友一定知道,这里有一个 随手拍 的栏目,我们今天就来写一个爬虫,自动抓取每天更新的 随手拍。

要写爬虫,首先要做的第一件事就是踩点,主动发现网页之间的规律,还有图片链接之间有什么规律,例如说,该网站的链接形式为:http://jandan.net/ooxx/page-‘页码数’#comments,(页码数应该小于等于当天的页码数(即目前最大页码数)),

1.那我们怎样获取目前最大的页码数呢(最新页码),我们在页码[77]这个位置点击右键,审查元素,看到了:<span class="current-comment-page">[77]</span>

我们完全可以通过搜索 current-comment-page 在后面偏移 3 位就可以得到 77 这个最新的页面,因为你不能去输入一个具体的数字,因为这里的数字每天都会改变。

2.我们在图片的位置点击右键,审查元素,发现了图片的地址,都是来自于新浪,然后都在 img 标签里,我们就可以使用 img src 作为关键词来进行查找,搜索到了图片的地址就可以参照我们之前下载一只猫的例子了。把下面图片的地址用 urlopen() 打开,然后将其 save 到一个文件里去(二进制),就可以了。

<img src="http://ww3.sinaimg.cn/mw600/006XNEY7gy1fy62ba9d6cj30u00u0x6p.jpg" style="max-width: 480px; max-height: 750px;">

我们弄清楚了以上几点,就可以开始写我们的爬虫程序啦.....

(我们抓取前10页的图片,保存到指定的本地文件夹中)

下面是老师讲的代码:

 
  1. #从煎蛋网的随手拍栏目下载图片

  2. import urllib.request

  3. import os

  4. import random

  5. def url_open(url):

  6. req = urllib.request.Request(url)

  7. req.add_header('User-Agent', 'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.65 Safari/537.36')

  8. #使用代理(就加入下面五行)

  9. #proxies = ['119.6.144.70:81', '111.1.36.9:80', '203.144.144.162:8080']

  10. #proxy = random.choice(proxies)

  11. #proxy_support = urllib.request.ProxyHandler({'http':proxy})

  12. #opener = urllib.request.build_opener(proxy_support)

  13. #urllib.request.install_opener(opener)

  14. response = urllib.request.urlopen(url)

  15. html = response.read()

  16. return html

  17. def get_page(url): #得到最新页面的页码数

  18. html = url_open(url)

  19. html = html.decode('utf-8') #因为要以字符串的形式查找,所以要 decode

  20. #然后就是查找 html 中的 'current-comment-page'

  21. a = html.find( 'current-comment-page') + 23 #加上 23 位偏移就刚到到页码数的第一位数字

  22. b = html.find(']', a) #找到 a 位置之后的第一个方括号所在位置的索引坐标

  23. return html[a : b] #这就是最新的页码数啦

  24. def find_imgs(url): #给一个页面的链接,返回所有图片地址组成的列表

  25. html = url_open(url).decode('utf-8')

  26. img_addrs = [] #声明一个保存图片地址的列表

  27. #查找图片地址

  28. a = html.find('img src=')

  29. while a != -1:

  30. b = html.find('.jpg', a, a+255) #在 a 到 a+255 区间找 '.jpg',防止有不是 '.jpg' 格式的图片

  31. #如果 b 找不到,b 就返回 -1

  32. if b != -1:

  33. img_addrs.append(html[a+9: b+4])

  34. else:

  35. b = a + 9

  36. a = html.find('img src=', b)

  37. return img_addrs

  38. def save_imgs(folder, img_addrs):

  39. for each in img_addrs:

  40. filename = each.split('/')[-1]

  41. with open(filename, 'wb') as f:

  42. img = url_open(each)

  43. f.write(img)

  44. def download_figures(folder = 'figures', page = 10):

  45. os.mkdir(folder) #创建文件夹

  46. os.chdir(folder)

  47. url = "http://jandan.net/ooxx/" #随手拍栏目的链接,也是最新页面的链接

  48. page_num = int(get_page(url)) #得到最新页面的页码数

  49. for i in range(page):

  50. page_url = url + 'page-' + str(page_num) + '#comments' #得到要爬取的页面的链接

  51. print(page_url)

  52. img_addrs = find_imgs(page_url) #得到页面所有图片的地址,保存为列表

  53. save_imgs(folder, img_addrs) #保存图片到本地文件夹

  54. page_num -= 1 #逐步找到前几个页面

  55. if __name__ == '__main__':

  56. download_figures()

但是现在,煎蛋网用这段代码是无法实现的了,主要问题在于 没有办法爬取到 .jpg,这是因为这个网站已经被加密了。

怎样判断一个网站被加密了,就是

使用urllib.urlopen导出html文本和审查元素中相应字段对不上。

以后你会发现对不上是常态,一般是JS加密的  可以说大一点的网站这些信息都会对不上。

那怎么解决呢?

目前我只用的一种方法就是:使用selenium爬取js加密的网页

需要详细讲解的可以查看:python使用selenium爬取js加密的网页

所以呢,我的代码就是下面这样子了:

 
  1. #从加密的煎蛋网的随手拍栏目下载图片

  2. import os

  3. from selenium import webdriver

  4. import urllib.request

  5. def url_open(url): #返回普通不加密网页的源码(速度快)

  6. req = urllib.request.Request(url)

  7. req.add_header('User-Agent', 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36')

  8. response = urllib.request.urlopen(url)

  9. html = response.read()

  10. return html

  11. def url_open_jm(url): #返回加密网页的源码(速度慢)

  12. chrome = webdriver.Chrome()

  13. chrome.get(url)

  14. html = chrome.page_source

  15. return html #返回的就是字符串

  16. '''

  17. def get_page(url): #得到最新页面的页码数(可以使用不加密读码得到,为了加快速度)

  18. html = url_open(url)

  19. #然后就是查找 html 中的 'current-comment-page'

  20. a = html.find( 'current-comment-page') + 23 #加上 23 位偏移就刚到到页码数的第一位数字

  21. b = html.find(']', a) #找到 a 位置之后的第一个方括号所在位置的索引坐标

  22. return html[a : b] #这就是最新的页码数啦

  23. '''

  24. def get_page(url): #得到最新页面的页码数

  25. html = url_open(url)

  26. html = html.decode('utf-8') #因为要以字符串的形式查找,所以要 decode

  27. #然后就是查找 html 中的 'current-comment-page'

  28. a = html.find( 'current-comment-page') + 23 #加上 23 位偏移就刚到到页码数的第一位数字

  29. b = html.find(']', a) #找到 a 位置之后的第一个方括号所在位置的索引坐标

  30. return html[a : b] #这就是最新的页码数啦

  31. def find_imgs(url): #给一个页面的链接,返回所有图片地址组成的列表

  32. html = url_open_jm(url) #这个必须使用加密打开的方式

  33. img_addrs = [] #声明一个保存图片地址的列表

  34. #查找图片地址

  35. #加密的网页破解后得到的图像在这里:

  36. #<img src="http://ww3.sinaimg.cn/mw600/006XNEY7gy1fy66dacugfj30qh0zkdhu.jpg"

  37. #所以要先找jpg,然后找img src=

  38. a = html.find('.jpg')

  39. while a != -1:

  40. b = html.rfind('img src=', a-100, a) #在 a-100 到 a区间找 'img src=',必须反向查找

  41. #如果 b 找不到,b 就返回 -1

  42. if b != -1:

  43. img_addrs.append(html[b+9: a+4])

  44. a = html.find('.jpg', a+4)

  45. for each in img_addrs:

  46. print(each)

  47. return img_addrs

  48. def save_imgs(folder, img_addrs):

  49. for each in img_addrs:

  50. filename = each.split('/')[-1]

  51. with open(filename, 'wb') as f:

  52. img = url_open(each)

  53. f.write(img)

  54. def download_figures(folder = 'figures', page = 2):

  55. os.mkdir(folder) #创建文件夹

  56. os.chdir(folder)

  57. url = "http://jandan.net/ooxx/" #随手拍栏目的链接,也是最新页面的链接

  58. page_num = int(get_page(url)) #得到最新页面的页码数

  59. for i in range(page):

  60. page_url = url + 'page-' + str(page_num) + '#comments' #得到要爬取的页面的链接

  61. print(page_url)

  62. img_addrs = find_imgs(page_url) #得到页面所有图片的地址,保存为列表

  63. save_imgs(folder, img_addrs) #保存图片到本地文件夹

  64. page_num -= 1 #逐步找到前几个页面

  65. if __name__ == '__main__':

  66. download_figures()

完美实现目标,只不过selenium 的速度是真的慢,以后如果有更好的办法,会继续改进的,也希望大家多多批评指导。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/780727.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

实验三 贪心算法

实验三 贪心算法 迪杰斯特拉的贪心算法实现 优先队列等 1.实验目的 1、掌握贪心算法的基本要素 &#xff1a;最优子结构性质和贪心选择性质 2、应用优先队列求单源顶点的最短路径Dijkstra算法&#xff0c;掌握贪心算法。 2.实验环境 Java 3.问题描述 给定带权有向图G (V…

前端对后端路径的下载//流文件下载

1.前端对后端路径的下载 2.流文件下载

25 MFC 数据库

文章目录 导入ADO库 导入ADO库 #import "C:\Program Files\Common Files\System\ado\msado15.dll" no_namespace rename("EOF","rsEOF")void CADODlg::OnBnClickedBtnQuery() {//导入ADO库::CoInitialize(NULL);//初始化COM库_ConnectionPtr pCo…

OpenCv之人脸操作

目录 一、马赛克实现 二、人脸马赛克 三、人脸检测 四、多张人脸检测 一、马赛克实现 案例代码如下: import cv2 import numpy as npimg cv2.imread(8.jpg) # 马赛克方式一:缩小图片 # img2 cv2.resize(img,(600,400)) # # 马赛克方式二: # img2 cv2.resize(img,(600,4…

《中国算力服务研究报告(2023年)》发布在即

2023年&#xff0c;中共中央 国务院印发《数字中国建设整体布局规划》&#xff0c;强调“系统优化算力基础设施布局&#xff0c;促进东西部算力高效互补和协同联动。”算力服务涵盖支撑东西部算力高效联通的关键技术&#xff0c;在国家政策引导下&#xff0c;我国算力服务产业发…

SpringCloudAlibaba微服务实战系列(一)Nacos服务注册发现

SpringCloudAlibaba微服务实战系列&#xff08;一&#xff09;Nacos服务注册发现 实战前先做一个背景了解。 单体架构、SOA和微服务 单体架构&#xff1a;近几年技术的飞速发展&#xff0c;各种各样的服务已经进入到网络化。单体架构发布时只需要打成一个war或jar包发布即可&a…

动态内存管理基础详解

目录 1、为什么存在动态内存分配 2、动态内存函数的介绍 2.1 malloc和free 功能&#xff1a; 参数和返回值&#xff1a; 注意事项&#xff1a; tip: 2.2 calloc 2.3 realloc函数 功能&#xff1a; 参数和返回值&#xff1a; realloc开辟空间的两种情况 realloc会顺…

SAR合成孔径雷达中几何术语定义

《合成孔径雷达成像算法与实现》 术语定义 目标 波束覆盖区 星下点 雷达轨迹 速度 方位向 零多普勒面 最短距离 最近位置 零多普勒时刻 波束宽度 目标轨迹 信号空间和图像空间 距离 斜距平面 地距 斜视角 距离横向 目标 是被SAR照射的地球表面上的一…

内存的五大分区(自用水文)

1、堆区&#xff08;heap&#xff09;——由程序员分配和释放&#xff0c; 若程序员不释放&#xff0c;程序结束时一般由操作系统回收。注意它与数据结构中的堆是两回事 2、栈区&#xff08;stack&#xff09;——由编译器自动分配释放 &#xff0c;存放函数的参数值&#xff0…

SpringMVC及注解介绍(一)

目录 1.什么是 Spring MVC&#xff1f; 2.创建一个SpringMVC项目 3.MVC定义 4.MVC和SpringMVC的关系 5.如何学SpringMVC 6.SpringMVC注解介绍 1.RequestMapping 2.ResponseBody 3.RestController Controller ResponseBody 4.更换五大注解 5.RequestMapping 是 post…

整车总线系列——FlexRay 五

整车总线系列——FlexRay 五 我是穿拖鞋的汉子&#xff0c;魔都中坚持长期主义的汽车电子工程师。 老规矩&#xff0c;分享一段喜欢的文字&#xff0c;避免自己成为高知识低文化的工程师&#xff1a; 没有人关注你。也无需有人关注你。你必须承认自己的价值&#xff0c;你不能…

【NumPy 简单入门学习】

NumPy 简单入门学习 提示&#xff1a;仅记录需要记忆的知识点和不易理解的知识点 文章目录 NumPy 简单入门学习前言一、创建数组二、多维数组切片1.切片的多种形式2.数组的数学运算3.布尔屏蔽4.Where 函数 总结 前言 提示&#xff1a;这里可以添加本文要记录的大概内容&#x…

【问题记录】Ubuntu 22.04 环境下,打开 VS Code 老是访问密钥环该怎么解决?

目录 环境 问题情况 解决方法 环境 VMware Workstation 16 Pro &#xff08;版本&#xff1a;16.1.2 build-17966106&#xff09;ubuntu-22.04.2-desktop-amd64 问题情况 在Ubuntu下&#xff0c;每次运行 VS Code时&#xff0c;老是提示要输入密钥密码来解锁保存在密钥环&am…

POSTGRESQL 子事务的问题与注意事项

开头还是介绍一下群&#xff0c;如果感兴趣polardb ,mongodb ,mysql ,postgresql ,redis 等有问题&#xff0c;有需求都可以加群群内有各大数据库行业大咖&#xff0c;CTO&#xff0c;可以解决你的问题。加群请联系 liuaustin3 &#xff0c;在新加的朋友会分到2群&#xff08;共…

使用conda pack进行环境迁移

起因 起因是训练服务器为了安全期间&#xff0c;限制不能联网。而且想连接A100显卡的训练服务器必须通过堡垒机方可连接&#xff08;即目标服务器既不能联网&#xff0c;也与本机不在同一个网段&#xff09; 安装工具 首先&#xff0c;使用 conda env list 查看所有环境&…

Data与Java8中的LocalDate相互转换

一、前言 Date这个类在java.util包中&#xff0c;始于jdk1.0。后来在jdk1.8时&#xff0c;针对日期类进行了一个大的更新&#xff0c;专门新建了java.time包&#xff0c;新的日期类LocalDateTime就在这个包中。 日常工作中&#xff0c;很容易碰到旧日期类Date&#xff0c;与新…

回归预测 | MATLAB实现TCN-GRU时间卷积门控循环单元多输入单输出回归预测

回归预测 | MATLAB实现TCN-LSTM时间卷积长短期记忆神经网络多输入单输出回归预测 目录 回归预测 | MATLAB实现TCN-LSTM时间卷积长短期记忆神经网络多输入单输出回归预测预测效果基本介绍模型描述程序设计参考资料 预测效果 基本介绍 1.Matlab实现TCN-GRU时间卷积门控循环单元多…

C语言数据在内存中的存储

目录 前言 本期内容介绍 一、数据类型的介绍 1.1类型的意义&#xff1a; 1.2C语言中是否有字符串类型&#xff1f; 1.3类型的基本归类 整型家族&#xff1a; 浮点型&#xff08;实型&#xff09;家族&#xff1a; 构造&#xff08;自定义&#xff09;类型&#xff1a;…

通过 CSS 的样式实现语音发送动效类似声音震动的效果

实现效果&#xff1a;一般用于发送语音的时候&#xff0c;出现动画效果 //模版部分 <view class"musical-scale"><view class"scale"><view class"em" v-for"(item,index) in 15" :key"index"></view…

记录这这段时间发生的事情。

当做后端的时候总是被骂做前很丑。成为一个UI设计师与后端工程师才会更加完美。 尝试着做一个主页面。 创建了一个主页面 的表格index。 收录了希望发送到主页的&#xff0c;的帖子。 并且&#xff0c;可以填写是否可以。 一个看起来不错的主页。 标题设计的左右框。 这种框…