[python爬虫] 爬取图片无法打开或已损坏的简单探讨

news2024/9/22 19:27:19

本文主要针对python使用urlretrieve或urlopen下载百度、搜狗、googto(谷歌镜像)等图片时,出现"无法打开图片或已损坏"的问题,作者对它进行简单的探讨。同时,作者将进一步帮你巩固selenium自动化操作和urllib库等知识。

一. 引入Selenium自动爬取百度图片

        下面这部分Selenium代码的主要功能是:
            1.先自动运行浏览器,并访问百度图片链接:百度图片-发现多彩世界
            2.通过driver.find_element_by_xpath()函数获取输入框的位置;
            3.在输入框中自动输入搜索关键词"邓肯",再输入回车搜索"邓肯"相关图片;
            4.再通过find_element_by_xpath()获取图片的原图url,这里仅获取一张图片;
            5.调用urllib的urlretrieve()函数下载图片。
        最后整个动态效果如下图所示,但是图片却无法显示:


        代码如下: 

# -*- coding: utf-8 -*-
importurllib  
importre  
importtime  
importos  
fromselenium import webdriver            
fromwebdriver.common.keys importKeys   
importwebdriver.support.ui as ui  
fromwebdriver.common.action_chains importActionChains           

#Open PhantomJS
#driver = webdriver.PhantomJS(executable_path="G:\phantomjs-1.9.1-windows\phantomjs.exe")  
driver = webdriver.Firefox()   
wait = ui.WebDriverWait(driver,10)  

#Search Picture By Baidu
url = "http://image.baidu.com/"
name = u"邓肯"
get(url)  
elem_inp = driver.find_element_by_xpath("//form[@id='homeSearchForm']/span[1]/input")    
send_keys(name)    
send_keys(Keys.RETURN)  
sleep(5)  

#Get the URL of Pictures
#elem_pic = driver.find_element_by_xpath("//div[@class='imgpage']/ul/li/div/a")
elem_pic = driver.find_element_by_xpath("//div[@class='imgpage']/ul/li/div/a/img")  
elem_url = elem_pic.get_attribute("src")  
printelem_url  

#Download Pictures
get(elem_url)  
urlretrieve(elem_url,"picture.jpg")  
print"Download Pictures!!!"

二. 简单分析原因及知识巩固

       1.urllib.urlretrieve()
       通过urlretrieve()函数可设置下载进度发现图片是一下子就加载的。这里给大家巩固这个urlretrieve函数的方法和Python时间命名方式,代码如下:

# -*- coding: utf-8 -*-
importurllib  
importtime  
importos  

#显示下载进度
defschedule(a,b,c):  
#a:已下载的数据块 b:数据块的大小 c:远程文件的大小  
per = 100.0 * a * b / c  
ifper > 100 :  
per = 100  
print'%.2f%%' % per  

if__name__ == '__main__':  
url = "http://img4.imgtn.bdimg.com/it/u=3459898135,859507693&fm=11&gp=0.jpg"
#定义文件名时间命名  
t = time.localtime(time.time())  
#反斜杠连接多行
filename = str(t.__getattribute__("tm_year")) + "_"+ \  
str(t.__getattribute__("tm_mon")) + "_"+ \  
str(t.__getattribute__("tm_mday"))  
target = "%s.jpg"% filename  
printtarget  
urlretrieve(url,target,schedule)  
print"Download Picture!!!"  

        发现该图片的大小仅为168字节,其中输出结果如下图,获取的URL地址如下:
页面不存在_百度搜索 
而换张图片是能显示下载进度的,如我的头像。显然我想让程序加个进度就能爬取图片的想法失败。头像地址:https://avatar.csdn.net/F/8/5/1_eastmount.jpg

        猜测可能获取的百度URL不是原图地址,或者是个服务器设置了相应的拦截或加密。参考"Python爬虫抓取网页图片",函数相关介绍如下:

>>> help(urllib.urlretrieve)  
Help on function urlretrieve inmodule urllib:  
urlretrieve(url, filename=None, reporthook=None, data=None)  

参数url:
指定的下载路径  
参数finename:  
指定了保存本地路径(如果参数未指定,urllib会生成一个临时文件保存数据。)  
参数reporthook:  
是一个回调函数,当连接上服务器、以及相应的数据块传输完毕时会触发该回调,
我们可以利用这个回调函数来显示当前的下载进度。
参数data:
指post 到服务器的数据,该方法返回一个包含两个元素的(filename, headers)元组,  
filename 表示保存到本地的路径,header 表示服务器的响应头。

       2.urllib2.urlopen()
       换个方法urlopen()实现,同时设置消息头试试,并输出信息和图片大小。

# -*- coding: utf-8 -*-
importos        
importsys      
importurllib  
importurllib2  

#设置消息头
url = "http://img4.imgtn.bdimg.com/it/u=3459898135,859507693&fm=11&gp=0.jpg"
header = {  
'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) \  
AppleWebKit/537.36 (KHTML, like Gecko) \  
Chrome/35.0.1916.114 Safari/537.36',  
'Cookie': 'AspxAutoDetectCookieSupport=1'
}  
request = urllib2.Request(url, None, header)  
response = urllib2.urlopen(request)  
printheaders['Content-Length']  

with open("picture.jpg","wb") as f:  
write(response.read())  
printgeturl()  
printinfo()    #返回报文头信息
printurlopen(url).read()  

        返回内容是”HTTPError: HTTP Error 403: Forbidden“,Selenium打开如下:

 其中403错误介绍如下,服务器拒绝服务:

        换成我的博客图像那张图是能下载的,同时设置消息头和代理,推荐一篇文章:
        [Python]网络爬虫(五):urllib2的使用细节与抓站技巧


 

三. 解决方法

        主要参考三篇文章和自己的一些想法:
        selenium+python 爬取网络图片(2) -- 百度
        Python 3 多线程下载百度图片搜索结果
        CSDN博客搬家到WordPress  - curl设置headers爬取

        第一个方法 F12审查元素和SRC的骗局
        这是感谢"露为霜"同学提供的方法,如果你通过浏览器点开百度搜索"邓肯"的第一张图片,复制网址后,会发现图片真实的地址为:
        http://gb.cri.cn/mmsource/images/2015/11/22/sb2015112200073.jpg
        此时你再分析百度搜索页面,你会发现"F12审查元素和获取src元素的行为欺骗了你",正是因为它俩定位到了错误的图片链接。而真实的URL是在"ul/li/"中的"data-objurl"属性中。

        代码如下: 

# -*- coding: utf-8 -*-
importurllib  
importre  
importtime  
importos  
fromselenium import webdriver            
fromwebdriver.common.keys importKeys  
importwebdriver.support.ui as ui          
fromwebdriver.common.action_chains importActionChains  

#Open PhantomJS
#driver = webdriver.PhantomJS(executable_path="G:\phantomjs-1.9.1-windows\phantomjs.exe")  
driver = webdriver.Firefox()   
wait = ui.WebDriverWait(driver,10)  

#Search Picture By Baidu
url = "http://image.baidu.com/"
name = u"邓肯"
get(url)  
elem_inp = driver.find_element_by_xpath("//form[@id='homeSearchForm']/span[1]/input")    
send_keys(name)    
send_keys(Keys.RETURN)  
sleep(5)  

#Get the URL of Pictures
num = 1  
elem_pic = driver.find_elements_by_xpath("//div[@class='imgpage']/ul/li")  
forelem inelem_pic:  
elem_url = elem.get_attribute("data-objurl")  
printelem_url  
#Download Pictures
name = "%03d"% num  
urlretrieve(elem_url, str(name) + ".jpg")  
num = num + 1  
else:  
print"Download Pictures!!!"  

        运行代码成功爬取了9张图片,显然成功了!虽然最后报错:IOError: [Errno socket error] [Errno 10060] ,只爬取了9张图片,但是至少可以正确解决了该问题。运行截图如下所示:

        同样的道理,googto的elem.get_attribute("src")改成elem.get_attribute("data-imgurl")即可获取正确的图片地址并正确下载。
        PS:百度图片动态加载的功能是非常强大的,当你的鼠标拖动时,它会自动增加新的页面,在<ul>中包括新的一批<li>张图片,这也是不同于其它网页在右下角点击"1、2、3..."翻页的,可能也会成为海量图片爬取的又一难点。

        第二个方法 Selenium使用右键另存为
        还是使用老的链接,虽然读取是无法显示的,但尝试通过Selenium的鼠标右键另存为功能,看能不能爬取成功。

# -*- coding: utf-8 -*-
importurllib  
importre  
importtime  
importos  
fromselenium import webdriver            
fromwebdriver.common.keys importKeys  
importwebdriver.support.ui as ui          
fromwebdriver.common.action_chains importActionChains  

#Open PhantomJS 
driver = webdriver.Firefox()  
wait = ui.WebDriverWait(driver,10)  

#Search Picture By Baidu
url = "http://image.baidu.com/"
name = u"邓肯"
get(url)  
elem_inp = driver.find_element_by_xpath("//form[@id='homeSearchForm']/span[1]/input")    
send_keys(name)    
send_keys(Keys.RETURN)  
sleep(5)  

#Get the URL of Pictures
elem_pic = driver.find_element_by_xpath("//div[@class='imgpage']/ul/li/div/a/img")  
elem_url = elem_pic.get_attribute("src")  
printelem_url  

#鼠标移动至图片上右键保存图片
get(elem_url)  
printpage_source  
elem = driver.find_element_by_xpath("//img")  
action = ActionChains(driver).move_to_element(elem)  
context_click(elem) #右键

#当右键鼠标点击键盘光标向下则移动至右键菜单第一个选项
send_keys(Keys.ARROW_DOWN)  
send_keys('v') #另存为
perform()  
print"Download Pictures!!!"

        运行效果如下图所示。虽然它能实现右键另存为,但是需要手动点击保存,其原因是selenium无法操作操作系统级的对话框,又说"set profile"代码段的设置能解决问题的并不靠谱。通过钩子Hook函数可以实现,以前做过C#的钩子自动点击功能,但是想到下载图片需要弹出并点击无数次对话框就很蛋疼,所以该方法并不好!
        钩子函数java版本结合robot可以阅读下面这篇文章:
        selenium webdriver 右键另存为下载文件(结合robot and autoIt)


        第三个方法 通过Selenium自动点击百度的下载按钮
        其实现过程就是通过Selenium找到"下载"按钮,再点击或获取链接即可。
        该方法参考文章:selenium+python 爬取网络图片(2) -- 百度
        同时,这里需要强调百度动态加载,可以通过Selenium模拟滚动窗口实现,也参考上面文章。其中核心代码为:

        driver.maximize_window()
        pos += i*500   # 每次下滚500
        js = "document.documentElement.scrollTop=%d" % pos
        driver.execute_script(js)


       第四个方法 百度图片解码下载及线程实现
       参考文章:Python 3 多线程下载百度图片搜索结果

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/901585.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

csapp archlab PartC满分解答

任务 修改ncopy.ys和pipe-full.hcl以尽可能的提高ncopy.ys的运行速度 思路 pipe-full.hcl&#xff1a; 实现iaddq指令&#xff08;家庭作业4.54&#xff09;实现加载转发&#xff08;家庭作业4.57&#xff09; ncopy.ys&#xff1a; 使用循环展开&#xff08;第5.8节&…

Python将本地文件上传到百度网盘

Python将本地文件上传到百度网盘 前言相关介绍Python将本地文件上传到百度网盘下载相关依赖库获取授权打开链接复制授权码粘贴授权码到终端&#xff0c;并回车连接到百度网盘 上传文件文件同步上传文件夹下载文件夹 前言 由于本人水平有限&#xff0c;难免出现错漏&#xff0c;…

Golang文件操作详解

打开和关闭文件 从 Go 1.16 开始,现在提供了相同的功能 通过包 IO 或包操作系统,以及这些实现 应该在新代码中首选。 有关详细信息,请参阅特定函数文档。 弃用了"io/ioutil"对文件的操作 读取文件方法一(os.open+file.read只读形式): os.Open() 函数能够打开…

攻防世界-Web_python_template_injection

原题解题思路 一说到python的web我就想到flask框架&#xff0c;但从没用过flask注入。 从零学习flask模板注入&#xff0c;这篇文章有详细的介绍。 经过尝试很快就能发现使用{{}}就能注入&#xff0c;并且会回显报错信息&#xff0c;3的位置是{{}}中语句的执行结果。 找可用的引…

T113-S3-LAN8720A网口phy芯片调试

目录 前言 一、LAN8720A介绍 二、原理图连接 三、设备树配置 四、内核配置 五、调试问题 总结 前言 在嵌入式系统开发中&#xff0c;网络连接是至关重要的一部分。T113-S3开发板搭载了LAN8720A系列的网口PHY芯片&#xff0c;用于实现以太网连接。在开发过程中&#xff0c…

STC15单片机PM2.5空气质量检测仪

一、系统方案 本设计采用STC15单片机作为主控制器&#xff0c;PM2.5传感器、按键设置&#xff0c;液晶1602显示&#xff0c;蜂鸣器报警。 二、硬件设计 原理图如下&#xff1a; 三、单片机软件设计 1、首先是系统初始化&#xff1a; void lcd_init()//液晶初始化设置 { de…

C#程序变量统一管理例子 - 开源研究系列文章

今天讲讲关于C#应用程序中使用到的变量的统一管理的代码例子。 我们知道&#xff0c;在C#里使用变量&#xff0c;除了private私有变量外&#xff0c;程序中使用到的公共变量就需要进行统一的存放和管理。这里笔者使用到的公共变量管理库划分为&#xff1a;1)窗体&#xff1b;2)…

熔断降级的理解和基于feign的熔断降级

什么是熔断降级&#xff1a; 在微服务保护中我们使用sentinel进行了熔断降级&#xff0c;熔断降级时为了防止雪崩效应&#xff0c;什么是雪崩效应&#xff0c;因为微服务是一层调用一层的&#xff0c;如果下面某一个微服务宕机了&#xff0c;就会导致全部的微服务宕机&#xf…

【欧拉计划】3或5的倍数

题目链接&#xff1a;3或5的倍数 解法一&#xff1a;暴力枚举 C语言代码 #include<stdio.h> int main (){int sum 0;for(int i 0;i<1000;i){if(i%30 || i%50)sum i;}printf("%d\n",sum);return 0; } //运行结果&#xff1a;233168上面这个解法的时间复杂…

回归预测 | MATLAB实现CSO-BP布谷鸟优化算法优化BP神经网络多输入单输出回归预测(多指标,多图)

回归预测 | MATLAB实现CSO-BP布谷鸟优化算法优化BP神经网络多输入单输出回归预测&#xff08;多指标&#xff0c;多图&#xff09; 目录 回归预测 | MATLAB实现CSO-BP布谷鸟优化算法优化BP神经网络多输入单输出回归预测&#xff08;多指标&#xff0c;多图&#xff09;效果一览…

【BUG】Docker启动MySQL报错

个人主页&#xff1a;金鳞踏雨 个人简介&#xff1a;大家好&#xff0c;我是金鳞&#xff0c;一个初出茅庐的Java小白 目前状况&#xff1a;22届普通本科毕业生&#xff0c;几经波折了&#xff0c;现在任职于一家国内大型知名日化公司&#xff0c;从事Java开发工作 我的博客&am…

Java之继承详解二

3.7 方法重写 3.7.1 概念 方法重写 &#xff1a;子类中出现与父类一模一样的方法时&#xff08;返回值类型&#xff0c;方法名和参数列表都相同&#xff09;&#xff0c;会出现覆盖效果&#xff0c;也称为重写或者复写。声明不变&#xff0c;重新实现。 3.7.2 使用场景与案例…

基于STC15单片机-LM35-DS8B20温度测量-DS1302计时-proteus仿真-源程序

一、系统方案 本设计采用STC15单片机作为主控器。 DS18B20采集温度值送到液晶1602显示。 DS1302计时&#xff0c;日期送到液晶1602显示。 LM35采集另一路温度值送到数码管显示。 二、硬件设计 原理图如下&#xff1a; 三、单片机软件设计 1、首先是系统初始化 /IO初始化为…

Azure应用程序网关

文章目录 什么是应用程序网关实战演练创建虚拟网络创建虚拟机创建应用程序网关测试搭建结果 什么是应用程序网关 Azure应用程序网关是一种托管服务&#xff0c;用于提供安全、可缩放的 Web 应用程序前端点的应用程序传送控制和保护。它可以通过 SSL 终止、cookie 基于会话持久…

adb devices存在连接emulator-5554怎么办

执行adb kill-server 发现还是有5554这条数据&#xff0c;可以采用window杀死端口号的方法。 netstat -ano | findstr 5554 &#xff0c;去查看pid是什么 得到pid&#xff0c;杀死这个pid taskkill /f /pid xxx

项目——电子词典(客户端、服务器交互,字典导入,单词查询)

一、项目要求 登录注册功能&#xff0c;不能重复登录&#xff0c;重复注册单词查询功能历史记录功能&#xff0c;存储单词&#xff0c;意思&#xff0c;以及查询时间基于TCP&#xff0c;支持多客户端连接采用数据库保存用户信息与历史记录将dict.txt的数据导入到数据库中保存。…

Kestrel和ISS服务器下的配置

一、Kestrel服务器 Kestrel是ASP.NET Core框架中的一个跨平台的Web服务器。它是ASP.NET Core应用程序默认的HTTP服务器&#xff0c;并且可作为独立的Web服务器来托管ASP.NET Core应用程序。 Kestrel具有以下特点和功能 1、跨平台 Kestrel是完全跨平台的&#xff0c;可以在Wind…

git压缩/合并多次commit提交为1次commit提交

git压缩/合并N次commit提交为1次commit提交 假设有最近3次提交&#xff1a; commit_id1 commit_id2 commit_id3目标是把以上3次commit合并成1个commit&#xff0c;注意&#xff0c;最新的commit提交在最上面。 在git bash里面的操作步骤&#xff1a; &#xff08;1&#xff0…

Mac 开发 Tang Nano FPGA 指南(使用终端和使用 VS Code 和插件,适用所有 Gowin FPGA)

最近收到了一个 Tang nano 9K FPGA开发板&#xff0c;就想借此机会研究一下。 官方文档里介绍如果想使用高云的 FPGA&#xff0c;就需要使用 GOWIN IDE&#xff0c;但是需要申请 license 提交一堆资料&#xff0c;我是别人送的就不太方便让别人弄。加上 IDE 其实并不是很适合学…

QT SSL handshake failed问题分析与解决 QT基础入门【网络编程】openssl

问题: 使用https方式进行post 和get请求时,有时候会出现SSL handshake failed的问题,其实是调用Qt QNetworkAccessManager出现的问题。 其实SSL握手是建立HTTPS连接过程的第一步。为了验证和建立连接,用户的浏览器和网站的服务器必须经过一系列检查(握手),从而建立HTTP…