python能做的100件事03-python爬虫

news2024/9/21 2:37:36

文章目录

        • 1. scrapy介绍
        • 2 新建爬虫项目
        • 3 新建蜘蛛文件
        • 4 运行爬虫
        • 5 爬取内容
          • 5.1分析网页结构
          • 5.2 关于Xpath解析
          • 5.3 接着解析电影数据
          • 5.4 下载缩略图
          • 5.5 完整代码
        • 6 最后说明

本例基于python3和scrapy爬虫框架,不再介绍python的基础知识和爬虫的基本知识。

1. scrapy介绍

Scrapy是适用于Python的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。

首先安装scrapy:

pip3 install scrapy

2 新建爬虫项目

scrapy startproject pic

项目目录如下:
项目目录

3 新建蜘蛛文件

蜘蛛文件放在spiders目录下,在spiders目录下新建一个蜘蛛文件pic.py,内容如下,并没有设计爬取操作,代码比较简单,看代码中的注释就明白了:

import scrapy

#类名自定义,参数固定为scrapy.Spider
class GetImage(scrapy.Spider):
    name="pic" #蜘蛛名称,必须唯一,一个爬虫项目可以新建多个蜘蛛文件,蜘蛛名不能重复
    
    def start_requests(self):
        #定义要爬取的url    
        urls=[
            'https://www.rottentomatoes.com/browse/movies_in_theaters/'
        ]
        
        #请求网页内容,并将内容交给回调函数处理
        for url in urls:
            # yield关键字类似return,scrapy.Request发起网页请求,括号内为参数,第一个参数是Request要请求的地址,第二个参数是回调函数,表示Request取到的内容交由该回调函数处理。
            yield scrapy.Request(url=url,callback=self.parse) 

    #上一方法需要调用的回调函数
    def parse(self,response):
        print("------------------------")
        #此处获取上一步请求的网页内容及请求状态,print(response.body)可以获取网页内容,
        #因为内容太长,这里不再输出,只输出地址和状态。
        print(response)

4 运行爬虫

回到项目的根目录,运行如下命令:

scrapy crawl pic # crawl指定类文件中定义的蜘蛛名称pic

可以在运行日志中查看结果,200是网页连接正常的状态码:
在这里插入图片描述

5 爬取内容

上面代码中的网址是烂番茄网的电影页面,建议在测试时尽量选择测试网站进行测试,爬取信息时请遵守网站规定,并确认是否允许爬取.示例中的网页如下图所示:
示例网页

5.1分析网页结构

我们的目标是所有电影的名称和缩略图,首先通过F12查看网页的结构及目标节点的样式,如下图所示:
在这里插入图片描述可以看到只要找tile-dynamic节点下的img标签即可。scrapy中获取节点如下所示:
获取电影名称
运行爬虫,获取到的电影名称如下所示,是一个列表:
电影名称

5.2 关于Xpath解析

此处展示一些Xpath用法:

        #从html根节点查找最外层所有div
        divs = response.xpath('//div')
        #从html根节点查找第一个div
        div = response.xpath('//div[1]')
        #从上面的div中查找所有p节点,注意此时开头用./不是//
        ps = div.xpath('./p')
        #从上面的div中查找所有样式为col-4的p节点
        ps1 = div.xpath('./p[@class="col-4"]')
        #循环获取ps1中所有p节点下的img图像地址
        for p in ps1:
            #获取节点属性以@开头如@alt,@src,@text等
            srcs = p.xpath('./img/@src').get() #或者getall(),p节点包含多张图片的情况
        #更多xpath请参考官方教程:
        #https://docs.scrapy.org/en/latest/topics/selectors.html#working-with-xpaths
       
5.3 接着解析电影数据

增加对缩略图的抓取,代码获取的缩略图如下图所示:

获取缩略图

缩略图地址

5.4 下载缩略图

图片下载

下载过程如图所示:
下载过程

下载内容:
下载内容

5.5 完整代码
import scrapy
import ssl
import os
import urllib


#定义图片下载地址,请修改为自己的路径
d_path = '/home/ubuntu/下载/albums'

#类名自定义,参数固定为scrapy.Spider
class GetImage(scrapy.Spider):
    name="pic" #蜘蛛名称,必须唯一,一个爬虫项目可以新建多个蜘蛛文件,蜘蛛名不能重复
    
    def start_requests(self):
        #定义要爬取的url    
        urls=[
            'https://www.rottentomatoes.com/browse/movies_in_theaters/'
        ]
        
        #请求网页内容,并将内容交给回调函数处理
        for url in urls:
            # yield关键字类似return,scrapy.Request发起网页请求,括号内为参数,第一个参数是Request要请求的地址,第二个参数是回调函数,表示Request取到的内容交由该回调函数处理。
            yield scrapy.Request(url=url,callback=self.parse) 

    #上一方法需要调用的回调函数
    def parse(self,response):
        print("--------------------------")
        #此处获取上一步请求的网页内容及请求状态,print(response.body)可以获取网页内容,
        #因为内容太长,这里不再输出,只输出地址和状态。
        print(response)
        #获取页面所有电影节点
        #xpath方式获取 //表示从页面根节点开始查找,查找tile-tynamic下的img标签
        #然后获取img标签下的alt属性,这里alt属性是电影的名字。
        #getall()表示获取所有匹配项,get()获取第一个匹配项
        names = response.xpath('//tile-dynamic/img/@alt').getall()
        #获取页面所有电影缩略图地址
        albums = response.xpath('//tile-dynamic/img/@src').getall()
        
        for index,album in enumerate(albums):
            #循环取出缩略图地址,交由函数downImg来完成图片下载
            #并传入参数name,用作下载的缩略图命名
            self.downImg(album,names[index])


    #图片下载方法
    def downImg(self,album,name):

        try:
            #下载图片,参数第一个是缩略图地址,第二个参数是文件保存地址+文件名称+后缀名
            urllib.request.urlretrieve(album,d_path+"/" + name + ".jpg")
        except Exception as e:
            print('下载异常:')
            print(e)
            pass
        print ('下载图片:' + name)


6 最后说明

一个简单的图片爬虫就完成了,一个功能复杂的爬虫,还需要解决登陆,分页,或者爬取到结果后入库等操作,这里就不多做解释,以后有空会更新登陆,分页等其他功能,没有空就不更新了。最后还要说明一点,爬取网络内容时请遵守相关法律法规,和网站规则。一般网站的根目录下都有robots.txt文件,请确保遵循了robots.txt的规则。比如烂番茄网的robots.txt规则如下:
robots
Disallow:/search 表示不允许爬取 /search下的所有网页。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/172374.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

制药企业的发展趋势--行业公司数据调研

制药行业是国家重点培育发展的战略产业。制药行业的发展对人民健康、医药科技和社会进步等方面都有着十分重要的作用。下面笔者将阐述近年来制药行业发展的现状及趋势,并对制药行业的研发、销售等多维度的信息进行展示与解读。中国制药企业现状目前,中国…

分享103个PHP源码,总有一款适合您

PHP源码 分享103个PHP源码,总有一款适合您 下面是文件的名字,我放了一些图片,文章里不是所有的图主要是放不下..., 103个PHP源码下载链接:https://pan.baidu.com/s/1_T5IzwgcntFuyqulehbSzQ?pwdv6ds 提取码&#…

vue-router 使用与原理分析

简介 Vue Router 是Vue.js的官方路由。与Vue.js核心深度集成&#xff0c;让用Vue.js构建单页应用&#xff08;SPA&#xff09;变得更加简单。 使用 创建 1、在安装好Vue Router依赖后&#xff0c;在App.vue中引入router-view&#xff0c;它是渲染的容器 <div id"…

ARM X210开发板的软开关按键问题

一、X210 开发板的软启动电路详解 《x210bv3.pdf》 (1) 210 供电需要的电压比较稳定&#xff0c;而外部适配器的输出电压不一定那么稳定&#xff0c;因此板载了一个文稳压器件 MP1482. 这个稳压芯片的作用就是外部适配器电压在一定范围内变化时稳压芯片的输出电压都是 5V。 (2)…

Redis 主从复制

目录一、简介二、复制功能三、将服务器设置为从服务器3.1、手动设置3.2、REPLICAOF 配置选项3.3、取消复制四、查看服务器的角色4.1、查看主服务器4.2、查看从服务器五、其他配置5.1、无硬盘复制5.2、降低数据不一致情况出现的概率5.3、可写的从服务器5.4、选择性命令传播六、w…

SpringBoot统一功能处理

目录 一、统一用户的登录验证 1.1 Spring AOP 实现用户统一登录验证 1.2Spring拦截器实现统一用户的登录验证 1.3 实例演示&#xff08;通过url访问controller层的方法&#xff09; 二、统一异常处理 三、统一数据格式返回 3.1 统一数据返回格式的优点 3.2 统一数据返回…

旺季到来,跨境电商卖家年末冲刺!

又是一年年末时&#xff0c;随着新年的到来&#xff0c;在年底这段时间里&#xff0c;对于跨境电商卖家来说&#xff0c;又是一个关键节点。而现在&#xff0c;卖家们也将迎来一年一度的旺季收官&#xff0c;在此过程中卖家需要做好哪些准备做好年末冲刺呢&#xff1f; 在许多…

量化策略——准备3 数据、Backtrader回测框架与quantstats评价指标

我们一般使用AKShare这个库来获取股票数据或策略中用得到的数据&#xff1a; AKShare github主页&#xff1a;https://github.com/akfamily/akshare 使用Backtrader框架作为回测的框架&#xff1a; Backtrader github主页&#xff1a;https://github.com/mementum/backtrader …

【CTF】git源码泄露和代码审计

目录 源码获取 函数绕过 解法一&#xff1a; 解法二&#xff1a; 参考文章&#xff1a; 源码获取 这里做的web题目是buuctf中的&#xff1a;[GXYCTF2019]禁止套娃 打开页面&#xff0c;查看源码是没有可以利用的点的。开始进行目录扫描 这里使用的工具是dirsearch。直接…

前端js实现多次添加累加文件上传和选择删除(django+js)- 编辑回显文件并上传 (二)

前言 后端返回的是文件地址&#xff0c;并不是文件流或base64编码字符串&#xff0c;而修改数据的接口又只接受文件。 本篇文章主要是基于累加文件上传介绍的。 添加上传文件文章链接&#xff1a;https://blog.csdn.net/qq_43030934/article/details/128726549?spm1001.2014.…

jmeter 压测java代码

一、背景 直接压测、调用java工程中的方法。&#xff08;没有http等的入口&#xff09; 二、java项目改造 一个java项目&#xff0c;想要压测其中的几个方法。我们需要在该工程中&#xff0c;添加一个压测入口的类&#xff0c; 这个类必须继承或者实现jmeter提供的接口/类。…

C语言萌新如何使用scanf函数?

&#x1f40e;作者的话 如果你搜索输入输出函数&#xff0c;那么你会看到输入输出流、Turbo标准库、标准输出端、stdout什么什么乱七八糟的&#xff0c;作为一个萌新&#xff0c;哪懂这些&#xff1f; 本文介绍萌新在前期的学习中&#xff0c;常用的输入输出函数及其功能~ 跳…

HTML5+CSS3小实例:炫彩的发光字特效

前言&#xff1a; 今天我们向大家精选了一款HTML5CSS3文字特效&#xff0c;文字特效有超酷的动画类型&#xff0c;不多说&#xff0c;一起来看看。 描述&#xff1a; 这款文字特效既有倒影的效果&#xff0c;又有随机的颜色&#xff0c;看起来非常的炫酷。全文基于 HTML5CSS3 完…

log4j.properties自定义日志配置

一、通用的写法log4j.properties# 设置root logger等级为ALL&#xff0c;且appender有A1和FILE log4j.rootLoggerALL, A1,A3#设置com.example.test logger log4j.logger.com.example.testDEBUG,A1,A3 # 取消继承父类 log4j.additivity.com.example.testfalse# 设置个控制台输出…

即时通讯开发之TCP 连接的建立与中止

TCP 是一个面向连接的协议,所以在连接双方发送数据之前,都需要首先建立一条连接。这和前面讲到的协议完全不同。前面讲的所有协议都只是发送数据 而已,大多数都不关心发送的数据是不是送到,UDP 尤其明显,从编程的角度来说,UDP 编程也要简单 的多----UDP 都不用考虑数据分片。 书…

Ubuntu下源码编译VirtualBox一 —— 源码下载

VirtualBox想必大家都不陌生&#xff0c;做Linux开发的尤其是嵌入式Linux开发的人应该基本都知道或玩过VMware和VirtualBox。但通常都是为了在Windows电脑上能够使用Linux环境、即在Windows环境下通过下载可执行文件安装的VirtualBox。本文介绍在Linux环境&#xff08;Ubuntu 2…

系分 - 论文 - 总览知识点

个人总结&#xff0c;仅供参考&#xff0c;欢迎加好友一起讨论 文章目录系分 - 论文 - 总览往年论文一览论文考点考试时间考试过程论文技巧论文写作论文扣分与加分系分 - 论文 - 总览 往年论文一览 一般情况下&#xff0c;往下数5、6年的题目出题形式&#xff0c;具有参考意义…

痞子衡嵌入式:盘点国内Cortex-M内核MCU厂商高主频产品(2023)

大家好&#xff0c;我是痞子衡&#xff0c;是正经搞技术的痞子。今天痞子衡给大家介绍的是国内Cortex-M内核MCU厂商高主频产品。 在 2021 年初痞子衡写了篇 《盘点国内Cortex-M内核MCU厂商高性能产品》&#xff0c;搜罗了当时市面上主频不低于 96MHz 的 CM 核国产 MCU。如今过去…

LSTM MultiheadAttention 输入维度

最近遇到点问题&#xff0c;对于模块的输入矩阵的维度搞不清楚&#xff0c;这里在学习一下&#xff0c;记录下来&#xff0c;方便以后查阅。 LSTM & Attention 输入维度LSTM记忆单元门控机制LSTM结构LSTM的计算过程遗忘门输入门更新记忆单元输出门LSTM单元的pytorch实现Pyt…

Spring Security in Action 第七章 配置授权:限制访问

本专栏将从基础开始&#xff0c;循序渐进&#xff0c;以实战为线索&#xff0c;逐步深入SpringSecurity相关知识相关知识&#xff0c;打造完整的SpringSecurity学习步骤&#xff0c;提升工程化编码能力和思维能力&#xff0c;写出高质量代码。希望大家都能够从中有所收获&#…