Python 如何通过 cron 或 schedule 实现爬虫的自动定时运行

news2024/11/14 0:42:41

Python 如何通过 cron 或 schedule 实现爬虫的自动定时运行

自动定时运行爬虫是很多数据采集项目的基本需求。例如,每天采集一次新闻数据,或每小时更新股票行情数据等。通过 Python 实现定时任务,可以保证数据采集的高效和持续性。本文将带大家了解如何在 Python 中使用 cronschedule 来实现爬虫的自动定时运行。

我们会先简单介绍 cronschedule 这两种方法的工作原理,接着演示如何通过这两种方法设置定时爬虫任务。

在这里插入图片描述

1. 为什么要设置定时爬虫任务?

爬虫通常会定期采集网站数据来获得最新信息,但手动运行爬虫既耗时又容易遗漏。自动化定时爬虫有以下几个好处:

  • 节省时间:定时任务不需要人工干预,每次自动执行。
  • 减少工作量:避免手动启动爬虫程序的重复工作。
  • 实时性:可以随时获取最新的数据。
  • 提高效率:不论是数据采集还是定期更新内容,都能更加高效地执行。

2. 什么是 cronschedule

cron

cron 是 Unix 和 Linux 系统中一种定时任务管理器,允许用户通过“时间表”配置文件自动运行脚本。可以使用 crontab 命令添加和管理 cron 任务,它的配置语法简洁而强大。利用 cron 设置定时爬虫任务非常灵活,适用于几乎所有定时任务。

schedule

schedule 是一个 Python 库,允许我们在 Python 脚本中直接设置定时任务,支持多种频率如每分钟、每小时、每天等。它的代码简单明了,不需要离开 Python 环境去编写外部配置文件。

3. 使用 cron 定时执行爬虫任务

如果您使用的是 Linux 或 Mac 系统,cron 是一个可靠的选择。我们可以将爬虫脚本设置为 cron 任务,让它定期自动执行。

3.1 创建爬虫脚本

首先,创建一个简单的 Python 爬虫脚本 my_spider.py,以便我们进行定时运行设置。这里我们假设爬虫的内容是打印当前时间来模拟数据采集:

# my_spider.py

import datetime

def run_spider():
    # 模拟爬取数据
    print(f"正在采集数据,时间:{datetime.datetime.now()}")

if __name__ == "__main__":
    run_spider()

3.2 设置 cron 任务

接下来我们将这个脚本设置为 cron 任务。以下是设置步骤:

  1. 打开 crontab 配置文件

    使用以下命令打开当前用户的 crontab 配置:

    crontab -e
    
  2. 添加定时任务

    crontab 配置文件中添加一行任务配置,格式如下:

    * * * * * /usr/bin/python3 /path/to/your/my_spider.py
    

    该格式表示每分钟运行一次任务,其中:

    • * * * * * 分别代表 分钟、小时、日、月、星期。
    • /usr/bin/python3 是 Python 解释器路径。
    • /path/to/your/my_spider.py 是爬虫脚本的路径。

    如果想每天凌晨 1 点运行爬虫,可以修改为:

    0 1 * * * /usr/bin/python3 /path/to/your/my_spider.py
    
  3. 保存并退出

    保存修改,退出编辑器。此时 cron 已设置好任务,系统将按设定的时间自动运行爬虫脚本。

3.3 检查任务运行

要查看任务是否正常运行,可以检查爬虫的输出或 cron 日志文件。部分系统的 cron 日志在 /var/log/syslog 中,运行以下命令查看:

tail -f /var/log/syslog

3.4 cron 语法简介

cron 中时间设置的格式为:

* * * * *
| | | | |
| | | | └── 星期几 (0 - 7, 0 和 7 都表示周日)
| | | └──── 月份 (1 - 12)
| | └────── 日期 (1 - 31)
| └──────── 小时 (0 - 23)
└────────── 分钟 (0 - 59)

例如:

  • */10 * * * *:每 10 分钟执行一次。
  • 0 0 * * 1:每周一凌晨执行一次。

4. 使用 schedule 在 Python 中设置定时任务

schedule 是一个 Python 库,可以直接在 Python 代码中设置定时任务,无需外部配置文件。schedule 更加灵活,适合跨平台使用。

4.1 安装 schedule

schedule 库可以通过 pip 安装:

pip install schedule

4.2 使用 schedule 编写定时爬虫脚本

以下代码展示了如何使用 schedule 来每分钟自动执行一次爬虫任务:

# my_schedule_spider.py

import schedule
import time
import datetime

def run_spider():
    print(f"正在采集数据,时间:{datetime.datetime.now()}")

# 每隔 1 分钟执行一次
schedule.every(1).minutes.do(run_spider)

# 每天在指定时间执行
schedule.every().day.at("01:00").do(run_spider)

# 运行 schedule
while True:
    schedule.run_pending()
    time.sleep(1)

在这个脚本中,我们将 run_spider 函数设置为每分钟执行一次。同时,schedule.every().day.at("01:00") 将任务设为每天凌晨 1 点运行。while True 循环用于持续运行 schedule 的任务检查器,确保任务按时执行。

4.3 更改执行间隔

schedule 支持多种时间间隔设置:

  • schedule.every(1).hour.do(run_spider):每小时运行一次。
  • schedule.every().monday.do(run_spider):每周一运行一次。
  • schedule.every(2).days.do(run_spider):每隔两天运行一次。

at() 方法可以精确到小时和分钟,如 .day.at("10:30") 表示每天上午 10 点半执行任务。

4.4 执行并查看结果

在命令行运行 python my_schedule_spider.py 来启动定时任务。每次运行都会打印当前时间,方便查看任务的执行情况。

4.5 schedule 与 cron 的区别

schedule 是在 Python 脚本内设置定时任务,这样对开发者较为友好,而 cron 是通过操作系统层面管理任务,更适合大规模部署场景。若任务较为简单,schedule 更加方便快捷,但对于服务器端的长期任务来说,cron 更加稳定可靠。

5. 自动化爬虫任务的注意事项

无论使用 cron 还是 schedule,在部署自动化任务时,以下几点尤为重要:

  1. 网络波动:爬虫依赖网络,若在运行时网络不稳定,可能导致任务失败。可加入异常处理机制。

    try:
        run_spider()
    except Exception as e:
        print("Error:", e)
    
  2. 任务冲突:若多次任务运行时间相近,可能会引起冲突。通过记录上次爬取时间,避免重复爬取。

  3. 数据重复:对采集的 URL 或数据进行去重,避免重复保存。

  4. 存储管理:数据量较大时,建议定期整理存储的文件或数据库,避免磁盘空间不足。

  5. 资源监控:定时任务会占用一定的 CPU 和内存,若服务器资源有限,应适当控制爬虫的运行频率。

6. 小结

自动化定时爬虫是数据采集的重要环节。本文介绍了使用 cronschedule 来定时运行 Python 爬虫的方法。cron 适合在服务器端的定时任务管理,而 schedule 适合在 Python 脚本中简单地实现自动化任务。合理运用定时任务可以大幅提高爬虫数据采集的效率,并确保采集到最新的数据。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2238575.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

初学mongoDB

MongoDB 是一个开源的 NoSQL 数据库,由 C 语言编写。它与传统的关系型数据库不同,MongoDB 使用的是一种基于文档的存储模型,不需要定义固定的表结构,可以灵活地存储和管理大量的非结构化数据。下面是 MongoDB 的一些核心特性&…

Ubuntu 的 ROS 操作系统turtlebot3环境搭建

引言 本文介绍如何在Ubuntu系统中为TurtleBot3配置ROS环境,包括安装和配置ROS Noetic的步骤,为PC端控制TurtleBot3提供操作指南。 安装和配置的过程分为PC设置、系统安装、依赖安装等部分,并在最后进行网络配置,确保PC端能够顺利…

图像增强的100种方法

文章目录 什么是图像增强 ?一、亮度和对比度调整1.1、线性方法1.1.1、灰度反转(Gray Inversion)1.1.2、对比度拉伸(Contrast Stretching)1.1.3、对比度和亮度增强(Contrast and Brightness) 1.2…

Android Kotlin Flow 冷流 热流

在 Android 开发中,Flow 是 Kotlin 协程库的一部分,用于处理异步数据流的一个组件。本质上,Flow 是一个能够异步生产多个值的数据流,与 suspend 函数返回单个值的模式相对应。Flow 更类似于 RxJava 中的 Observable,但…

Web服务器nginx实验2修改端口、默认目录、默认文件访问web页面

修改默认目录、默认文件: 创建配置文件: 里面写:(访问的位置是/haha目录里面的haha.html) 把haha里面的index.html改名为haha.html: 重启服务: 关闭防火墙、改宽松模式: 用Windows访…

Maven最佳实践

文章目录 1.摘要 本文主要介绍Maven使用,作为Maven使用手册来记录。 2.介绍 Maven是项目管理工具,将项目开发和管理过程抽象成一个项目对象模型,使用pom.xml 文件进行依赖管理和项目构建。 Maven 中pom.xml 是根据坐标信息来定位资源的位置&a…

el-table 纵向垂直表头处理

项目中表格展示会遇到需要纵向垂直表头情况,下面,我们基于el-table组件来实现这种表格。 以下是这次需要用到的数据表格,已知左侧违章名称是固定的,而月份是不固定的,在后端返回数据格式已确定的情况下,需…

Android OpenGL ES详解——纹理:纹理过滤GL_NEAREST和GL_LINEAR的区别

目录 一、概念 1、纹理过滤 2、邻近过滤 3、线性过滤 二、邻近过滤和线性过滤的区别 三、源码下载 一、概念 1、纹理过滤 当纹理被应用到三维物体上时,随着物体表面的形状和相机视角的变化,会导致纹理在渲染过程中出现一些问题,如锯齿…

超市11-12月生鲜重点商品配置

11月份:应季商品很多,特别是与季节相对应的蔬菜大量上市。宜推荐对预防感冒等相应的特殊食谱,推荐对于常外出的人方便又省事、省时的食谱,推荐多种花样的火锅,推荐便于保存的应季食品原料。 生活特性:大众食谱宜以炖菜、红焖、火锅…

c++设计模式demo

模式设计原则 依赖倒置原则 ⾼层模块不应该依赖低层模块,⼆者都应该依赖抽象 ; 抽象不应该依赖具体实现,具体实现应该依赖于抽象; ⾃动驾驶系统公司是⾼层,汽⻋⽣产⼚商为低层,它们不应该互相依赖&#x…

【网络面试篇】其他面试题——Cookie、Session、DNS、CDN、SSL/TLS、加密概念

目录 一、HTTP 相关问题 1. Cookie 和 Session 是什么? (1)Cookie (2)Session 2. Cookie 的工作原理? 3. Session 的工作原理? 4. Cookie 和 Session 有什么区别? 二、其他问…

软件测试第二篇软件测试技术

第五章单元测试和集成测试的技术 单元静态测试主要由开发人员完成。 标准:规定什么能做,什么不能做。 规范:建议你要怎么做。 5.1.2 代码评审 代码评审是一种发现代码缺陷的另一种测试方法。 代码审查的最佳实践: 创建代码审…

QT中 update()函数无法实时调用 paintEvent

QT中 update()函数无法实时调用 paintEvent! 在QT中,update()函数用于标记一个窗口区域为“需要重绘”。当调用update()后,QT会在合适的时候调用paintEvent()来重绘这个区域。然而,update()不会立即调用paintEvent(),…

SDL事件相关

文章目录 事件相关的函数和数据结构用户自定义事件代码相关: 事件相关的函数和数据结构 SDL_WaitEvent :等待一个事件SDL_PushEvent 发送一个事件SDL_PumpEvents(): 将硬件设备产生的时间放入事件队列 ,用于读取事件,在调用该函数之前&#…

优化时钟网络之时钟抖动

Note:文章内容以Xilinx 7系列FPGA进行讲解 1、什么是时钟抖动 时钟抖动就是时钟周期之间出现的偏差。比如一个时钟周期为10ns的时钟,理想情况下,其上升沿会出现在0ns,10ns,20ns时刻,假设某个上升沿出现的时…

达梦8-达梦数据实时同步软件(DMHS)配置-Oracle-DM8

1、安装环境 源端目的端IP地址192.168.6.111192.168.6.110系统版本Red Hat 6.4Kylin v10数据库版本Oracle11g达梦 v8系统用户Oracledmdba字符集MERICAN_AMERICA.AL32UTF8UTF-8端口15215236实例名PRODDMSERVER数据库软件目录/u01/app/oracle/opt/dmdbmsDMHS安装目录/u01/dmhs/o…

AI基础知识

目录 1.激活函数:one: 激活函数的作用:two: sigmoid函数:three: tanh函数:four: ReLu:five: Leaky ReLU 2.Softmax函数3.优化器:one: 优化器的作用:two: BGD(批梯度下降):three: SGD(随机梯度下降):four: MBGD(Mini Ba…

【论文阅读】Learning dynamic alignment via meta-filter for few-shot learning

通过元滤波器学习动态对齐以实现小样本学习 引用:Xu C, Fu Y, Liu C, et al. Learning dynamic alignment via meta-filter for few-shot learning[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2021: 5182-5191. 论文…

ArcGIS Pro SDK Addin-DAML

ArcGIS Pro SDK Addin-DAML 文章目录 ArcGIS Pro SDK Addin-DAML1 Panes: 重置窗格2 Button: 从功能区中移除核心按钮3 Button: 将新按钮插入功能区上的现有组4 Menu: 在图层上下文菜单中插入一个新按钮5 Menu: 在 Map Container 上下文菜单中插入新菜单6 Menu: 在2D Map上下文…

FPGA学习笔记#7 Vitis HLS 数组优化和函数优化

本笔记使用的Vitis HLS版本为2022.2,在windows11下运行,仿真part为xcku15p_CIV-ffva1156-2LV-e,主要根据教程:跟Xilinx SAE 学HLS系列视频讲座-高亚军进行学习 学习笔记:《FPGA学习笔记》索引 FPGA学习笔记#1 HLS简介及…