网络爬虫的最佳实践:结合 set_time_limit() 与 setTrafficLimit() 抓取云盘数据

news2024/9/19 13:44:35

爬虫代理

在数据爬取领域,百度云盘作为国内领先的云存储服务平台,拥有海量的用户和数据资源。因此,对于技术开发者而言,如何高效、稳定地对百度云盘中的公开资源进行数据抓取成为了一个值得探讨的课题。本文将结合 PHP 的 set_time_limit() 与爬虫工具的 setTrafficLimit() 方法,展示如何通过多线程和代理 IP 技术抓取百度云盘的公开资源。

1. 介绍

百度云盘,也称百度网盘,是由百度公司推出的一项个人云存储服务,用户可以将文件上传至云端,实现跨平台的存储和分享。百度云盘提供公开分享的链接,供用户之间进行文件交换和资源共享。对于需要批量抓取公开分享数据的开发者而言,百度云盘成为了一个具有潜力的数据来源。

2. 实现目标

本文的目标是通过 PHP 实现对百度云盘公开分享链接的爬取,主要使用代理 IP 提高抓取的隐私性,同时通过多线程提高效率。我们将借助爬虫代理的代理服务来实现 IP 轮换,从而防止 IP 封禁。

3. 结合 set_time_limit()setTrafficLimit() 的爬虫设计

3.1 set_time_limit()setTrafficLimit()
  • set_time_limit() 用于设置爬虫脚本的最大执行时间,确保抓取任务不会因执行超时而被中断。
  • setTrafficLimit() 通过限制爬虫的流量,防止对目标网站造成过大压力,避免触发百度云盘的访问限制。
3.2 多线程和代理 IP 的实现

通过多线程技术,我们可以同时抓取多个公开分享链接,提高抓取效率;代理 IP 则用于绕过百度云盘的访问限制,防止因频繁访问同一 IP 而导致的封禁。

4. 代码实现

以下是针对百度云盘公开分享链接的爬虫代码实现:

<?php

// 设置脚本最大执行时间为10000秒
set_time_limit(10000);

// 引入多线程库
use Thread;

// 亿牛云爬虫代理配置信息 www.16yun.cn
$proxy_ip = '代理服务器IP';
$proxy_port = '代理服务器端口';
$proxy_username = '代理用户名';
$proxy_password = '代理密码';

// 设置流量限制(示例)
function setTrafficLimit($limit) {
    echo "设定每秒流量限制为 {$limit} KB\n";
}

// 百度云盘爬虫类
class BaiduYunCrawler extends Thread {
    private $url;

    public function __construct($url) {
        $this->url = $url;
    }

    public function run() {
        // 初始化CURL
        $ch = curl_init();
        
        // 设置CURL选项
        curl_setopt($ch, CURLOPT_URL, $this->url);
        curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);
        curl_setopt($ch, CURLOPT_PROXY, $GLOBALS['proxy_ip']);
        curl_setopt($ch, CURLOPT_PROXYPORT, $GLOBALS['proxy_port']);
        curl_setopt($ch, CURLOPT_PROXYUSERPWD, "{$GLOBALS['proxy_username']}:{$GLOBALS['proxy_password']}");
        
        // 执行爬虫
        $output = curl_exec($ch);
        
        // 错误处理
        if (curl_errno($ch)) {
            echo 'CURL 错误: ' . curl_error($ch);
        } else {
            // 处理爬取的内容(这里只示例输出部分内容)
            echo "爬取的内容:\n" . substr($output, 0, 200); // 示例:仅显示前200个字符
        }

        curl_close($ch);
    }
}

// 定义需要爬取的百度云盘公开分享URL列表
$urls = [
    'https://pan.baidu.com/s/1example_link1',  // 示例百度云盘公开分享链接
    'https://pan.baidu.com/s/1example_link2',
    // 添加更多链接
];

// 创建并运行多线程爬虫
$threads = [];
foreach ($urls as $url) {
    $crawler = new BaiduYunCrawler($url);
    $crawler->start();  // 启动线程
    $threads[] = $crawler;
}

// 等待所有线程结束
foreach ($threads as $thread) {
    $thread->join();  // 等待线程完成
}

// 设定流量限制
setTrafficLimit(50);  // 示例:限制流量为50KB/s

?>

5. 数据分类统计

为了更好地掌握抓取效率,我们可以在代码中添加数据分类统计功能,例如计算抓取成功的链接数量、失败的数量,以及总共获取的数据量。

<?php

// 示例数据分类统计
$statistics = [
    'total_pages' => count($urls),
    'successful' => 0,
    'failed' => 0,
    'total_data_size' => 0
];

foreach ($threads as $thread) {
    if ($thread->isRunning()) {
        // 假设每个线程中会返回成功与否、数据大小等信息
        $statistics['successful']++;
        $statistics['total_data_size'] += strlen($thread->output);
    } else {
        $statistics['failed']++;
    }
}

echo "总页数: " . $statistics['total_pages'] . "\n";
echo "成功抓取: " . $statistics['successful'] . "\n";
echo "失败抓取: " . $statistics['failed'] . "\n";
echo "总数据大小: " . $statistics['total_data_size'] . " 字节\n";

?>

6. 结论

本文通过结合 set_time_limit()setTrafficLimit(),并使用代理 IP 和多线程技术,展示了如何高效地对百度云盘公开分享链接进行数据抓取。这些技术能够确保爬虫在长时间运行过程中保持稳定,同时通过限制流量避免对目标服务器造成过大压力。通过多线程并发和代理 IP 的使用,抓取效率得到极大提升,也为开发者提供了一个可靠、灵活的爬虫实现方案。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2146366.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

PVE虚拟机被锁定locked解决方法

打开pve节点的shell&#xff0c;执行以下命令 qm unlock <VMID> 示例&#xff1a; qm unlock 112

Mobile net V系列详解 理论+实战(1)

Mobilenet 系列 论文精讲部分0.摘要1. 引文2. 引文3. MobileNet 模型架构3.0 卷积个人理解3.1 深度可分离卷积3.2 网络结构和训练3.3 宽度乘数&#xff1a;更细的模型 α3.4 分辨率乘数&#xff1a;降低表示的维度ρ 4. 实验4.1 模型选择4.2. 模型缩减超参数4.3. 细粒度识别4.4…

YOLOv9改进策略【卷积层】| HWD,引入`Haar小波变换`到下采样模块中,减少信息丢失

一、本文介绍 本文记录的是利用Haar小波下采样对YOLOv9网络进行改进的方法研究。传统的卷积神经网络中常用的最大池化、平均池化和步长为2的卷积等操作进行下采样可能会导致信息丢失&#xff0c;为了解决信息丢失问题&#xff0c;HWD作者受无损信息变换方法的启发&#xff0c;…

python本地进程通讯----共享内存变量

背景 最近在开发实践中&#xff0c;接触到了需要多进程开发的场景。众所周知&#xff0c;进程和线程最大的区别就在于&#xff1a;进程是资源分配的最小单位&#xff0c;线程是cpu调度的最小单位。对于多进程开发来说&#xff0c;每一个进程都占据一块独立的虚拟内存空间&#…

大数据新视界 --大数据大厂之探索ES:大数据时代的高效搜索引擎实战攻略

&#x1f496;&#x1f496;&#x1f496;亲爱的朋友们&#xff0c;热烈欢迎你们来到 青云交的博客&#xff01;能与你们在此邂逅&#xff0c;我满心欢喜&#xff0c;深感无比荣幸。在这个瞬息万变的时代&#xff0c;我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而 我的…

致计算机新生们

欢迎你们踏入计算机科学的世界&#xff0c;这是一个充满挑战与机遇的领域。在你们即将开始的大学旅程中&#xff0c;了解计算机专业的就业方向和行业现状是非常重要的。以下是一些关于计算机专业就业方向和行业现状的介绍&#xff0c;希望能够帮助你们更好地规划自己的未来。 …

土豆王国小乐队携手阿派朗创造力乐园,打造2024年okgo儿童音乐节

艺术与科技的完美融合&#xff0c;为首都少年儿童带来音乐盛宴 北京&#xff0c;2024年9月19日 —— 备受期待的2024年okgo儿童音乐节即将于9月21日至22日在北京阿派朗创造力乐园盛大开幕。这场由土豆王国小乐队与阿派朗创造力乐园联合举办的音乐节&#xff0c;旨在为首都及全国…

波分技术基础 -- WDM/OTN介绍

什么是WDM WDM&#xff08;Wavelength Division Multiplexing&#xff09;&#xff1a;波分复用技术&#xff0c;将不同波长的光信号复用到一根光纤中进行传送的方式&#xff08;每个波长承载一个业务信号&#xff09;&#xff0c;主要功能是传送和复用。在波分技术出现之前&am…

Gephi 0.9.2中文版百度云下载(附教程)

如大家所了解的&#xff0c;Gephi常用于各种图形和网络的可视化和探索&#xff0c;是最受欢迎的网络可视化软件之一。在生物科学领域&#xff0c;常用于基因共表达网络、蛋白互作网络、微生物相互关系网络等等类似的网络图形绘制。 目前用的比较多的版本为Gephi 0.9.2&#xf…

使用rust自制操作系统内核

一、系统简介 本操作系统是一个使用rust语言实现&#xff0c;基于32位的x86CPU的分时操作系统。 项目地址&#xff08;求star&#xff09;&#xff1a;GitHub - CaoGaorong/os-in-rust: 使用rust实现一个操作系统内核 详细文档&#xff1a;自制操作系统 语雀 1. 项目特性 …

深度学习自编码器 - 使用自编码器学习流形篇

序言 在数据科学的浩瀚宇宙中&#xff0c;深度学习如同一颗璀璨的星辰&#xff0c;引领着我们对复杂数据内在规律的探索。其中&#xff0c;自编码器作为深度学习家族中的一位独特成员&#xff0c;以其非凡的能力——通过无监督学习捕捉数据的有效表示&#xff0c;而备受瞩目。…

Tomcat_WebApp

Tomcat的目录的介绍 /bin&#xff1a; 这个目录包含启动和关闭 Tomcat 的脚本。 startup.bat / startup.sh&#xff1a;用于启动 Tomcat&#xff08;.bat 文件是 Windows 系统用的&#xff0c;.sh 文件是 Linux/Unix 系统用的&#xff09;。shutdown.bat / shutdown.sh&#xf…

Java 实现桌面烟花秀

前言 今天&#xff0c;我们将展示如何使用 Java Swing 创建一个烟花效果&#xff0c;覆盖整个桌面。我们将重点讲解如何在桌面上展示烟花、如何实现发射和爆炸效果&#xff0c;以及如何将这些效果整合到一个完整的程序中。 效果展示 如上图所示&#xff0c;我们在桌面实现了&…

【开源大模型生态9】百度的文心大模型

这张图展示了百度千帆大模型平台的功能架构及其与BML-AI开发平台和百度百舸AI异构计算平台的关系。以下是各个模块的解释&#xff1a; 模型广场&#xff1a; 通用大模型&#xff1a;提供基础的自然语言处理能力。行业大模型&#xff1a;针对不同行业的定制化模型。大模型工具链…

新的 MathWorks 硬件支持包支持从 MATLAB 和 Simulink 模型到高通 Hexagon 神经处理单元架构的自动化代码生成

MathWorks 今天宣布&#xff0c;推出针对 Qualcomm Hexagon™ 神经处理单元&#xff08;NPU&#xff09;的硬件支持包。该处理单元嵌入在 Snapdragon 系列处理器中。MathWorks 硬件支持包&#xff0c;则专门针对 Qualcomm Technologies 的 Hexagon NPU 架构进行优化&#xff0c…

基于SSM的“校园外卖管理系统”的设计与实现(源码+数据库+文档+开题报告)

基于SSM的“校园外卖管理系统”的设计与实现&#xff08;源码数据库文档开题报告) 开发语言&#xff1a;Java 数据库&#xff1a;MySQL 技术&#xff1a;SSM 工具&#xff1a;IDEA/Ecilpse、Navicat、Maven 系统展示 消费者系统结构图 商户系统结构图 管理员系统结构图 校…

数据脱敏 (Jackson + Hutool 工具包)

一、简介 系统使用 Jackson 序列化策略&#xff0c;对标注了 Sensitive 注解的属性进行脱敏处理 基于Hutool 脱敏案列&#xff1a; Retention(RetentionPolicy.RUNTIME) Target(ElementType.FIELD) JacksonAnnotationsInside// 表示只对有此注解的字段进行序列化 JsonSeriali…

MySQL高阶1831-每天的最大交易

题目 编写一个解决方案&#xff0c;报告每天交易金额 amount 最大 的交易 ID 。如果一天中有多个这样的交易&#xff0c;返回这些交易的 ID 。 返回结果根据 transaction_id 升序排列。 准备数据 Create table If Not Exists Transactions (transaction_id int, day date, …

吹爆上海交大的大模型实战教程!!—《动手学大模型》附实战教程及ppt

今天分享一个上海交大的免费的大模型课程&#xff0c;有相关教程文档和Slides&#xff0c;目前是2.2K星标&#xff0c;还是挺火的&#xff01; 《动手学大模型》系列编程实践教程&#xff0c; 由上海交通大学2024年春季《人工智能安全技术》课程&#xff08;NIS3353&#xff09…

深入剖析Docker容器安全:挑战与应对策略

随着容器技术的广泛应用&#xff0c;Docker已成为现代应用开发和部署的核心工具。它通过轻量级虚拟化技术实现应用的隔离与封装&#xff0c;提高了资源利用率。然而&#xff0c;随着Docker的流行&#xff0c;其安全问题也成为关注焦点。容器化技术虽然提供了良好的资源隔离&…