Python多进程:如何在不依赖Queue的情况下传递结果

news2024/11/14 20:50:42

亿牛云爬虫代理.png

随着数据的爆炸式增长,网络爬虫成为获取信息的强大工具。在爬取大量数据时,多进程技术可以显著提高效率。然而,如何在多进程中传递结果,而不依赖Queue,成为了一个值得探讨的问题。本文将以采集抖音短视频为案例,详尽讲解如何在Python中实现这一目标。

文章目录
  1. 简介
  2. 多进程与Queue的局限性
  3. 替代方案:使用管道、共享内存和临时文件
  4. 实战案例:采集抖音短视频
  5. 结论

1. 简介

在爬虫技术中,多进程可以显著提高数据采集效率。然而,传统的Queue在某些场景下存在局限性。本文将探讨如何在不依赖Queue的情况下,实现多进程间的数据传递。

2. 多进程与Queue的局限性

Queue是Python多进程模块提供的一种进程间通信机制,但它有以下局限性:

  • 性能瓶颈:在大量数据传递时,Queue可能成为性能瓶颈。
  • 复杂性:在复杂的多进程架构中,Queue的管理和维护较为复杂。

3. 替代方案

为了解决这些问题,我们可以使用以下替代方案:

  • 管道(Pipe):用于进程间的双向通信。
  • 共享内存(Shared Memory):通过共享变量实现数据传递。
  • 临时文件:将数据写入临时文件,由主进程读取。

4. 实战案例:采集抖音短视频

环境配置

在开始之前,我们需要配置爬虫代理IP和设置useragent及cookie,以提高爬虫的成功率。本文使用的爬虫代理服务为亿牛云。

代码实现
import multiprocessing
import requests
import json
import time
from multiprocessing import Pipe, Process
from bs4 import BeautifulSoup

# 代理配置 亿牛云爬虫代理加强版
proxy_host = "www.16yun.cn" #代理域名
proxy_port = "代理端口"
proxy_user = "代理用户名"
proxy_pass = "代理密码"
proxy = {
    "http": f"http://{proxy_user}:{proxy_pass}@{proxy_host}:{proxy_port}",
    "https": f"http://{proxy_user}:{proxy_pass}@{proxy_host}:{proxy_port}"
}

# User-Agent 和 Cookie
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36",
    "Cookie": "your_cookie_here"
}

def timer(func):
    def wrapper(*args, **kwargs):
        start_time = time.time()
        result = func(*args, **kwargs)
        end_time = time.time()
        elapsed_time = end_time - start_time
        return result, elapsed_time
    return wrapper

@timer
def fetch_video_data(video_url):
    response = requests.get(video_url, headers=headers, proxies=proxy)
    soup = BeautifulSoup(response.content, 'html.parser')
    video_data = soup.find('script', {'type': 'application/json'}).string
    return json.loads(video_data)

def worker(video_url, conn):
    result, elapsed_time = fetch_video_data(video_url)
    conn.send((result, elapsed_time))
    conn.close()

def main():
    video_urls = ["https://www.douyin.com/video/1", "https://www.douyin.com/video/2"]
    processes = []
    parent_connections = []

    for url in video_urls:
        parent_conn, child_conn = Pipe()
        p = Process(target=worker, args=(url, child_conn))
        processes.append(p)
        parent_connections.append(parent_conn)
        p.start()

    for p in processes:
        p.join()

    for parent_conn in parent_connections:
        result, elapsed_time = parent_conn.recv()
        print(f"Video Data: {result}")
        print(f"Elapsed Time: {elapsed_time}")

if __name__ == '__main__':
    main()

代码详解

  1. 代理配置:设置爬虫代理IP,保证爬虫能够顺利访问目标网站。
  2. 请求头设置:通过设置User-Agent和Cookie,提高请求的成功率。
  3. 定时器装饰器:测量函数执行时间。
  4. 数据抓取函数:使用requests库抓取视频数据,并解析HTML内容。
  5. 子进程函数:每个子进程独立抓取视频数据,并通过管道发送结果。
  6. 主进程函数:创建多个子进程,并收集每个子进程的结果。

5. 结论

通过本文的示例,我们展示了如何在Python中使用多进程技术,并在不依赖Queue的情况下传递结果。采用管道、共享内存或临时文件等替代方案,可以有效地解决Queue的局限性。在实际应用中,根据具体需求选择合适的方案,能够显著提高数据采集的效率和可靠性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1966623.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

web框架:Django进阶(一)

文章目录 django进阶内容回顾1.模板1.1 寻找html模板顺序1.2 模板处理的本质1.3 常用语法1.4 内置函数1.5 自定义模板功能1.6 继承和母版1.7 模板的导入 2.django中间件2.1 原始方式2.2 MiddlewareMixin(建议)2.3 prcess_request的执行时,是否…

【系统设计】软件项目概要设计说明书(2024原件完整版)

1引言 1.1编写目的 1.2项目背景 1.3参考资料 2系统总体设计 2.1整体架构 2.2整体功能架构 2.3整体技术架构 2.4运行环境设计 2.5设计目标 3系统功能模块设计 3.1个人办公 3.2系统管理 4性能设计 4.1响应时间 4.2并发用户数 5接口设计 5.1接口设计原则 5.2接口实现方式 6运行设计…

qiankun 微前端 隔离子应用样式,解决 ant-design-vue 子应用样式污染问题(已落地)

样式冲突产生原因 先分析乾坤qiankun 构建之后,会根据你的配置 给每个子应用生成一个id, 当加载到对应子应用的时候,就把内容放到对应的id 标签里去, 这样能有效的隔离 js 代码,但是样式是加载在全局的 所以 当两个子…

【CSS】分享个纯CSS实现去除白底图效果的小技巧

效果 原理 技巧来源&#xff1a;Amazon的产品列表页 通过底色与遮罩层的透明度搭配实现&#xff0c;整体的"去白底"效果 代码 <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8" /><meta name"view…

实施数据治理的十大优势

关注公众号网络研究观获取更多内容。 数据治理不仅仅是一个流行词&#xff0c;也是强大数据管理策略的基础要素。通过实施结构化数据治理&#xff0c;组织可以获得显著的好处&#xff0c;从而提高效率、合规性和决策能力。 本博客探讨了数据治理的最大优势&#xff0c;详细介…

android13禁止应用卸载功能 禁止卸载包名 安卓禁止卸载应用

总纲 android13 rom 开发总纲说明 目录 1.前言 2.情况分析 3.代码修改 4.编译运行 5.写在最后 6.彩蛋 1.前言 Android 13增加禁止卸载对应包名的应用,这一功能主要是为了增强系统的安全性和稳定性。通过禁止用户卸载某些预装应用,防止这些应用被误删或恶意卸载,从而…

详细记录swfit微调interVL2-8B多模态大模型进行目标检测(附代码)

大模型相关目录 大模型&#xff0c;包括部署微调prompt/Agent应用开发、知识库增强、数据库增强、知识图谱增强、自然语言处理、多模态等大模型应用开发内容 从0起步&#xff0c;扬帆起航。 RAGOnMedicalKG&#xff1a;大模型结合知识图谱的RAG实现DSPy&#xff1a;变革式大模…

Python 线程的自修复

在 Python 中&#xff0c;线程的自修复通常涉及异常处理和适当的线程管理。在线程的 run() 方法中使用 try-except 块来捕获可能发生的异常。在捕获异常后&#xff0c;可以记录异常信息或者尝试重新启动线程以恢复正常运行。下面看看我最近的一个实操案例。 1、问题背景 我创建…

bugku.ctf ---WEB(还有后续)

bugku.ctf ---WEB 1.Simple_SSTI_1 1.启动场景 2. 页面说你需要输入一个名为flag的参数。 3.查看网页源代码&#xff0c;提示在flask中&#xff0c;设置了secret_key。意思是在注入模板中输入内容就会显示对应的值。 4.传入?flag{{config.SECRET_KEY}}显示flag 2.Simple_SST…

【Android】安卓多媒体之通知、摄像头、相册、播放音乐、视频用法总结

文章目录 一、通知1. 申请权限2. 创建通道3. 创建通知4. 发送通知拓展功能点击行为更新通知取消通知锁屏通知富文本通知 二、摄像头1. 申请权限2. 调用逻辑3. 声明内容提供器 三、打开相册1. 申请权限检查并请求权限处理权限请求结果 2.处理图片从相册中选择图片处理选择图片的…

反应力场lammps和reaxff,再加上智能计算模拟,你恐怕没见过这种绝妙组合

“第一性原理分子动力学机器学习”三位一体的综合手段&#xff0c;已经成为模拟计算的一个前沿方向&#xff0c;为解决传统计算化学方法面临的挑战提供了新的解决方案。国内外已有科研团队在深化第一性原理与分子动力学的研究与应用拓展&#xff0c;利用机器学习优化大规模计算…

yolov5训练的pt模型,转换为rknn并部署在瑞芯微RK3588开发板

一、下载源码 在GitHub中搜索并下载yolov5的源代码&#xff0c;然后放在自己部署好的项目环境。 直接用下面的命令即可部署适合yolov5的环境&#xff0c;至于缺什么库&#xff0c;什么版本不对的可以百度查一下。 pt模型转onnx模型 我这里已经把源码下载好并加载好了我的虚拟…

Redis CLI常用命令

Redis CLI常用命令 1. 设置和获取数据 SET Redis 中的数据是以键值对的形式存储的&#xff0c;所以需要指定一个键和一个值&#xff0c;键和值用空格隔开&#xff1b; Redis 中默认使用字符串存储数据&#xff1b; 3. 删除键 DEL 4. 判断键是否存在 exists 5. 查找键 KEYS 查…

环境参数自动调节设备:智能生活的绿色守护者

在当今社会&#xff0c;随着科技的飞速发展和人们生活水平的不断提升&#xff0c;对居住环境的要求也日益增高。一个舒适、健康的生活空间&#xff0c;不仅关乎温度、湿度、空气质量等基本环境因素&#xff0c;还涉及到光照、噪音控制等多个维度。为了满足这些多元化的需求&…

【Docomo】5G

我们想向您介绍第五代移动通信系统“5G”。 5G 什么是5G&#xff1f;支持5G的技术什么是 5G SA&#xff08;独立&#xff09;&#xff1f;实现高速率、大容量的5G新频段Docomo的“瞬时5G”使用三个宽广的新频段 什么是5G&#xff1f; 5G&#xff08;第五代移动通信系统&#x…

技术设计评审的重要性及实战指南:让每一行代码都熠熠生辉

在这个快速迭代的软件开发时代,技术设计评审(Technical Design Review, 简称TDR)不仅是项目成功的关键一环,更是每位程序员职业生涯中不可或缺的“导航灯”。它如同一面镜子,让团队能够清晰地看到设计的全貌,及时修正偏差,确保项目朝着既定的目标稳健前行。关注【程序员…

服务器给根目录扩展磁盘(不使用lvm逻辑券)两种方式

因业务需求磁盘存储增加现在需要给/目录进行扩容&#xff0c;因为是云服务器直接在原有的磁盘增加了100G空间现在把新增的100G扩容到/目录分区。 有两种方法一种是使用growpart 工具扩容&#xff0c;一种是使用fdisk命令 使用growpart工具扩容 yum install -y cloud-utils-grow…

为什么我工作 10 年后转行当程序员?逆袭翻盘!

今天文章的主人公暂且称他为 A 君。不过 A 君有点特别&#xff0c;非科班&#xff0c;工作 10 年后才转行 iOS 程序员。今年 36 岁&#xff0c;目前在某行业头部企业任职前端负责人&#xff0c;管理 40 人的前端团队。 废话不多说&#xff0c;我们开始 A 君&#xff08;为了描…

并发编程工具集——Future(二十七)

简介&#xff1a; 创建完线程池&#xff0c;该如何使用获取任务的执行结果&#xff08;execute() 方法没有返回值&#xff09;。 如何获取任务执行结果 Java 通过 ThreadPoolExecutor 提供的 3 个 submit() 方法和 1 个 FutureTask 工具类来支持获得任务执行结果的需求。三个su…

2024年哪些充电宝建议买?最建议买的四款充电宝排行榜!

在 2024 年&#xff0c;充电宝依然是我们生活中不可或缺的电子伴侣。然而&#xff0c;面对市场上众多的充电宝品牌和型号&#xff0c;要挑选到一款既实用又安全可靠的产品并非易事。充电宝的安全性至关重要&#xff0c;毕竟它与我们随身携带的电子设备紧密相连。劣质的充电宝可…