Python常见并行化方法及性能对比

news2024/11/25 3:39:07

Python代码中通常有三种实现并行化的方法

  1. multiprocessing的同步方法,map
  2. multiprocessing的异步方法,apply_async
  3. Ray提供的并行或分布式能力

Ray 和 Python 的 multiprocessing 模块都是用于并行和分布式计算的工具,但它们在设计目标、功能和实现细节上有一些显著的区别。

Multiprocessing

  1. 设计目标:

    • multiprocessing 是 Python 标准库的一部分,旨在利用多核处理器来并行化任务。它通过在多个进程之间分配任务来绕过 GIL(全局解释器锁)的限制。
  2. 实现方式:

    • 使用进程而不是线程,这意味着每个进程都有自己的 Python 解释器和内存空间。
    • 提供了 Process 类和共享数据的工具,如 Queue, Pipe, Manager 等。
  3. 使用场景:

    • 适合 CPU 密集型任务,因为每个进程运行在独立的内存空间中,可以充分利用多核 CPU。
    • 需要在单机上进行并行处理。
  4. 限制:

    • 由于进程间的内存独立性,数据共享和通信相对复杂。
    • 启动新进程的开销较大。

Ray

  1. 设计目标:

    • Ray 是一个开源的通用分布式计算框架,旨在简化大规模并行和分布式应用的开发。
    • 支持大规模集群管理和调度任务,不限于单机。
  2. 实现方式:

    • 提供高级抽象,如任务(task)和 actor 模型,可以轻松地在集群中并行化和分布式化工作。
    • 内置了对资源管理、任务调度和故障恢复的支持。
  3. 使用场景:

    • 适合需要大规模分布式计算的任务,包括机器学习、数据处理和实时流处理。
    • 提供了高效的状态共享和数据传输机制。
  4. 优势:

    • 能够扩展到多台机器和大规模集群。
    • 内置的库支持,如 Ray RLlib(强化学习库)和 Ray Tune(超参数优化工具),适合复杂应用。
  5. 限制:

    • 需要额外安装和配置,初学者可能需要时间学习和适应。
    • 对于简单的并行任务可能显得过于复杂。

总之,multiprocessing 适合简单的单机并行任务,而 Ray 更加适合需要分布式计算的复杂应用。选择使用哪个工具取决于具体的应用需求和规模。

调用

每种方法都提供一个调用示例,如下:

# from multiprocessing.pool import Pool  # 进程池
from multiprocessing import Pool  # 进程池
from multiprocessing import cpu_count
from multiprocessing import set_start_method

import time
import ray
import numpy as np
ray.init(num_cpus=cpu_count())

@ray.remote
def test_remote(para):
    return test(para)

def test(para):
    times = para[1]%6+1
    task_complexity = para[3]
    # print(para[0], para[1], para[2],beishu)
    for i in range(task_complexity*times):
        a = i*1.1+0.9/para[2]
    return [para[0],para[1]]

def main(threds_num, task_complexity):
    tic = time.time()
    par = 3
    lists = [(i, i+1, par, task_complexity) for i in range(threds_num)]
    pool = Pool(processes=cpu_count())
    res = pool.map_async(test, (lists)).get()
    pool.close()
    pool.join()
    toc = time.time()

    print('multiprocessing 异步耗时: {}s'.format(toc - tic))
    # print(res)
    return toc - tic

def main2(threds_num, task_complexity):
    tic = time.time()
    par = 3
    lists = [(i, i+1, par, task_complexity) for i in range(threds_num)]
    pool = Pool(processes=cpu_count())
    res = pool.map(test, (lists))
    pool.close()
    pool.join()
    toc = time.time()

    print('multiprocessing 同步执行耗时: {}s'.format(toc - tic))
    # print(res)
    return toc - tic

def main3(threds_num, task_complexity):

    tic = time.time()
    par = 3
    lists = [(i, i + 1, par, task_complexity) for i in range(threds_num)]
    futures = [test_remote.remote(item) for item in lists]
    res = ray.get(futures)
    toc = time.time()

    print('Ray 执行耗时: {}s'.format(toc - tic))
    # print(res)
    return toc - tic

def performance_compare():
    res_times = []
    for threds_num in [2,8,32,128,4096,409600]:
        task_complexitys = [int(1e3), int(1e5), int(1e7)]

        for task_complexity in task_complexitys:
            asyn_time = main(threds_num, task_complexity)
            map_time = main2(threds_num, task_complexity)
            ray_time = main3(threds_num, task_complexity)
            res_times.append([asyn_time, map_time, ray_time])

    for item in res_times:
        print(f"{item[0]:.5f}\t{item[1]:.5f}\t{item[2]:.5f}")
        
if __name__ == "__main__":
    set_start_method("spawn")
    performance_compare()

性能对比

在单台笔记本上执行相同的计算任务,主要区分循环次数和单个任务的复杂度两方面来进行对比,统计耗时如下:
在这里插入图片描述

结论
  1. 单个任务复杂度高时,一般情况下ray的效率比multiprocessing的效率要高
  2. 循环数量相同时,随着任务复杂度的上升,ray的优势越来越小
  3. multiprocessing的同步和异步执行在所有情况下都表现接近
    在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2236791.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【软考】系统分析师第二版 新增章节 第20章微服务系统分析与设计

微服务系统是一类基于微服务架构风格的分布式系统,它将应用程序拆分成多个独立的小型服务,每个服务都运行在独立的进程中,并采用轻量级通信协议进行通信。这些服务可以由不同的团队开发、不同的编程语言编写,并且可以按需部署。微…

【WRF理论第七期】WPS预处理

【WRF理论第七期】WPS预处理 运行WPS(Running the WPS)步骤1:Define model domains with geogrid步骤2:Extracting meteorological fields from GRIB files with ungrib步骤3:Horizontally interpolating meteorologic…

【设计模式】行为型模式(一):模板方法模式、观察者模式

行为型模式(一):模板方法模式、观察者模式 1.模板方法模式(Template)1.1 主要特点1.2 适用场景1.3 示例1.3.1 抽象类定义模板方法1.3.2 子类实现具体步骤1.3.3 客户端1.3.4 结果输出 2.观察者模式(Observer…

【ESP32】ESP-IDF开发 | 低功耗管理+RTC唤醒和按键唤醒例程

1. 简介 ESP32支持5种低功耗模式,低功耗管理单元包括调压器、功耗控制器、电源开关单元、电源域隔离单元 (Isolation Cell) 等部分。 1.1 RTC单元 RTC单元是ESP32低功耗管理的核心,可用于管理低功耗模式的进入和退出,控制时钟源、PLL、电源开…

国家电投“电投云”平台,浪潮信息助力其登顶IDC大奖

近日,国际权威咨询机构IDC揭晓了“2024 IDC中国未来企业大奖”优秀奖榜单。国家电力投资集团有限公司倾力打造的“电投云”平台,凭借其卓越的大规模云计算能力、高效的应用迁移设计,成功支撑了集团的产业数字化与管理数字化应用,为…

下载mysql的jar,添加至jmeter中,编写jdbc协议脚本1106

下载jar包: 步骤1:进入maven仓库官网https://mvnrepository.com/ 步骤2:搜索实际的数据库 步骤3:点击 Mysql connnector/J 步骤5、查看数据库的版本号,选择具体版本,我的是mysql 8.0.16,下图,…

【分布式事务】二、NET8分布式事务实践: DotNetCore.CAP 框架 、 消息队列(RabbitMQ)、 数据库(MySql、MongoDB)

介绍 [CAP]是一个用来解决微服务或者分布式系统中分布式事务问题的一个开源项目解决方案, 同样可以用来作为 EventBus 使用 github地址:https://github.com/dotnetcore/CAP官网地址: https://cap.dotnetcore.xyz/官网文档:https://cap.dotnetcore.xyz/userguide/zh/cap/id…

嘉吉连续第七年亮相进博会

以“新质绿动,共赢未来”为主题,嘉吉连续第七年亮相进博会舞台。嘉吉带来了超过120款产品与解决方案,展示嘉吉在农业、食品、金融和工业等领域以客户为中心的创新成果。这些产品融合了嘉吉在相关领域的前瞻性思考,以及对本土市场的…

低代码工作流平台概述-自研

讲解视频可看【【低代码】【企业级】【毕设】一键生成web应用,最强最便捷简单的低代码工作流平台-哔哩哔哩】 【低代码】【企业级】【毕设】一键生成web应用,最强最便捷简单的低代码工作流平台_哔哩哔哩_bilibili 1.在线设计数据库 2.表单设计 3.流程设…

vue3+vite 前端打包不缓存配置

最近遇到前端部署后浏览器得清缓存才能出现最新页面效果得问题 所以…按以下方式配置完打包就没啥问题了,原理很简单就是加个时间戳 /* eslint-disable no-undef */ import {defineConfig, loadEnv} from vite import path from path import createVitePlugins from…

【C++滑动窗口】1297. 子串的最大出现次数|1748

本文涉及的基础知识点 C算法:滑动窗口及双指针总结 固定长度滑动窗口 LeetCode1297. 子串的最大出现次数 给你一个字符串 s ,请你返回满足以下条件且出现次数最大的 任意 子串的出现次数: 子串中不同字母的数目必须小于等于 maxLetters 。…

【Vue】简易博客项目跟做

项目框架搭建 1.使用vue create快速搭建vue项目 2.使用VC Code打开新生成的项目 端口号简单配置 修改vue.config.js文件,内容修改如下 所需库安装 npm install vue-resource --save --no-fund npm install vue-router3 --save --no-fund npm install axios --save …

机器人助力Bridge Champ游戏:1.4.2版本如何提升玩家体验

在Bridge Champ游戏中,机器人扮演着桥牌游戏的“无名英雄”角色,默默地提升玩家体验。凭借智能化的设计,这些机器人不仅能够陪练,也大大提升了比赛的流畅度与趣味性。 Bridge Champ是什么 Bridge Champ是一个基于Ignis公链的在线…

U-Mail反垃圾邮件网关精准拦截各种垃圾病毒邮件

在当今数字化时代,电子邮件已成为企业沟通不可或缺的一部分。然而,其开放性也使得电子邮件系统容易受到垃圾邮件和恶意软件的侵袭。根据最新数据,2024年第二季度,国内企业邮箱用户共收到9.1亿封垃圾邮件,这一数字比上一…

Docker可视化管理面板DPanel的安装

本文软件由网友 rui 推荐; 什么是 DPanel ? DPanel 是一款 Docker 可视化管理面板,旨在简化 Docker 容器、镜像和文件的管理。它提供了一系列功能,使用户能够更轻松地管理和部署 Docker 环境。 软件特点: 可视化管理&…

Java——final用法

一、final 介绍 在Java中,final关键字有多种用途,可以用来修饰变量、方法和类。它的主要作用是确保所修饰的内容不可改变。 二、final 用法 1、修饰变量 1)局部变量 当一个局部变量被声明为final时,它的值在初始化后就不能被…

科技改变生活:最新智能开关、调光器及插座产品亮相

根据QYResearch调研团队的最新力作《欧洲开关、调光器和插座市场报告2023-2029》显示,预计到2029年,欧洲开关、调光器和插座市场的规模将攀升至57.8亿美元,并且在接下来的几年里,将以4.2%的复合年增长率(CAGR&#xff…

走进算法大门---双指针问题(一)

一.双指针算法介绍 概念:双指针是指在遍历数据结构(如数组、链表等)时使用两个指针,通过特定的移动规则来解决问题。这两个指针可以同向移动,也可以相向移动。 同向双指针:常用于解决需要两个位置信息的问…

用 Python 从零开始创建神经网络(一)

用 Python 从零开始创建神经网络(一) 引言1. A Single Neuron:Example 1代码部分: Example 2代码部分: 2. A Layer of Neurons:Example 1代码部分: 引言 本教程专为那些对神经网络已有基础了解…

深度学习⑨GANs

Discriminative and Generative Models Deep learning中主要两种模型 判别模型专注于从输入预测输出,例如分类任务。学习数据点和标签之间的特征 生成模型则试图理解数据是如何产生的,能够生成新的数据样本。理解数据分布和是否可以被预测 Quiz time: Discriminative mo…