运行 100 万个并发任务需要多少内存?

news2024/11/24 15:21:59

在这篇博文中,我深入研究了 Rust、Go、Java、C#、Python、Node.js 和 Elixir 等流行语言在异步和多线程编程之间的内存消耗比较。

前段时间,我不得不比较一些旨在处理大量网络连接的计算机程序的性能。我看到这些程序的内存消耗存在巨大差异,甚至超过 20 倍。一些程序消耗的内存略多于 100 MB,但其他程序在 10k 连接时几乎达到 3 GB。不幸的是,这些程序非常复杂,而且在功能上也各不相同,因此很难直接比较它们并得出一些有意义的结论,因为这不是一个对等的比较。这让我产生了创建综合基准的想法。

我用各种编程语言创建了以下程序:

让我们启动 N 个并发任务,其中每个任务等待 10 秒,然后在所有任务完成后程序存在。任务的数量由命令行参数控制。

在 ChatGPT 的一点帮助下,我可以在几分钟内编写出这样的程序,即使是使用我不是每天使用的编程语言。为了您的方便,所有基准测试代码都可以在我的 GitHub 上找到。

我用 Rust 创建了 3 个程序。第一个使用传统线程。这是它的核心:

let mut handles = Vec::new();
for _ in 0..num_threads {
    let handle = thread::spawn(|| {
        thread::sleep(Duration::from_secs(10));
    });
    handles.push(handle);
}
for handle in handles {
    handle.join().unwrap();
}

其他两个版本使用 async,一个使用 async,tokio另一个使用 async async-std。这是变体的核心tokio

let mut tasks = Vec::new();
for _ in 0..num_tasks {
    tasks.push(task::spawn(async {
        time::sleep(Duration::from_secs(10)).await;
    }));
}
for task in tasks {
    task.await.unwrap();
}

async-std体非常相似,所以我不会在这里引用它。

在 Go 中,goroutines 是并发的构建块。我们不单独等待它们,而是使用 aWaitGroup代替:

var wg sync.WaitGroup
for i := 0; i < numRoutines; i++ {
    wg.Add(1)
    go func() {
        defer wg.Done()
        time.Sleep(10 * time.Second)
    }()
}
wg.Wait()

Java 传统上使用线程,但 JDK 21 提供了虚拟线程的预览,这是与 goroutines 类似的概念。因此,我创建了基准测试的两个变体。我也很好奇 Java 线程与 Rust 的线程相比如何。

List<Thread> threads = new ArrayList<>();
for (int i = 0; i < numTasks; i++) {
    Thread thread = new Thread(() -> {
        try {
            Thread.sleep(Duration.ofSeconds(10));
        } catch (InterruptedException e) {
        }
    });
    thread.start();
    threads.add(thread);
}
for (Thread thread : threads) {
    thread.join();
}

这是带有虚拟线程的变体。请注意它是多么相似!几乎一模一样!

List<Thread> threads = new ArrayList<>();
for (int i = 0; i < numTasks; i++) {
    Thread thread = Thread.startVirtualThread(() -> {
        try {
            Thread.sleep(Duration.ofSeconds(10));
        } catch (InterruptedException e) {
        }
    });
    threads.add(thread);
}
for (Thread thread : threads) {
    thread.join();
}

C# 与 Rust 类似,对 async/await 有一流的支持:

List<Task> tasks = new List<Task>();
for (int i = 0; i < numTasks; i++)
{
    Task task = Task.Run(async () =>
    {
        await Task.Delay(TimeSpan.FromSeconds(10));
    });
    tasks.Add(task);
}
await Task.WhenAll(tasks);

Node.JS 也是如此:

const delay = util.promisify(setTimeout);
const tasks = [];

for (let i = 0; i < numTasks; i++) {
    tasks.push(delay(10000);
}

await Promise.all(tasks);

而Python在3.5中加入了async/await,所以我们可以这样写:

async def perform_task():
    await asyncio.sleep(10)


tasks = []

for task_id in range(num_tasks):
    task = asyncio.create_task(perform_task())
    tasks.append(task)

await asyncio.gather(*tasks)

Elixir 也以其异步功能而闻名:

tasks =
    for _ <- 1..num_tasks do
        Task.async(fn ->
            :timer.sleep(10000)
        end)
    end

Task.await_many(tasks, :infinity)

测试环境

  • 硬件:Intel(R) Xeon(R) CPU E3-1505M v6 @ 3.00GHz
  • 操作系统:Ubuntu 22.04 LTS,Linux p5520 5.15.0-72-generic
  • 生锈:1.69
  • 去:1.18.1
  • Java:OpenJDK“21-ea”构建 21-ea+22-1890
  • .NET:6.0.116
  • Node.JS:v12.22.9
  • 蟒蛇:3.10.6
  • Elixir:Erlang/OTP 24 erts-12.2.1,Elixir 1.12.2

如果可用,所有程序都使用发布模式启动。其他选项保持默认。

结果

最小占地面积

让我们从小事做起。由于某些运行时自身需要一些内存,因此我们首先只启动一个任务。

                                                         

                                        图 1:启动一项任务所需的峰值内存

我们可以看到肯定有两组程序。静态编译为本机二进制文件的 Go 和 Rust 程序需要很少的内存。在托管平台上运行或通过解释器运行的其他程序会消耗更多内存,尽管 Python 在这种情况下表现得非常好。这两组之间的内存消耗大约有一个数量级的差异。

令我惊讶的是 .NET 在某种程度上具有最差的占用空间,但我想这可能可以通过一些设置进行调整。如果有任何技巧,请在评论中告诉我。我没有看到调试和发布模式之间有太大区别。

10k 任务

                                                 图 2:启动 10,000 个任务所需的峰值内存

这里有一些惊喜!每个人都可能预料到线程会成为这个基准测试的大输家。Java 线程也是如此,它确实消耗了将近 250 MB 的 RAM。但是从 Rust 使用的原生 Linux 线程似乎足够轻量级,以至于在 10k 线程时内存消耗仍然低于许多其他运行时的空闲内存消耗。异步任务或虚拟(绿色)线程可能比本机线程更轻,但我们不会在只有 10k 任务时看到这种优势。我们需要更多的任务。

另一个惊喜是 Go。Goroutines 应该是非常轻量级的,但实际上它们消耗了 Rust 线​​程所需 RAM 的 50% 以上。老实说,我原以为 Go 会有更大的不同。因此,我得出结论,在 10k 并发任务时,线程仍然是一个很有竞争力的选择。Linux 内核肯定会在这里做一些事情。

Go 也失去了它在之前的基准测试中相对于 Rust async 的微小优势,现在它消耗的内存比最好的 Rust 程序多 6 倍。它也被Python超越了。

最后的惊喜是,在 10k 任务时,.NET 的内存消耗并没有从空闲内存使用中显着增加。可能它只是使用预分配的内存。或者它的空闲内存使用率如此之高,以至于 10k 任务太少而无关紧要。

100k 任务

我无法在我的系统上启动 100,000 个线程,因此必须排除线程基准测试。可能这可以通过更改系统设置以某种方式进行调整,但尝试了一个小时后我放弃了。所以在 100k 任务时你可能不想使用线程。

 

                         图 3:启动 100,000 个任务所需的峰值内存

在这一点上,Go 程序不仅被 Rust 击败,而且被 Java、C# 和 Node.JS 击败。

Linux .NET 可能会作弊,因为它的内存使用量仍然没有增加。;) 我不得不仔细检查它是否真的启动了正确数量的任务,但确实如此。大约 10 秒后它仍然退出,所以它不会阻塞主循环。魔法!干得好,.NET。

100 万个任务

现在让我们走极端。

在 100 万个任务时,Elixir 放弃了** (SystemLimitError) a system limit has been reached. 编辑:一些评论者指出我可以增加进程限制。在调用中添加 --erl '+P 1000000'参数后elixir,它运行良好。

                        图 4:启动 100 万个任务所需的峰值内存

最后我们看到了 C# 程序内存消耗的增加。但它仍然非常有竞争力。它甚至设法略微击败了 Rust 运行时之一!

Go 和其他人之间的距离增加了。现在围棋输给了赢家超过 12 倍。它也输给了 Java 超过 2 倍,这与 JVM 是内存大户而 Go 是轻量级的普遍看法相矛盾。

Rusttokio仍然是无与伦比的。在看到它在 100k 任务中的表现后,这并不奇怪。

最后一句话

正如我们所观察到的,大量并发任务会消耗大量内存,即使它们不执行复杂的操作也是如此。不同的语言运行时有不同的权衡,有些运行时对于少量任务来说是轻量级和高效的,但对于数十万个任务来说扩展性很差。相反,其他具有高初始开销的运行时可以毫不费力地处理高工作负载。重要的是要注意,并非所有运行时都能够使用默认设置处理大量并发任务。

这种比较只关注内存消耗,而任务启动时间和通信速度等其他因素同样重要。值得注意的是,在 100 万个任务时,我观察到启动任务的开销变得明显,大多数程序需要超过 12 秒才能完成。请继续关注即将推出的基准测试,我将在其中深入探讨其他方面。

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/558890.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【Atlas200】华为AIPP配置文件使用

目录 AIPP介绍图像处理顺序例子&#xff1a;YUV420SP_U8转BGR格式归一化配置对应公式crop及padding功能配置生效AIPP转换模板 AIPP介绍 华为的AIPP&#xff08;AI Preprocessing&#xff09;是一种面向AI应用的图像预处理技术&#xff0c;旨在提高AI应用的效率和精度。AIPP支持…

C语言深度解析--数组

目录 一维数组的创建与初始化 一维数组的创建&#xff1a; 一维数组的初始化&#xff1a; 一维数组的使用&#xff1a; 一维数组在内存中的存储&#xff1a; 二维数组的创建与初始化 二维数组的创建&#xff1a; 二维数组的初始化&#xff1a; 二维数组的使用&#xf…

是面试官放水,还是公司太缺人了?华为原来这么容易就进了...

华为是大企业&#xff0c;是不是很难进去啊&#xff1f;” “在华为做软件测试&#xff0c;能得到很好的发展吗&#xff1f; 一进去就有9.5K&#xff0c;其实也没有想的那么难” 直到现在&#xff0c;心情都还是无比激动&#xff01; 本人211非科班&#xff0c;之前在字节和腾…

以“智”提质丨信创呼叫

随着人工智能、大数据、云计算等新兴技术飞速发展&#xff0c;呼叫中心、全媒体智能客服等现已被广泛应用于多个行业领域。其中&#xff0c;呼叫中心作为政企对外服务的重要窗口&#xff0c;已从“传统电话营销”发展到“智能呼叫中心”阶段&#xff0c;以客户服务为核心&#…

Windows下Elasticsearch下载安装

Windows下Elasticsearch下载安装 最近搭一个语义搜索web需要用到es。 1.下载 下载地址&#xff1a;官网下载地址 下载zip格式解压就行&#xff0c;这里我下载的是8.7.1 1.1解压启动 解压之后&#xff0c;进入elasticsearch的bin目录&#xff0c;通过点击elasticsearch.ba…

0基础学习VR全景平台篇第28章:场景管理—遮罩功能

本期为大家带来蛙色VR平台&#xff0c;场景管理模块-遮罩功能&#xff01; 功能位置示意 一、本功能将用在哪里&#xff1f; 遮罩分为两种&#xff0c;分别是地面遮罩和天空遮罩。 地面遮罩位于全景图底部的正中间&#xff0c;天空遮罩位于全景图顶部的正中间。 遮罩一方面可…

已解决python使用pymysql向mysql数据库插入数据报错pymysql.err.DataError: (1366, ‘‘)

已解决&#xff0c;在python代码是使用pymysql向mysql数据库插入数据时报错pymysql.err.DataError: (1366, ) 问题描述 我从某个网页上抓取并解析了一段html代码&#xff0c;然后将html代码转为utf-8格式&#xff0c;之后将html代码作为数据表的一个属性存入mysql数据库中&…

代码签名证书,保护应用程序安全性

在现代IT环境中&#xff0c;有大量不同的方式可以用来确保应用程序的安全性。其中一个就是从源头开始&#xff0c;让应用程序开发者能够对他们的代码进行数字签名&#xff0c;从而确保给定应用程序的完整性和真实性。 一直以来&#xff0c;认证机构安理会&#xff08;CASC&…

2023年必备的10款交互设计软件

交互设计可以帮助明确产品需求和功能、进行用户测试和获取反馈、减少开发成本、促进团队合作&#xff0c;并在展示和推销产品时起到关键作用。通过有效的产品交互设计&#xff0c;可以提高产品的质量、用户体验和市场竞争力。 什么是产品交互设计&#xff1f; 产品交互设计是…

Linux查看磁盘利用率(iostat)

使用iostat命令可以查看磁盘的负载情况。iostat命令可以显示磁盘的I/O统计信息&#xff0c;包括磁盘的读写速度、I/O请求队列长度、CPU利用率等。 参数 Device&#xff1a;磁盘分区的名称。rrqm/s&#xff1a;每秒钟合并的读请求。wrqm/s&#xff1a;每秒钟合并的写请求。r/s…

11-FastDFS文件服务器 和 Nginx

1、什么是FastDFS 1、开源的轻量级分布式文件系统,用于解决大数据量存储和负载均衡等问题。 2、优点: 支持HTTP协议传输文件(结合Nginx); 对文件内容做Hash处理,节约磁盘空间; 支持负载均衡、整体性能较佳。 3、FastDFS的二个角色:跟踪服务器(Tracker)、存储服务器…

StringBuffer与StringBuilder的区别

&#x1f3c6;今日学习目标&#xff1a; &#x1f340;StringBuffer与StringBuilder的区别 ✅创作者&#xff1a;林在闪闪发光 ⏰预计时间&#xff1a;30分钟 &#x1f389;个人主页&#xff1a;林在闪闪发光的个人主页 &#x1f341;林在闪闪发光的个人社区&#xff0c;欢迎你…

档案馆库房温湿度监控系统简单介绍

智慧档案馆八防一体化监控系统 智慧档案平台/温湿度/空气质量/漏水/视频/门禁/一体化管控平台 HONSOR多维空间可视化智慧档案库房建设一体化平台分享 三维可视化智慧档案馆库房一体化环境安全管控系统平台 1.系统告警要求&#xff1a; &#xff08;1&#xff09;告警方式&am…

[PCIE733]基于PCI Express总线架构的2路160MSPS AD采集、12路LVDS图像数据采集卡

板卡概述 PCIE733是一款基于PCI Express总线架构的&#xff0c;实现2路16-bit、160MSPS ADC采集功能、12路LVDS数据采集板卡。该板卡遵循PCI Express 2.0规范&#xff0c;全高半长尺寸&#xff0c;板卡采用Xilinx的28nm高性能FPGA处理器XC7K325T作为主控制器&#xff0c;板卡AD…

【dfs序+线段树】P3178 [HAOI2015]树上操作

这道题&#xff0c;昨天调到一点多都没调出来&#xff0c;眼睛都要瞎了 今天看着题解边看边调出来了&#xff0c;但是还是感觉不是很会 m d&#xff0c;学的第一道关于树的DS就搞成这样 感觉很寄啊 P3178 [HAOI2015]树上操作 - 洛谷 | 计算机科学教育新生态 (luogu.com.cn)…

事务、分布式事务以及seata

事务 事务就是用户定义的一系列数据库操作&#xff0c;这些操作可以视为一个完成的逻辑处理工作单元&#xff0c;要么全部执行&#xff0c;要么全部不执行&#xff0c;是不可分割的工作单元。 事务的四个特效ACID Atomic 原子性&#xff0c;原子性是指事务必须是一个原子的操…

手摸手教你Vite+Vue3项目初始化及开源部署到GItee

项目初始化 本片文章主要记录项目的环境&#xff0c;项目搭建。 在开始本次学习中&#xff0c;鉴于你有前端三件套和vue的知识基础。 文档创建于2023年5月20日&#xff0c;大家都去过情人节了~我在肝代码&#xff01; 环境的搭建 node版本使用18.16.0。 目前&#xff08;202…

重磅!超星未来发布全新NOVA-ADCU智能驾驶参考方案

近日&#xff0c;超星未来重磅发布基于惊蛰R1芯片面向多场景打造的全新NOVA-ADCU智能驾驶参考方案&#xff0c;并亮相科技成果展。方案覆盖高阶行泊一体、轻量级行泊一体、双目智驾、路侧感知等场景&#xff0c;携手产业链上下游伙伴构建开放共赢的智能驾驶新生态。 以智能驾驶…

一种新的算法模型,填补微生物组纵向研究数据中的缺失值

谷禾健康 微生物组的纵向研究是一种长期跟踪微生物组变化的研究方法。在这类研究中&#xff0c;样本从同一人群或个人中多次采集&#xff0c;通过检测样本中微生物群落丰度的变化&#xff08;如不同菌群的比例和种类&#xff09;&#xff0c;来了解微生物组随时间的变化趋势和特…

【LeetCode225.用队列实现栈】你足够了解栈和队列吗?

​ 你好&#xff0c;欢迎来到我的博客&#xff01;作为一名程序员&#xff0c;我经常刷LeetCode题目来提升自己的编程能力。在我的博客里&#xff0c;我会分享一些我自己做过的题目和解题思路&#xff0c;希望能够帮助到大家。今天&#xff0c;我想和大家分享一道挑战性较高的题…