运行100万个并发任务,不同语言各需要多少内存

news2024/12/28 18:14:54

作者:DataStax 公司(美国的一家数据库系统开发商)Piotr Kołaczkowski

原文见: https://pkolaczk.github.io/memory-consumption-of-async/

在这篇博客文章中,探讨了处理大量网络连接时候的Rust、Go、Java、C#、Python、Node.js和Elixir等流行语言中的内存消耗比较。

在不久之前,遇上了一个必须比较几个计算机程序设计来处理大量网络连接的并发需求,看到各种程序在处理大量网络连接时的内存消耗差异很大,甚至超过20倍!

其中有些程序消耗很少超过100MB,但是有些程序(在1万并发)的连接中消耗达到了3GB,不过,由于这些程序非常复杂,而且各种框架的特性也不同,所以很难直接比较它们并得出有意义的结论,因为这不是一种苹果对另外一种苹果的直接比较。

因此,我产生了一种合成基准的想法,即创建一个合成基准来比较各种编程语言的内存消耗。

基准测试

在下面,我们使用不同的编程语言编写了以下程序:

启动N个并发任务,每个任务等待10秒,然后所有任务完成后程序退出。任务数量由命令行参数控制。

因为我们现在可以借助ChatGPT,所以可以轻松地使用那些平时很少使用的编程语言,几分钟就能写出来这种程序。为了让大家使用方便,已经在github上全部发布,测试代码也一并附上。

地址: https://github.com/pkolaczk/async-runtimes-benchmarks

Rust

在Rust里面,编写了三种解决方案,第一种采用了传统的多线程模式:

let mut handles = Vec::new();
for _ in 0..num_threads {
    let handle = thread::spawn(|| {
        thread::sleep(Duration::from_secs(10));
    });
    handles.push(handle);
}
for handle in handles {
    handle.join().unwrap();
}

后面两种方式都采用的是异步模式,分别用了tokio框架和async-std框架:

下面是tokio框架的异步代码:

let mut tasks = Vec::new();
for _ in 0..num_tasks {
    tasks.push(task::spawn(async {
        time::sleep(Duration::from_secs(10)).await;
    }));
}
for task in tasks {
    task.await.unwrap();
}

最后因为async-std方案与tokio方法的实现非常相似,这里就不直接贴出来了。

Go

在 Go 中,使用了并发常用的构建块:goroutines ,当然我们不会单独使用它们,而是使用WaitGroup:

var wg sync.WaitGroup
for i := 0; i < numRoutines; i++ {
    wg.Add(1)
    go func() {
        defer wg.Done()
        time.Sleep(10 * time.Second)
    }()
}
wg.Wait()

Java

Java处理此类问题在传统上会使用线程,但JDK 21提供了虚拟线程,这是与goroutines的概念类似。因此,我们创建了基准测试的两个变体。因为我也很好奇Java线程与Rust的线程相比效果到底如何。

List<Thread> threads = new ArrayList<>();
for (int i = 0; i < numTasks; i++) {
    Thread thread = new Thread(() -> {
        try {
            Thread.sleep(Duration.ofSeconds(10));
        } catch (InterruptedException e) {
        }
    });
    thread.start();
    threads.add(thread);
}
for (Thread thread : threads) {
    thread.join();
}

这是带有虚拟线程的变体。请注意它是多么相似!几乎一模一样!

List<Thread> threads = new ArrayList<>();
for (int i = 0; i < numTasks; i++) {
    Thread thread = Thread.startVirtualThread(() -> {
        try {
            Thread.sleep(Duration.ofSeconds(10));
        } catch (InterruptedException e) {
        }
    });
    threads.add(thread);
}
for (Thread thread : threads) {
    thread.join();
}

C#

C#,类似于Rust,对async/await有一流的支持:

List<Task> tasks = new List<Task>();
for (int i = 0; i < numTasks; i++)
{
    Task task = Task.Run(async () =>
    {
        await Task.Delay(TimeSpan.FromSeconds(10));
    });
    tasks.Add(task);
}
await Task.WhenAll(tasks);

Node.JS

const delay = util.promisify(setTimeout);
const tasks = [];

for (let i = 0; i < numTasks; i++) {
    tasks.push(delay(10000);
}

await Promise.all(tasks);

Python

Python使用async/await特性

async def perform_task():
    await asyncio.sleep(10)


tasks = []

for task_id in range(num_tasks):
    task = asyncio.create_task(perform_task())
    tasks.append(task)

await asyncio.gather(*tasks)

Elixir

Elixir也以其异步功能而闻名:

tasks =
    for _ <- 1..num_tasks do
        Task.async(fn ->
            :timer.sleep(10000)
        end)
    end

Task.await_many(tasks, :infinity)

测试环境

  • Hardware: Intel(R) Xeon(R) CPU E3-1505M v6 @ 3.00GHz
  • OS: Ubuntu 22.04 LTS, Linux p5520 5.15.0-72-generic
  • Rust: 1.69
  • Go: 1.18.1
  • Java: OpenJDK “21-ea” build 21-ea+22-1890
  • .NET: 6.0.116
  • Node.JS: v12.22.9
  • Python: 3.10.6
  • Elixir: Erlang/OTP 24 erts-12.2.1, Elixir 1.12.2

所有程序都使用release 模式(如果可用)启动。其他选项保留为默认值。

测试结果

最小占用空间

让我们从最少开销做起。由于程序的某些运行时本身就需要一些内存,因此让我们首先只启动一个任务。

图例.1:启动一个任务所需的峰值内存

在最小需求的情况下,我们很明确的可以看见有两类程序:

  • 以Rust 和Go这样的静态编译为本机二进制代码的程序,在启动的时候,仅需要很少的内存;
  • 而以通过解释器运行的程序,在启动的时候需要消耗更多内存……虽然Python在这种情况下表现出了很好的效果,但是对比静态编译的程序,这两类程序语言之间的内存消耗还是有明确的差距,大约是一个数量级。

令我们感到惊讶的是,.NET 不知何故具有最糟糕的效果,但这些东西应该可以通过一些设置进行调整。因为我们并不太熟悉.NET的开发和调优,如果有相关任何技巧,请在评论中告诉我。整体而言,并还没有看到debug模式和release模式之间有太大区别。

1万并发任务

图例.2:启动1万个并发任务所需的峰值内存

这里出现了一些惊喜!之前有过开发经验的人,都可能预料到使用线程会成为这个基准测试的大输家。特别对于 Java 线程来说也是如此,它确实消耗了近 250 MB 的 RAM。

但是同样使用线程来处理,Rust则表现好得多:Rust使用的是原生Linux线程,所以似乎足够轻量级,在10k线程下,内存消耗仍然低于许多其他运行时的空闲内存消耗。Java的异步任务或虚拟线程效果也似乎比本机线程轻,但我们不会在仅1万个并发这种简单任务中看到这种优势。我们需要给它们更多的压力。

这里的另一个惊喜是Go。按道理来说,Goroutines 应该是非常轻量级的,但它们实际上消耗了比Rust线程更多达50% 以上的 RAM。老实说,我期待的是在更大的差异下,出现有利于Go的结论。

因此,这里可以得出第一个结论,起码在1万个并发任务中,线程仍然是一个相当有竞争力的选择。我们猜想,Linux内核肯定在这里做了一些事情。

Go 在这个的基准测试中也失去了它对 Rust 异步的微小优势,而现在它消耗的内存比最好的 Rust 程序多 6 倍以上。甚至它都被Python超越了。

最后一个惊喜是,在1万并发这个任务中,.NET 的内存消耗并没有因空闲内存使用而显着增加。我们猜想,在启动时候消耗的内存,可能只是它在使用预分配的内存。但是有个可能就是它的空闲内存使用率如此之高,以至于一万并发对他来说,压力太少而感觉无关紧要。

10万并发

在我的系统上,无法启动 10万个线程,因此必须排除使用线程来进行基准测试。可能这可以通过更改系统设置以某种方式进行调整,但是在尝试了一个小时后,我放弃了。因此,在10万并发中,打架可能不想使用线程。

在10万并发的情况下,Go程序不仅被Rust击败,还被接连被Java,C#和Node.JS击败,已经降到了第四位……

我一度怀疑在Linux上,.NET的程序可能出现了作弊情况,因为它的内存使用量仍然没有上升。我不得不仔细检查它是否真的启动了正确数量的任务,但确实如此。大约 10 秒后它仍然正确结束,因此不会阻塞主循环。简直就是黑魔法!干得漂亮!.NET。

100万并发

现在进入测试的高潮,我们用100万个并发来进行极端测试。

在100万个任务中,Elixir直接崩溃了,提示:

  • ** (SystemLimitError) a system limit has been reached
ps:一些评论者指出我可以增加进程限制。在将 --erl '+P 1000000' 参数添加到Elixir调用后,它运行良好。

最后,我们看到 C# 程序的内存消耗虽然有所增加。但它仍然是今天冠军的有力竞争者。它甚至设法略微击败了 Rust 的异步框架之一!

让我感到意外的是,Go 和其他语言之间的距离增加了。现在Go输给赢家(Rust tokio框架)的开销超过12倍。同时它甚至输给了Java的2倍以上,这与JVM是内存消耗和Go是轻量级的普遍看法相矛盾。

最终的冠军是Rust tokio框架,它在所有的测试项中,表现仍然无与伦比。特别是在最后的100万并发测试中。

结语

正如我们所观察到的,大量并发任务会消耗大量内存,即使它们不执行复杂的操作。不同的语言运行时有不同的权衡,有些对于少量任务来说是轻量级和高效的,但对于数十万个任务来说,扩展性就表现得很差。

相反,.NET、Java这种具有高初始开销的其他运行时可以毫不费力地处理高工作负载。需要注意的是,并非所有运行时都能够使用默认设置处理大量并发任务。

当然,今天的测试,只关注内存的消耗,而在真正的高并发应用中,任务启动执行时间和通信速度等其他因素同样重要。值得注意的是,在 100 万个并发的任务中,启动任务的开销变得明显,大多数程序需要超过 12 秒才能完成。

有兴趣的同学,请继续关注即将到来的基准测试,我们未来将深入探讨其他方面。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/559176.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

企企通“码上顺”清洗工具 | 让数据更有价值,让业务更出色

数据清理工作是企业数据管理、数据治理中的最基础的工作之一&#xff0c;不仅是一项苦活、累活&#xff0c;也是一个既考验业务又检验技术的活。 物料主数据作为企业核心的数据资产&#xff0c;在智慧供应链、业财一体化等数字化建设中发挥着重要作用。在当今高速发展的商业环…

《汇编语言》- 读书笔记 - 实验2 用机器指令和汇编指令编程

《汇编语言》- 读书笔记 - 实验2 用机器指令和汇编指令编程 1. 预备知识: Debug 的使用2 .实验任务 1. 预备知识: Debug 的使用 统一完善到&#xff1a;实验 1 查看 CPU 和内存&#xff0c;用机器指令和汇编指令编程。不在这拆开写了。 2 .实验任务 使用 Debug&#xff0c;将…

功率放大器在压电驱动器中的作用及应用

功率放大器在压电驱动器中的作用是将低功率信号放大为足够大的电力信号&#xff0c;以驱动压电陶瓷材料产生相应的机械振动。 压电陶瓷材料是一种特殊的陶瓷材料&#xff0c;能够将机械能转换为电能&#xff0c;因此被广泛应用于各种类型的振动器件和传感器中。这些器件通常需要…

Combiner

概述 Conbiner在MapReduce的Shuffle阶段起作用&#xff0c;它负责局部数据的聚合&#xff0c;我们可以看到&#xff0c;对于大数据量&#xff0c;如果没有Combiner&#xff0c;将会在磁盘上写入多个文件等待ReduceTask来拉取&#xff0c;但是如果有Combiner组件&#xff0c;我们…

5 个章节、25 条规范,全方位 Get 数据集选择与创建的「百科全书」

By 超神经 内容一览&#xff1a;如果你正在学习如何创建或选择一个合适的数据集&#xff0c;那么这篇文章会给你一些实用的建议&#xff0c;帮助你在选择和创建数据集时做出明智的决策。 关键词&#xff1a;机器学习 数据集 本文首发自 HyperAI 超神经微信公众平台~ 作者 |…

星标3.5k,一款国产的轻量级开源在线项目任务管理工具

今天给大家推荐一个轻量级的开源在线项目任务管理工具&#xff1a;DooTask 图片 DooTask 提供各类文档协作工具、在线思维导图、在线流程图、项目管理、任务分发、即时IM&#xff0c;文件管理等工具。 高效便捷的团队沟通工具 针对项目和任务建立群组&#xff0c;工作问题可…

SRP Batcher在真机上失效

1&#xff09;SRP Batcher在真机上失效 ​2&#xff09;Shader里面对同一张纹理多次采样会影响效率吗 3&#xff09;为什么纹理开启了mipmap后&#xff0c;纹理内存反而下降了 4&#xff09;TMP为什么有多次Delegate.Combine()的GC 这是第336篇UWA技术知识分享的推送&#xff0…

如何减少电脑内存占用?

内存(Memory)是计算机一个重要的组成部件&#xff0c;也称为内存储器或主存储器。它可以暂时存放CPU中运算的数据&#xff0c;以及与硬盘等外部存储器交换的数据&#xff0c;是CPU和硬盘之间的桥梁。若电脑内存占用过高&#xff0c;这会影响到电脑运行的速度&#xff0c;那该如…

网络安全行业推荐考取的证书有哪些?

下面就让知白小编来给解读一下这个问题~作为网络安全行业从业者或者相关专业的大学生&#xff0c;如果相应的职业证书在手&#xff0c;肯定是会身价倍增。 咳咳&#xff0c;但是如果你还是网络安全小白&#xff0c;知白小编不建议你直接去考认证&#xff0c;应该是先打好基础学…

三、LLC 谐振变换器

电压增益特性分析 根据搭建的 LLC 谐振变换器主电路等效模型&#xff0c;可推导出变换器直流电压 增益为 M&#xff1a; λ 4时的增益曲线如下图所示&#xff1a; 根据变换器直流电压增益表达式&#xff0c;利用 Mathematica 绘制出λ4 时&#xff0c;变换器取不同 Q 值的直…

创建型设计模式01-简单工厂模式

✨作者&#xff1a;猫十二懿 ❤️‍&#x1f525;账号&#xff1a;CSDN 、掘金 、个人博客 、Github &#x1f389;公众号&#xff1a;猫十二懿 这里只是简单的将《大话设计模式【Java溢彩加强版】》的内容简单是复述一下&#xff0c;并加上自己的理解 简单工厂模式 1、引入问…

windows环境下sublime的nodejs插件详细安装图解

前面的话 搜索了好多文档后&#xff0c;才成功地安装了sublime text3的nodejs插件。为了存档&#xff0c;也为了方便有同样需求的朋友&#xff0c;将其安装过程详细记录如下 安装nodejs 虽然nodejs官网提供了node的msi文件&#xff0c;但本人在win7系统下多次尝试&#xff0c;…

在阿里干了6年自动化测试,30岁即将退休的我,告诉你自动化测试工程师有多吃香...

测试人员需要具备自动化测试或者测试开发能力&#xff0c;已经成为测试行业内容的一种显在趋势&#xff0c;而且这种趋势呈放大态势&#xff0c;其发展前景是十分明朗的。 2022这种疫情期间&#xff0c;就业大环境不是很理想&#xff0c;目前呢&#xff0c;企业倾向于招自动化…

Win11下Microsoft Store安装Ubuntu报错解决指南

目录 从Microsoft Store下载Ubuntu下载安装完毕后&#xff0c;打开安装时报错&#xff1a; 一. WslRegisterDistribution failed with error: 0x8007019e 二. WslRegisterDistribution failed with error: 0x800701bc 如果帮到你的话&#xff0c;麻烦点个免费的关注吧bro♥…

测试开发工程师的薪资上限究竟在哪?年薪50W都不是梦...

在说测试开发工程师的薪资待遇之前&#xff0c;咱们要先了解软件测试岗位是用来做什么的&#xff0c;岗位是否重要&#xff0c;只有你知道了这些&#xff0c;才能判断这个岗位是否有价值&#xff01;软件测试是依据需求分析和测试用例&#xff0c;运用手工和自动化的手段来验证…

市场需求升级,cv5200带来新的WiFi传输解决方案,远距离无线通信技术

近年来&#xff0c;随着无线通信技术的不断发展&#xff0c;越来越多的应用需要高速率、远距离、稳定的数据传输。 远距离WiFi传输是指通过WiFi信号实现在远距离范围内的无线通信和数据传输。 为此&#xff0c;cv5200采用了先进的技术&#xff0c;并提供了较远的传输距离、高…

高速高密PCB高级验证技巧(四): 扫除信号线的意外回音

现今电子产品复杂度越趋增加&#xff0c;信号速度越来越快&#xff0c;在信号传输的过程中&#xff0c;如果信号不断反射便会对电子产品的运作造成影响&#xff0c;而这又与阻抗连续性以及阻抗匹配息息相关&#xff1b;而如何避免信号反射&#xff0c;除了在硬件设计时的规划外…

我用过的这5款小工具,你用了其中几款?

有时候一些小工具&#xff0c;能给你带来一些意想不到的效果&#xff0c;我们来看看下面这5款工具&#xff0c;你又用过其中几款呢&#xff1f; 1.文件差异比较工具——WinMerge WinMerge是一款文件和文件夹比较工具,它可以查看文件和文件夹之间的差异,并进行合并。这个工具有…

uCOSii任务管理

uCOSii任务管理 主要用来测试uCOSii“创建任务,挂起任务,恢复任务,发送删除任务请求,删除任务”。 在os_cfg.h中 #define OS_LOWEST_PRIO 63u //设置最低优先级为63,则空闲任务优先级OS_TASK_IDLE_PRIO就等于63 //OS_PRIO_SELF为255,因此OS_LOWEST_PRIO<255 注意&a…

目标检测数据预处理——非宫格与宫格混合拼图(大宽高比图片)

之前一直用的是宫格的正方形拼图&#xff0c;但比如对“人”框的截图是这种高宽高比的长方形图片&#xff0c;按照最大边resize最小边等比例缩放后放入宫格中对造成最小边resize太多&#xff0c;整体图片缩小很多。所以本片专门针对高宽高比的图片拼图进行编辑。 本篇的拼图方式…