[python脚本]论文1.(一)CPU/内存数据分析和分组

news2025/2/24 8:52:10

CPU

收集到的CPU数据,格式如下:

由于这里6个数据为一组来收集latency的数据以及各个分位值的数据,而本质上每一行都是一次完整的测试,因此这里将这个csv文件分为两个文件,第一个是和latency相关的,将6条数据融合为一条,而剩下的数据比如eps等,单独整理为一个文件。

这里分为两步,第一步单独处理每个实例收集到的数据,第二步是汇总所有实例数据。

对于50个实例收到的数据,先通过将6条合并为一条,一共收集到12条数据(线程4*负载3),然后放在一个csv文件里面,再把不需要合并的数据放在另一个csv文件里面。

#写一个方法来处理这个逻辑
import pandas as pd

# 处理第一个文件
def process_file_1(df):
    print(df.columns.tolist())
    # 检查列名是否存在
    required_columns = ["threads", "cpu_max_prime", "percentile", "min_latency", "avg_latency", "max_latency", "percentile_latency"]
    for col in required_columns:
        if col not in df.columns:
            raise KeyError(f"列名 '{col}' 不存在于文件中")
    
    # 提取需要的列
    df = df[required_columns]
    
    # 按照 threads 和 cpu_max_prime 分组
    grouped = df.groupby(["threads", "cpu_max_prime"])
    
    # 定义新的数据结构
    result = []
    
    for name, group in grouped:
        # 确保每组有 6 条数据(对应 6 个百分位)
        if len(group) == 6:
            # 提取百分位数据
            percentiles = group.set_index("percentile")["percentile_latency"].to_dict()
            
            # 计算 min_latency, avg_latency, max_latency 的最大值、最小值和平均值
            min_latency_max = group["min_latency"].max()
            min_latency_min = group["min_latency"].min()
            min_latency_avg = group["min_latency"].mean()
            
            avg_latency_max = group["avg_latency"].max()
            avg_latency_min = group["avg_latency"].min()
            avg_latency_avg = group["avg_latency"].mean()
            
            max_latency_max = group["max_latency"].max()
            max_latency_min = group["max_latency"].min()
            max_latency_avg = group["max_latency"].mean()
            
            # 构建新的一条数据
            new_row = {
                "threads": name[0],
                "cpu_max_prime": name[1],
                "25percentile": percentiles.get(25, None),
                "50percentile": percentiles.get(50, None),
                "75percentile": percentiles.get(75, None),
                "90percentile": percentiles.get(90, None),
                "95percentile": percentiles.get(95, None),
                "99percentile": percentiles.get(99, None),
                "min_latency_max": min_latency_max,
                "min_latency_min": min_latency_min,
                "min_latency_avg": min_latency_avg,
                "avg_latency_max": avg_latency_max,
                "avg_latency_min": avg_latency_min,
                "avg_latency_avg": avg_latency_avg,
                "max_latency_max": max_latency_max,
                "max_latency_min": max_latency_min,
                "max_latency_avg": max_latency_avg,
            }
            result.append(new_row)
    
    # 转换为 DataFrame
    return pd.DataFrame(result)

随后批量处理,将所有的文件汇总到一个csv文件,每一个实例收集到的数据有一个index标记。

 处理node1,node2的数据,也是将6条合并为一条,最后有51*12条数据。

画箱线图:

def plot_boxplots(path, threads, cpu_max_prime, num_boxes=50, ax=None, save_path=None,label=None,y_min=None, y_max=None):
    """
    新增参数:
    - ax: 要绘制的子图坐标轴
    - save_path: 独立保存路径
    """
    df = pd.read_csv(path)
    # 提取指定线程数和 CPU 负载的数据
    data = df[(df['threads'] == threads) & (df['cpu_max_prime'] == cpu_max_prime)]
    data = data.reset_index(drop=True)

    # 检查是否有数据
    if data.empty:
        raise ValueError(f"没有满足条件的数据 (threads={threads}, cpu_max_prime={cpu_max_prime})!")

    # 将相关列转换为 float 类型
    numeric_columns = ['min_latency_min', '25percentile', '50percentile', '75percentile', '90percentile']
    for col in numeric_columns:
        data[col] = pd.to_numeric(data[col], errors='coerce')

    # 收集箱线图所需的数据
    boxplot_data = {
        'min': data['min_latency_min'].values,
        '25%': data['25percentile'].values,
        '50%': data['50percentile'].values,
        '75%': data['75percentile'].values,
        'max': data['90percentile'].values
    }

    # 使用传入的坐标轴或创建新的
    if ax is None:
        fig, ax = plt.subplots(figsize=(15, 8))
    else:
        plt.sca(ax)  # 激活传入的坐标轴

    # 确定 y 轴的范围
    if y_min is None and y_max is None:
        y_min = data[numeric_columns].min().min()
        y_max = data[numeric_columns].max().max()
        ax.set_ylim(y_min * 0.9, y_max * 1.1)
    else:
    # 显式设置用户定义的边界
        ax.set_ylim(y_min, y_max)
    # 绘制指定数量的箱线图
    for i in range(num_boxes):
        min_val = boxplot_data['min'][i]
        q1_val = boxplot_data['25%'][i]
        median_val = boxplot_data['50%'][i]
        q3_val = boxplot_data['75%'][i]
        max_val = boxplot_data['max'][i]

        # 调试打印
        #print(f"Box {i+1}: Min={min_val:.2f}, Q1={q1_val:.2f}, Median={median_val:.2f}, Q3={q3_val:.2f}, Max={max_val:.2f}")
        
        # 绘制箱子(25% 到 75%)
        ax.fill_between(
            x=[i + 0.8, i + 1.2],
            y1=[q1_val, q1_val],
            y2=[q3_val, q3_val],
            color='lightblue', alpha=0.7
        )

        # 绘制中位线
        ax.plot(
            [i + 0.8, i + 1.2],
            [median_val, median_val],
            color='red', linewidth=0.5
        )

        # 绘制下须(min 到 25%)
        ax.plot(
            [i + 1, i + 1],
            [min_val, q1_val],
            color='black', linewidth=1
        )

        # 绘制上须(75% 到 max)
        ax.plot(
            [i + 1, i + 1],
            [q3_val, max_val],
            color='black', linewidth=1
        )


    # 修改所有 plt.plot -> ax.plot
    ax.set_title(f'Latency Distribution (Threads={threads}, CPU={cpu_max_prime}, First {num_boxes} Tests,{label} plot.)')
    ax.set_xlabel('Test Index')
    ax.set_ylabel('Latency (ms)')
    ax.grid(True, linestyle='--', alpha=0.7)
    ax.set_xticks(range(1, num_boxes + 1))

    # 独立保存逻辑
    if save_path:
        plt.savefig(save_path, dpi=300, bbox_inches='tight')
    return ax

这里有两个生成箱线图的函数,一个是做的25%-75%的,一个是5%-95%的。

这里输出的图的纵坐标应该是相同的,从而更方便比较,所以这里的纵坐标也是一个输入变量。

最后得到的图:

这里使用了箱线图,但是具体的图还得改一下。还要加上一些数据说明。

这里的是CPU的图,类似的图有很多张。

这里要证明的是在时间latency的维度上,这里要比较哪个实例最稳定,当证明了虽然性能比较差,共享型实例最稳定/共享型实例的稳定性较物理设备也差不多的时候,可以进一步论述对于不同的实例,哪些负载的稳定性最高。

内存:

内存没有做,但是估计差不多,可以从本地来循环的做,看看数据分布。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2304305.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

一周学会Flask3 Python Web开发-Jinja2模板基本使用

锋哥原创的Flask3 Python Web开发 Flask3视频教程: 2025版 Flask3 Python web开发 视频教程(无废话版) 玩命更新中~_哔哩哔哩_bilibili 我们平台开发web系统,必须用到网页,单纯的静态网页无法满足我们的需求。我们可以使用模版引擎技术&am…

《操作系统 - 清华大学》8 -3:进程管理:进程特点

深入剖析进程的特点、实现及进程控制块 一、进程的特点 (一)动态性 进程具有明显的动态性。它可以被动态创建,在执行过程中会发生状态切换,从一个状态转变为另一个状态。当所有任务执行完毕后,进程还会结束运行。整…

Java 大视界 -- 总结与展望:Java 大数据领域的新征程与无限可能(96)

💖亲爱的朋友们,热烈欢迎来到 青云交的博客!能与诸位在此相逢,我倍感荣幸。在这飞速更迭的时代,我们都渴望一方心灵净土,而 我的博客 正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识,也…

【微服务】深入解析spring aop原理

目录 一、前言 二、AOP 概述 2.1 什么是AOP 2.2 AOP中的一些概念 2.2.1 aop通知类型 2.3 AOP实现原理 2.3.1 aop中的代理实现 2.4 静态代理与动态代理 2.4.1 静态代理实现 三、 jdk动态代理与cglib代理 3.1 jdk动态代理 3.1.1 jdk动态代理模拟实现 3.2 CGLIB 代理…

pikachu靶场搭建教程

需要的东西 phpStudy: 链接: https://pan.baidu.com/s/1fJ-5TNtdDZGUf5FhTm245g 提取码:0278 pikachu-master: Github链接:https://github.com/zhuifengshaonianhanlu/pikachu 链接: https://pan.baidu.c…

游戏引擎学习第119天

仓库:https://gitee.com/mrxiao_com/2d_game_3 上一集回顾和今天的议程 如果你们还记得昨天的进展,我们刚刚完成了优化工作,目标是让某个程序能够尽可能快速地运行。我觉得现在可以说它已经快速运行了。虽然可能还没有达到最快的速度,但我们…

从零开始制作一个漂亮的悬浮按钮

0.1血版 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><title>Document</title> </head> &l…

Win11更新系统c盘爆满处理

1.打开磁盘管理 2.右击c盘选择属性&#xff0c;进行磁盘管理&#xff0c;选择详细信息。 3.选择以前安装的文件删除即可释放c盘空间。

从零实现机器人自主避障

1. 编译工具安装 sudo apt update sudo apt install python3-catkin-pkg python3-rosdep python3-rosinstall-generator python3-wstool python3-rosinstall build-essential sudo rosdep init rosdep update2. 构建节点 mkdir -p ~/ros2_ws/src cd ~/ros2_ws ros2 pkg creat…

【Nacos】从零开始启动Nacos服务(windows/linux)

文章目录 前言前置条件官方网址一、Nacos下载1.1 选择Nacos版本1.2 下载 二、解压2.1 解压到某个文件夹 三、 启动3.1 方式一&#xff1a;直接使用命令启动3.1.1 进入bin文件夹3.1.2 进入命令行工具3.1.3 执行命令 3.2 方式二&#xff1a;修改配置文件后启动3.2.1 修改启动脚本…

即插即用Transformer、扩散模型、机器人规划、长文本检索增强生成 | Big Model Weekly 第57期...

点击蓝字 关注我们 AI TIME欢迎每一位AI爱好者的加入&#xff01; 01 ProTransformer: Robustify Transformers via Plug-and-Play Paradigm 近年来&#xff0c;基于Transformer的架构在机器学习的各个领域占据了主导地位。本文介绍了一种新颖的鲁棒性注意力机制&#xff0c;旨…

FPGA DSP:Vivado 中带有 DDS 的 FIR 滤波器

本文使用 DDS 生成三个信号&#xff0c;并在 Vivado 中实现低通滤波器。低通滤波器将滤除相关信号。 介绍 用DDS生成三个信号&#xff0c;并在Vivado中实现低通滤波器。低通滤波器将滤除较快的信号。 本文分为几个主要部分&#xff1a; 信号生成&#xff1a;展示如何使用DDS&am…

DeepSeek各模型现有版本对比分析

文章目录 一、基础模型系列&#xff1a;V1 到 V3 的演进二、专用模型系列&#xff1a;推理与多模态三、版本选型与商业化趋势 DeepSeek作为最近特别火爆的模型&#xff0c;本文将对DeepSeek现有的主要版本进行对比分析,涵盖参数规模、训练数据、功能改进、应用场景和性能表现等…

ASP.NET Core Clean Architecture

文章目录 项目地址一、项目主体1. CQRS1.1 Repository数据库接口1.2 GetEventDetail 完整的Query流程1.3 创建CreateEventCommand并使用validation 2. EFcore层2.1 BaseRepository2.2 CategoryRepository2.3 OrderRepository 3. Email/Excel导出3.1 Email1. Email接口层 4. 定义…

紫光同创开发板使用教程(二):sbit文件下载

sbit文件相当于zynq里面的bit文件&#xff0c;紫光的fpga工程编译完成后会自动生成sbit文件&#xff0c;因工程编译比较简单&#xff0c;这里不在讲解工程编译&#xff0c;所以我这里直接下载sbit文件。 1.工程编译完成后&#xff0c;可以看到Flow列表里面没有报错&#xff0c…

1. 自定义组件基础

相关资源&#xff1a; &#x1f4ce;day10 图片素材.zip 1. 自定义组件基础 概念&#xff1a;在ArkUI中由框架直接提供的称为系统组件 -> Column&#xff0c;Button等&#xff0c;由开发者定义的称为自定义组件 作用&#xff1a;自定义组件可以对 UI和业务逻辑进行封装&…

MySQL MHA 部署全攻略:从零搭建高可用数据库架构

文章目录 1.MHA介绍2.MHA组件介绍3.集群规划4.服务器初始化5.MySQL集群部署5.1 安装MySQL集群5.2 配置一主两从5.3 测试MySQL主从5.4 赋予MHA用户连接权限 6.安装MHA环境6.1 安装MHA Node6.2 安装MHA Manager 7.配置MHA环境8.MySQL MHA高可用集群测试8.1 通过VIP连接MySQL8.2模…

Spring Boot3+Vue2极速整合:10分钟搭建DeepSeek AI对话系统

前言 在生成式AI技术蓬勃发展的今天&#xff0c;大语言模型已成为企业智能化转型和个人效率提升的核心驱动力。作为国产大模型的优秀代表&#xff0c;DeepSeek凭借其卓越的中文语义理解能力和开发者友好的API生态&#xff0c;正在成为构建本土化AI应用的首选平台。 本文将以S…

浅谈 Redis 主从复制原理(二)

大家好&#xff0c;我是此林。 【浅谈 Redis 主从集群原理&#xff08;一&#xff09; 】 上一篇文章中&#xff0c;说到了 Redis 主从复制的全量同步和增量同步&#xff0c;repl_baklog 复制缓冲区&#xff0c;以及 slave 挂掉之后数据同步的措施。 下面介绍的上一篇遗留问…

elf_loader:一个使用Rust编写的ELF加载器

本文介绍一个使用Rust实现的ELF加载器。 下面是elf_loader的仓库链接&#xff1a; github&#xff1a; https://github.com/weizhiao/elf_loaderhttps://github.com/weizhiao/elf_loader crates.io&#xff1a; https://crates.io/crates/elf_loaderhttps://crates.io/cra…