Thesios: Synthesizing Accurate Counterfactual I/O Traces from I/O Samples——论文泛读

news2024/10/6 10:32:42

ASPLOS 2024 Paper 论文阅读笔记整理

问题

在设计大规模分布式存储系统时,I/O活动的建模至关重要。具有代表性的/O跟踪,可以对现有硬件、配置和策略进行详细的性能评估。假设跟踪进一步支持分析假设情况,例如部署新的存储硬件、更改配置和修改数据放置策略。如果没有代表性的跟踪,就很难准确地获得I/O请求到达时间和排队效果等信息。如何没有假设跟踪,分析方法是部署预期的更改并衡量其随时间的影响,这是昂贵、耗时和有风险的。

获得磁盘的代表性I/O跟踪的一种方法是无损地(以全分辨率)捕获它们。但收集和保存每个操作的痕迹不仅在存储和处理成本方面很昂贵,而且还会干扰前台工作负载。因此使用下采样的I/O跟踪是一种常规做法[15,59,76]。但I/O操作的子集不足以表征存储服务器或磁盘的完整行为,而且无法模拟假设更改的影响。如何用下采样的I/O跟踪,合成准确和全分辨率I/O跟踪和假设I/O跟踪存在挑战。

挑战

  • 分布式存储集群是异构的,包含不同型号、大小、填充度和利用率的磁盘。在不考虑这种异构性的情况下,任意组合I/O样本将创建不代表任何一个磁盘上的I/O的合成轨迹。

  • 确定要组合哪些I/O样本以及多少I/O样本,这取决于采样率、采样类型和突发期间的下降率。

本文方法

本文提出了Thesios,使用来自多个服务器的多个磁盘上的下采样I/O轨迹,准确地合成代表性和假设的全分辨率I/O轨迹。

合成代表性全分辨率I/O轨迹:

利用数据中心中现有的采样基础架构,该架构收集存储服务器接收的请求的I/O样本。包含:操作类型、文件名、I/O大小、到达服务器的时间、磁盘时间、延迟等信息。

开源数据:GitHub - google-research-datasets/thesios: This repository describes I/O traces of Google storage servers and disks synthesized by Thesios. Thesios synthesizes representative I/O traces by combining down-sampled I/O traces collected from multiple disks (HDDs) attached to multiple storage servers in Google distributed storage system.

  • 组合具有相似磁盘特征的磁盘的I/O样本,并在一段时间内跟踪特征。磁盘特性包括容量、热/冷数据比率、填充度。跟踪特征捕获这些磁盘上的I/O行为,如服务器的缓存命中率、读/写比率、读/写吞吐量。

  • 重新加权跟踪的数量以避免偏差和偏斜,并补偿由于突发而丢失的样本,生成服务器级别I/O跟踪。

  • 为了获得磁盘级别的到达时间和延迟,必须考虑排队延迟和特定于请求序列的基于优先级的重排序。因此,设计了一种方法来重新组织合成的跟踪,同时考虑请求的优先级和服务器上的排队。

将Thesios应用于谷歌定期采样的真实世界的跟踪表明,与从实际磁盘收集的指标相比,合成跟踪在读/写请求数方面实现了95–99.5%的准确率,在利用率方面实现了90–97%的准确率,在读延迟方面实现了80–99.8%的准确率,还可以捕获超过95%置信度的日波动和周波动。

合成假设全分辨率I/O轨迹:

假设I/O轨迹的性能,如延迟、能耗和缓存命中率,可以使用轻量级服务器模拟器进行评估,也可以使用成熟的服务器模拟器执行轨迹重放。服务器模拟器和服务器模拟器可以结合预期的策略或硬件变化。通过进行四个案例研究来说明Thesios的多功能性:

  • 评估磁盘利用率、填充度和容量的影响,为不同的容量、利用率和填充度的磁盘假设I/O跟踪。

  • 评估新的数据放置策略,使用不同的工作负载过滤标准进行数据分离实验,以形成热磁盘和冷磁盘。

  • 评估部署低转速(RPM)磁盘对能耗和延迟的影响。

  • 评估服务器缓冲区缓存大小对缓存命中率的影响。

总结

针对大型数据中心中,如何以部分采样的I/O轨迹合成准确的全分辨率I/O轨迹。本文提出Thesios,利用多个下采样I/O轨迹合成全分辨率I/O轨迹。合成代表性I/O轨迹:(1)利用现有的采样基础架构,收集下采样I/O轨迹。(2)组合具有相似磁盘特征的磁盘的I/O样本。利用I/O轨迹分析磁盘特征,如容量、热/冷数据比率、填充度。(3)重新加权I/O跟踪,以避免偏差和偏斜,并补偿由于突发而丢失的样本,生成服务器级别I/O跟踪。(4)为获得磁盘级别的到达时间和延迟,考虑排队延迟和特定于请求序列的基于优先级的重排序。合成假设的全分辨率I/O轨迹:使用轻量级服务器模拟器进行评估,或使用成熟的服务器模拟器执行轨迹重放。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1797803.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

EverWeb 强大的零基础Mac网页设计制作软件

搜索Mac软件之家下载EverWeb 强大的零基础Mac网页设计制作软件 EverWeb 4.2是非专业网页设计师的绝佳网页制作工具,无需编码即可创建美观、响应迅速的网站。只需拖放自己的图像、文本和其他任何html元素到网页布局的任何位置。 EverWeb的功能特性: 下…

企业公户验证API在Java、Python、PHP中的使用教程

在金融和商业领域,企业公户验证API是一种用于验证企业对公账户的真实性和合法性的技术解决方案。这种API通常由金融机构或第三方服务提供商提供,旨在帮助企业加快账户认证流程,提高效率,降低审核成本,并确保符合法规要…

手机短信删除怎么恢复?快速找回的3个秘密武器

手机,这个我们每天离不开的小玩意儿,有时候也会让我们头疼不已。比如,你一不小心,或者为了清理点空间,就把那些重要的短信给删了。这些短信可能是你和好友的深夜聊天,或者是重要的工作信息。一旦删除&#…

matplotlib绘制三维曲面图时遇到的问题及解决方法

在使用 Matplotlib 绘制三维曲面图时,可能会遇到一些常见的问题。今天我将全程详细讲解下遇到问题并且找到应对方法的全部过程,希望能帮助大家。 1、问题背景 在使用 matplotlib 绘制三维曲面图时,遇到了一个问题。代码如下: im…

走进 Apache 世界的另一扇大门

引言 作为热爱技术的你,是否也羡慕 Apache PMC 或者 Committer,此篇文章渣渣皮带你迈出如何成为技术大牛的第一步。 当然我现在还是一枚小小的 code contributor,在成为 committer 的路上还在奋力打码中,写这篇文章也是为大家有…

NAT技术

目录 前言一、NAT的基本思想二、NAT的局限性总结 前言 IP地址短缺问题并不是一个只有在将来某个时候可能发生的理论问题。现在,此时此地,这个问题已经发生。对于整个Internet而言,长期的解决方案是迁移到IPV6,它有128位地址。这个…

如何免费使用(白瞟)最新的开源大模型?

下面介绍两个可以免费白瞟开源大模型的网站,一个是国内的ModelScope ,点击链接注册后进入右上方的司南评测即可,界面效果如下,最新开源的Qwen2-72B也可用的噢! 另外一个 是LMSYS和UC伯克利分校联合开发的全球大模型测评平台Chatbo…

数据结构——算法和算法效率的度量

目录 一、引言 二、算法 1 算法的基本概念 2 算法的复杂度 2.1 时间复杂度 2.1.1 概念 2.1.2 大O的渐进表示 3 算法的空间复杂度 3.1 概念 3.2 实例 4 实例分析 5 结论 一、引言 大家在写代码的时候有没有发现写同样功能的代码有多种不同的写法,而不同的代…

遇见桂林山水画廊,深层互联自动讲解耳机走进漓江

遇见山水,听懂山水。由深层互联独家打造,桂林漓江山水画廊导览工程,于不久前正式启动,声情并茂的真人语音引导着游客,走进有声有色的山水画卷中。 桂林山水甲天下,得天独厚的自然景观,奇幻瑰丽…

matlab使用教程(92)—流线图、流带图和流管图

1.使用向量数据显示流线图 MATLAB 向量数据集 wind 代表北美地区的气流。本示例结合使用了几种方法: 利用流线跟踪风速 利用切片平面显示数据的横截面视图 利用切片平面上的等高线提高切片平面着色的可见性 1.1确定坐标的范围 加载数据并确定用来定位切片平面…

【WEEK15】 【DAY3】Scheduled Tasks【English Version】

2024.6.5 Wednesday Following 【WEEK15】 【DAY2】【DAY3】Email Tasks【English Version】 Contents 17. Asynchronous, Scheduled, and Email Tasks17.3. Scheduled Tasks17.3.1. Two Annotations:17.3.2. Cron Expression17.3.3. Modify Springboot09TestApplication.java …

html5实现端午节网站源码

文章目录 1.设计来源1.1 端午首页页面1.2 端午由来页面1.3 端午图集页面1.4 端午活动页面1.5 给我留言页面 2.效果和源码2.1 动态效果2.2 目录结构 源码下载 作者:xcLeigh 文章地址:https://blog.csdn.net/weixin_43151418/article/details/139524377 ht…

工作备忘录软件有哪些 记事备忘提醒三合一的备忘录

在工作中,我总是觉得自己脑子好像不够用,一会儿是这个项目的进度要跟踪,一会儿是那个会议的要点要记录。每天都在忙碌与混乱中度过,我甚至开始怀疑自己是否适合这份工作。 备忘录不仅是一个简单的记事工具,像敬业签这…

【数据分享】中国高技术产业统计年鉴(2023年)

大家好!今天我要向大家介绍一份重要的高技术产业发展情况统计数据资源——《中国高技术产业统计年鉴》。这份年鉴涵盖了从2023年中国高技术产业发展情况的全面数据,并以多格式提供免费下载。(无需分享朋友圈即可获取) 数据介绍 …

Java利用Scanner实现控制台文字游戏,Java实现猜数字游戏简易文字游戏,Java实现石头剪刀布简易文字游戏

1、猜数字游戏简易文字游戏 public static void main(String[] args) {//文本扫描器Scanner scanner new Scanner(System.in);//获取本次游戏的正确数字int num new Random().nextInt(100);System.out.println("开始猜数字游戏,输入数字后按enter");whi…

DLL文件修复dffsetup3.3.90,带Keygen

之前分享过DirectX与4DDiGDLLFixer,今天再分享一款,名字叫DLLfiles Fixer,中文版带key你懂的,对于玩游戏人来说,经常因为少了某个dll文件无法运行,DLL-files Fixer能够非常方便的修复。 软件功能 可以消除…

提升学校管理效率,智慧校园解决方案来袭

你是不是曾为学校管理效率低下而困扰?是不是对传统的教育模式感到力不从心?现在,一个划时代的解决方案来啦——智慧校园! 随着科技的不断发展,智慧校园正逐渐改变着学校的管理方式。通过将信息技术与教育相结合&#x…

【Java数据结构】详解LinkedList与链表(一)

🔒文章目录: 1.❤️❤️前言~🥳🎉🎉🎉 2.ArrayList的缺陷 3.链表的概念及结构 4.无头单向非循环链表的实现 4.1成员属性 4.2成员方法 createList display——打印链表 addFirst——头插 addLast…

70 Realistic Mountain Environment Textures Cliff(70+张真实的山地环境纹理)

大量适合山区和其他岩石环境的纹理--悬崖、岩石、砾石等等 每个纹理都是可贴的/无缝的,并且完全兼容各种不同的场景--标准Unity地形、Unity标准着色器、URP、HDRP等等都兼容。 所有的纹理都是4096x4096,并包括一个HDRP掩码,以完全支持HDRP。 特点。 70种质地 70种材料 70个地…

000002 - Hadoop环境安装

Hadoop及其大数据生态圈 1. 背景2. 实践2.1 Linux服务器准备2.2 在其中一台服务器上安装JDK2.3 在其中一台服务器上安装HADOOP2.4 本地模式运行一个hadoop案例 3. 自动化部署 1. 背景 要搭建Hadoop集群环境,我们需要执行如下 准备三台Linux服务器,服务…