ATC 2008 Paper 分布式元数据论文阅读笔记整理
问题
网络文件系统在当今的数据存储中发挥着越来越重要的作用。使用网络文件系统可以降低管理成本,从多个位置可靠地访问的数据。这些系统的设计通常以对文件系统工作负载和用户行为的理解为指导[12,19,25],这通常是通过测量和分析文件系统跟踪来获得的。
尽管过去已经进行了许多基于跟踪的文件系统研究[3,5,21,24,29],但还存在一些问题。
-
没有对CIFS(通用互联网文件系统)[13](Windows使用的网络文件传输协议)进行详细研究。
-
上一次跟踪研究[5]分析了2001年的跟踪,到现在网络存储的体系结构和使用发生了重大变化,导致了工作负载的变化。
-
没有现有研究分析过大规模的企业文件系统工作负载,而是将重点放在研究类型的工作负载上,例如系统研究人员经常可以在大学环境中看到的工作负载。
本文方法
本文对两个大型网络文件系统工作负载进行了分析,统计了在NetApp数据中心部署了三个月的两个企业级文件服务器的CIFS流量。一个文件服务器由市场部、销售部和财务部使用,另一个由工程部使用。这些系统总共代表了1500多名员工使用的超过22 TB的存储。对跟踪数据的分析集中在:(1)文件访问模式和寿命的变化,(2)文件I/O和文件共享的特性,(3)文件类型和客户端访问模式之间的关系。
观察结果:
-
本文使用的两个工作负载更重写。
-
读写访问模式更加频繁。
-
字节在更长的顺序运行中传输。
-
字节在更大的文件中传输。
-
文件寿命长一个数量级。
-
大多数文件关闭后不会重新打开。
-
如果文件被重新打开,它在时间上与上一次关闭有关。
-
一小部分客户端占文件活动的很大一部分。
-
文件很少被多个客户端访问。
-
文件共享很少是并发的,而且大多是只读的。
-
大多数文件类型没有单一的访问模式。
总结
本文研究了2007年,部署在公司和工程环境中的企业级文件服务器的两个大规模CIFS网络文件系统工作负载。分析(1)文件访问模式和寿命的变化,(2)文件I/O和文件共享的特性,(3)文件类型和客户端访问模式之间的关系。得到一些观察结果【已经是很老的结果了,顶多了解一下怎么分析负载,结果不能拿来用】:
-
本文使用的两个工作负载更重写。
-
读写访问模式更加频繁。
-
字节在更长的顺序运行中传输。
-
字节在更大的文件中传输。
-
文件寿命长一个数量级。
-
大多数文件关闭后不会重新打开。
-
如果文件被重新打开,它在时间上与上一次关闭有关。
-
一小部分客户端占文件活动的很大一部分。
-
文件很少被多个客户端访问。
-
文件共享很少是并发的,而且大多是只读的。
-
大多数文件类型没有单一的访问模式。