自空间复用
当遍历的元素恰好在一条cache线上时,称之为自空间复用,在前面我们已经知道了矩阵的秩就是数据的空间维度,也就是相对独立变量的个数。
当矩阵的秩小于循环嵌套深度时,此时一定是可以进行优化的。
例如:
for(i=0; i<100; i++){
for(j=0; j<100; j++){
for(k=0; k<100; k++){
Z[i+j+k] = 0;
}
}
}
对于这个例子,矩阵的秩为:
(
1
1
1
)
\begin{pmatrix} 1&1&1 \end{pmatrix}
(111)
观察程序我们也可以发现,只需要一个变量其实就可以完成遍历。
矩阵的秩
因此,我们再一次强调矩阵的秩的含义:它代表了数据遍历所需要的空间维度。数据本身就有维度,以数组为例,有一维数组、二维数组、三维数组等等,对于不同维度的数组,我们需要不同个数的独立变量才可以遍历全部元素,一维需要一个变量、二维需要两个、、以此类推。
我们假设每个独立变量只在不同的一层循环中出现,且变量作用维度不同,那么此时矩阵的秩刚好等于循环嵌套深度,也就是独立变量的个数。
发现自空间复用的技巧是不考虑矩阵的最后一行,对于假设情况,此时截断后的矩阵的秩小于循环嵌套深度,又因为数据的空间维度相对独立,因此截断的维度会线性改变数组的下标,也就是说,它迭代时,元素处于同一条cache线上,此时自空间复用是可行的。
看过了假设的例子,先明确一个结论:矩阵的秩不可能大于循环嵌套深度,而是等于或小于循环嵌套深度。
例如:数据是二维的,但是对于需要遍历的数据,它们的分布其实是线性的,所以矩阵的秩是一,最终会等于循环嵌套深度
for(i=0; i<50; i++){
Z[i][i+1]=0;
}
原因很简单,矩阵的秩代表了数据遍历时的空间维度,循环嵌套深度是具体的迭代产生者,如果秩大于循环嵌套深度,那么就意味着有些维度是无法被迭代到的,这种程序不可能出现!
例如:j代表了另外一个维度的遍历,但是此时循环迭代程序必须更新,这种程序不可能出现!
for(i=0; i<10; i++){
Z[i][j]=0;
}
不过矩阵的秩是可以小于循环嵌套深度的,
例如:
for(i=0; i<10;i++){
for(j=0; j<10; j++){
Z[i+j]=0;
}
}
这个矩阵的秩为1,循环嵌套深度为2,但是j变量是多余的,本质上它遍历的元素还是在一条cache线上,也就是同一个维度。
也就是说,如果矩阵的秩一开始就小于循环嵌套深度,那么一定可以发生自空间复用。
发现自空间复用
发现自空间复用的技巧是不考虑矩阵的最后一行,从上面我们可以得出,正常情况下,矩阵的秩小于或等于循环嵌套的深度。
当矩阵的秩小于循环嵌套的深度时,截断后的矩阵仍然满足矩阵的秩小于循环嵌套深度的关系,此时一定可以发生自空间复用。
当矩阵的秩等于循环嵌套深度时,截断后的矩阵也满足矩阵的秩小于循环嵌套深度的关系,此时也一定可以发生自空间复用。
考虑数组访问如下:
Z[1][i][2*i+j]
删除最后一行,得到矩阵如下:
(
0
0
1
0
)
\begin{pmatrix} 0&0\\ 1&0 \end{pmatrix}
(0100)
这个矩阵的秩为1,但是循环嵌套的深度为2,所以可以进行自空间复用。
我们观察最后一行下标,事实也确实如此,因为遍历时,j是线性增长的,2i不属于该循环,所以[2*i+j]也是线性增长的,也就是说,它的迭代是在同一条cache线上。
对程序设计的要求
不考虑矩阵的最后一行,其实就是在找出独立的、线性改变数组访问的迭代,其实这对于程序设计有一个要求,那就是所有的数组下标都要与循环嵌套一一对应。
再考虑数组访问如下:
Z[2*i+j][i][1]
此时截断后的矩阵的秩为2,循环嵌套深度也为2,此时该技巧就不成立了。
对应线性代数的意义
假设程序设计合理,程序的每一列都对应不同的迭代变量,为了确保存在空间复用,我们必须要确保被我们截断后的变量的基本向量[0,1]位于截断矩阵的零空间中。
例如:
对于Z[1][i][2*i+j],迭代变量j的零向量是[0,1],刚好位于截断后的矩阵的零空间中
这是因为当该向量在截断矩阵的零空间中时,我们可以把除了最内层下标之外的所有下标都固定下来,确保最后一层迭代是线性变换的,这样就可以确保它对数组元素的访问是处于同一条cache线。
缺陷
考虑如下访问:
Z[1][i][2*i+50*j]
我们同样使用上面的方法截断矩阵,结果确实满足矩阵秩的要求,那么我们可以把这些元素都保存在cache中吗?
在这种情况下,访问确实是线性的,但是却跨越了50个元素,除非该cache线能保存元素的个数远远超过50个,否则该自空间复用的收益非常低,甚至是无法被自空间复用。
总结
以上属于自空间复用内容,主要重点是访问元素与cache线的线性关系。前面两篇已经写完了自复用内容,接下来写写组复用内容。