1.1计算机系统组成
计算机系统是一个硬件和软件的综合体,可以把它看成按功能划分的多级层次结构。
1.1.1 计算机硬件的组成
硬件通常是指一切看得见,摸得到的设备实体。原始的冯•诺依曼(VonNeumann)计算机在结构上是以运算器为中心的,而发展到现在,已转向以存储器为中心了。图 1-1 所示为计算机最基本的组成框图。
(1)控制器。控制器是分析和执行指令的部件,也是统一指挥并控制计算机各部件协调工作的中心部件,所依据的是机器指令。控制器的组成包含如下。
① 程序计数器 PC:存储下一条要执行指令的地址;
② 指令寄存器 IR:存储即将执行的指令;
③ 指令译码器 ID:对指令中的操作码字段进行分析解释;
④ 时序部件:提供时序控制信号。
(2)运算器。运算器也称为算术逻辑单元(ArithmeticandLogicUnit,ALU),其主要功能是在控制器的控制下完成各种算术运算和逻辑运算。运算器的组成包含如下。
① 算术逻辑单元 ALU:数据的算术运算和逻辑运算;
② 累加寄存器 AC:通用寄存器,为 ALU 提供一个工作区,用在暂存数据;
③ 数据缓冲寄存器 DR:写内存时,暂存指令或数据;
④ 状态条件寄存器 PSW:存状态标志与控制标志(争议点:也有将其归为控制器的)。
(3)主存储器。主存储器也称为内存储器(通常简称为“内存”或“主存”)。存储现 场操作的信息与中间结果,包括机器指令和数据。
(4)辅助存储器。辅助存储器也称为外存储器,通常简称为外存或辅存。存储需要长期保存的各种信息。
(5)输入设备。输入设备的任务是把人们编好的程序和原始数据送到计算机中去,并且将它们转换成计算机内部所能识别和接受的信息方式。按输入信息的形态可分为字符(包括汉字)输入、图形输入、图像输入及语音输入等。目前,常见的输入设备有键盘、 鼠标、扫描仪等。
(6)输出设备。输出设备的任务是将计算机的处理结果以人或其他设备所能接受的 形式送出计算机。目前,最常用的输出设备是打印机和显示器。有些设备既可以是输入 设备,同时也可以是输出设备,例如,辅助存储器、自动控制和检测系统中使用的数模转换装置等。
1.1.2 计算机系统结构的分类
计算机的发展经历了电子管和晶体管时代、集成电路时代(中小规模、大规模、超大规模、甚大规模、极大规模)。目前,世界最高水平的单片集成电路芯片上所容纳的元器 件数量已经达到 80 多亿个。
- 存储程序的概念
“存储程序”的概念是冯•诺依曼等人于 1946 年 6 月首先提出来的,它可以简要地概括为以下几点:
(1)计算机(指硬件)应由运算器、存储器、控制器、输入设备和输出设备五大基本部件组成。
(2)计算机内部采用二进制来表示指令和数据。
(3)将编好的程序和原始数据事先存入存储器中,然后再启动计算机工作。这就是存储程序的基本含义。冯•诺依曼对计算机世界的最大贡献在于“存储程序控制”概念的提出和实现。六十多年来,虽然计算机的发展速度惊人,但就其结构原理来说,目前绝大多数计算机仍建立在存储程序概念的基础上。通常把符合存储程序概念的计算机统称为冯•诺依曼型计算机。当然,现代计算机与早期计算机相比,在结构上还是有许多改进的。随着计算机技术的不断发展,也暴露出了冯•诺依曼型计算机的主要弱点:存储器访问会成为瓶颈。目前,已出现了一些突破存储程序控制的计算机,统称为非冯•诺依曼型计算机,例如,数据驱动的数据流计算机、需求驱动的归约计算机和模式匹配驱动的智能计算机等。 - Flynn 分类
1966 年,Michael.J.Flynn 提出根据指令流、数据流的多倍性特征对计算机系统进行分类(通常称为 Flynn 分类法),有关定义如下。
(1)指令流:指机器执行的指令序列;
(2)数据流:指由指令流调用的数据序列,包括输入数据和中间结果,但不包括输出
数据。
Flynn 根据不同的指令流-数据流组织方式,把计算机系统分成以下四类。
(1)单指令流单数据流(Single Instruction stream and Single Data stream,SISD):SISD 其实就是传统的顺序执行的单处理器计算机,其指令部件每次只对一条指令进行译码,并只对一个操作部件分配数据。
(2)单指令流多数据流(Single Instruction stream and Multiple Data stream,SIMD):SIMD 以并行处理机(矩阵处理机)为代表,并行处理机包括多个重复的处理单元,由单一指令部件控制,按照同一指令流的要求为它们分配各自所需的不同数据。
(3)多指令流单数据流(Multiple Instruction stream and Single Data stream,MISD):MISD 具有 n 个处理单元,按 n 条不同指令的要求对同一数据流及其中间结果进行不同的处理。一个处理单元的输出又作为另一个处理单元的输入。这类系统实际上很少见到。有文献把流水线看作多个指令部件,称流水线计算机是 MISD。
(4)多指令流多数据流(Multiple Instruction stream and Multiple Data stream,MIMD):MIMD 是指能实现作业、任务、指令等各级全面并行的多机系统。如多核处理器、多处理机属于 MIMD。
1.1.3 复杂指令集系统与精简指令集系统
在计算机系统结构发展的过程中,指令系统的优化设计有两个截然相反的方向,一个是增强指令的功能,设置一些功能复杂的指令,把一些原来由软件实现的、常用的功能改用硬件的指令系统来实现,这种计算机系统称为复杂指令系统计算机(Complex Instruction Set
Computer,CISC);另一个是尽量简化指令功能,只保留那些功能简单,能在一个节拍内执行完成指令,较复杂的功能用一段子程序来实现,这种计算机系统称为精简指令系统计算机(Reduced Instruction Set Computer,RISC)。
- CISC 指令系统的特点
CISC 指令系统的主要特点如下:
(1)指令数量众多。指令系统拥有大量的指令,通常有 100~250 条。
(2)指令使用频率相差悬殊。最常使用的是一些比较简单的指令,仅占指令总数的 20%,但在程序中出现的频率却占 80%。而大部分复杂指令却很少使用。
(3)支持很多种寻址方式。支持的寻址方式通常为 5~20 种。
(4)变长的指令。指令长度不是固定的,变长的指令增加指令译码电路的复杂性。
(5)指令可以对主存单元中的数据直接进行处理。典型的 CISC 通常都有指令能够直接对主存单元中的数据进行处理,其执行速度较慢。
(6)以微程序控制为主。CISC 的指令系统很复杂,难以用硬布线逻辑(组合逻辑)电路实现控制器,通常采用微程序控制。 - RISC 指令系统的特点
RISC 要求指令系统简化,操作在单周期内完成,指令格式力求一致,寻址方式尽可能减少,并提高编译的效率,最终达到加快机器处理速度的目的。RISC 指令系统的主要特点如下。
(1)指令数量少。优先选取使用频率最高的一些简单指令和一些常用指令,避免使用复杂指令。只提供了 LOAD(从存储器中读数)和 STORE(把数据写入存储器)两条指令对存储器操作,其余所有的操作都在 CPU 的寄存器之间进行。
(2)指令的寻址方式少。通常只支持寄存器寻址方式、立即数寻址方式和相对寻址方式。
(3)指令长度固定,指令格式种类少。因为 RISC 指令数量少、格式少、相对简单,其指令长度固定,指令之间各字段的划分比较一致,译码相对容易。
(4)以硬布线逻辑控制为主。为了提高操作的执行速度,通常采用硬布线逻辑(组合逻辑)来构建控制器。
(5)单周期指令执行,采用流水线技术。因为简化了指令系统,很容易利用流水线技术,使得大部分指令都能在一个机器周期内完成。少数指令可能会需要多周期,例如,LOAD/STORE 指令因为需要访问存储器,其执行时间就会长一些。
(6)优化的编译器:RISC 的精简指令集使编译工作简单化。因为指令长度固定、格式少、寻址方式少,编译时不必在具有相似功能的许多指令中进行选择,也不必为寻址方式的选择而费心,同时易于实现优化,从而可以生成高效率执行的机器代码。
(7)CPU 中的通用寄存器数量多,一般在 32 个以上,有的可达上千个。大多数 RISC 采用了 Cache 方案,使用 Cache 来提高取指令的速度。而且,有的 RISC 使用两个独立的 Cache 来改善性能。一个称为指令 Cache,另一个称为数据 Cache。这样,取指令和取数据可以同时进行,互不干扰。
1.1.4 总线
总线是一组能为多个部件分时共享的公共信息传送线路。共享是指总线上可以挂接多个部件,各个部件之间相互交换的信息都可以通过这组公共线路传送;分时是指同一时刻只允许有一个部件向总线发送信息,如果出现两个或两个以上部件同时向总线发送信息,势必导致信号冲突。当然,在同一时刻,允许多个部件同时从总线上接收相同的信息。按总线相对于 CPU 或其他芯片的位置可分为内部总线和外部总线两种。在 CPU 内部,寄存器之间和算术逻辑部件 ALU 与控制部件之间传输数据所用的总线称为内部总线;外部总线是指 CPU 与内存 RAM、ROM 和输入/输出设备接口之间进行通信的通路。由于 CPU 通过总线实现程序取指令、内存/外设的数据交换,在 CPU 与外设一定的情况下,总线速度是制约计算机整体性能的最大因素。按总线功能来划分,又可分为地址总线、数据总线、控制总线三类,人们通常所说的总线都包括这三个组成部分,地址总线用来传送地址信息,数据总线用来传送数据信息,控制总线用来传送各种控制信号
1.2 存储器系统
存储器是用来存放程序和数据的部件,它是一个记忆装置,也是计算机能够实现“存储程序控制”的基础。在计算机系统中,规模较大的存储器往往分成若干级,称为存储器系统。传统的存储器系统一般分为高速缓冲存储器(Cache)、主存、辅存三级。主存可由 CPU 直接访问,存取速度快,但容量较小,一般用来存放当前正在执行的程序和数据。辅存设置在主机外部,它的存储容量大,价格较低,但存取速度较慢,一般用来存放暂时不参与运行的程序和数据,CPU 不可以直接访问辅存,辅存中的程序和数据在需要时才传送到主存,因此它是主存的补充和后援。当 CPU 速度很高时,为了使访问存储器的速度能与 CPU 的速度相匹配,又在主存和 CPU 间增设了一级 Cache。Cache 的存取速度比主存更快,但容量更小,用来存放当前最急需处理的程序和数据,以便快速地向 CPU 提供指令和数据。因此,计算机采用多级存储器体系,确保能够获得尽可能高的存取速率,同时保持较低的成本。 多层级的存储体系之所以能用低投入换来较高的存取速率,得益于局部性原理。局部性原理是指程序在执行时呈现出局部性规律,即在一较短的时间内,程序的执行仅局限于某个部分。相应地,它所访问的存储空间也仅局限于某个区域。程序局部性包括时间局部性和空间局部性,时间局部性是指程序中的某条指令一旦执行,不久以后该指令可能再次执行。产生时间局部性的典型原因是由于程序中存在着大量的循环操作;空间局部性是指一旦程序访问了某个存储单元,不久以后,其附近的存储单元也将被访问,即程序在一段时间内所访问的地址可能集中在一定的范围内,其典型情况是程序顺序执行。
存储器中数据常用的存取方式有顺序存取、直接存取、随机存取和相联存取四种。
(1)顺序存取:存储器的数据以记录的形式进行组织。对数据的访问必须按特定的线性顺序进行。磁带存储器采用顺序存取的方式。
(2)直接存取:与顺序存取相似,直接存取也使用一个共享的读写装置对所有的数据进行访问。但是,每个数据块都拥有唯一的地址标识,读写装置可以直接移动到目的数据块所在位置进行访问。存取时间也是可变的。磁盘存储器采用直接存取的方式。
(3)随机存取:存储器的每一个可寻址单元都具有自己唯一的地址和读写装置,系统可以在相同的时间内对任意一个存储单元的数据进行访问,而与先前的访问序列无关。主存储器采用随机存取的方式。
(4)相联存取:相联存取也是一种随机存取的形式,但是选择某一单元进行读写是取决于其内容而不是其地址。与普通的随机存取方式一样,每个单元都有自己的读写装置,读写时间也是一个常数。使用相联存取方式,可以对所有的存储单元的特定位进行比较,选择符合条件的单元进行访问。为了提高地址映射的速度,Cache 采取相联存取的方式。
1.2.1 主存储器
主存用来存放计算机运行期间所需要的程序和数据,CPU 可直接随机地进行读/写。主存具有一定容量,存取速度较高。由于 CPU 要频繁地访问主存,所以主存的性能在很大程度上影响了整个计算机系统的性能。根据工艺和技术不同,主存可分为随机存取存储器和只
读存储器。
1.随机存取存储器
随机存取存储器(Random Access Memory,RAM)既可以写入也可以读出,但断电后信息无法保存,因此只能用于暂存数据。RAM 又可分为 DRAM(Dynamic RAM,动态 RAM)和 SRAM(Static RAM,静态 RAM)两种,DRAM 的信息会随时间逐渐消失,因此需要定时对其进行刷新维持信息不丢失;SRAM 在不断电的情况下信息能够一直保持而不会丢失。DRAM 的密度大于 SRAM 且更加便宜,但SRAM 速度快,电路简单(不需要刷新电路),然而容量小,价格高。
2.只读存储器
只读存储器(Read Only Memory,ROM)可以看作 RAM 的一种特殊形式,其特点是:存储器的内容只能随机读出而不能写入。这类存储器常用来存放那些不需要改变的信息。由于信息一旦写入存储器就固定不变了,即使断电,写入的内容也不会丢失,所以又称为固定存储器。ROM 一般用于存放系统程序 BIOS(Basic Input Output System,基本输入输出系统)。
3.内存编址方法在计算机系统中,存储器中每个单元的位数是相同且固定的,称为存储器编址单位。不同的计算机,存储器编址的方式不同,主要有字编址和字节编址。内存一般以字节(8 位)为单位,或者以字为单位(字的长度可大可小,例如 16 位或者 32 位等,在这类试题中,一般会给出字的大小)。例如,内存地址从 AC000H 到 C7FFFH,则共有 C7FFFFH-AC000H=1BFFFH 个地址单元
(转换为十进制后,为 112KB)。如果该内存地址按字(16bit)编址,则共有 112KB16 位。假设该内存由 28 片存储器芯片构成,已知构成此内存的芯片每片有 16KB 个存储单元,则该芯片每个存储单元存储(112KB16)/(28*16KB)=4 位
1.2.2辅助存储器
1.磁带存储器磁带存储器是一种顺序存取的设备,其特点包括:存取时间较长,但存储容量大,便于携带,价格便宜。磁带应用的场景越来越少,目前主要用于资料的归档保存。
2.硬盘存储器在硬盘中,信息分布呈以下层次:记录面、圆柱面、磁道和扇区,如图1-2 所示。
一台硬盘驱动器中有多个磁盘片,每个盘片有两个记录面,每个记录面对应一个磁头,所以记录面号就是磁头号,如图 1-2(a)所示。所有的磁头安装在一个公用的传动设备或支架上,磁头一致地沿盘面径向移动,单个磁头不能单独地移动。在记录面上,一条条磁道
形成一组同心圆,最外圈的磁道为 0 号,往内则磁道号逐步增加,如图 1-2(b)所示。在一个盘组中,各记录面上相同编号(位置)的各磁道构成一个柱面,如图 1-2(c)所示。 若每个磁盘片有 m 个磁道,则该硬盘共有 m 个柱面。引入柱面的概念是为了提高硬盘的存储速度。当主机要存入一个较大的文件时,若一条磁道存不完,就需要存放在几条磁道上。这时,应首先将一个文件尽可能地存放在同一柱面中。如果仍存放不完,再存入相邻的柱面内。
通常将一条磁道划分为若干个段,每个段称为一个扇区或扇段,每个扇区存放一个定长信息块(例如,512 个字节),如图 1-2(b)所示。一条磁道划分多少扇区,每个扇区可存放多少字节,一般由操作系统决定。磁道上的扇区编号从 1 开始,不像磁头或柱面编号从 0
开始。
在磁盘上进行信息的读写时,首先需要定位到目标磁道,这个过程称之为寻道,寻道所消耗的时间称为寻道时间,定位到目标磁道后,需要定位到目标扇区,此过程通过旋转盘片完成,平均旋转半圈可到目标位置。故磁盘访问时间为:磁盘访问时间(存取时间) = 寻道时间+旋转延迟时间。
1.2.3 Cache 存储器
Cache 的功能是提高 CPU 数据输入输出的速率,突破所谓的“冯•诺依曼瓶颈”,即 CPU 与存储系统间数据传送带宽限制。高速存储器能以极高的速率进行数据访问,但因其价格高昂,如果计算机的内存完全由这种高速存储器组成,则会大大增加计算机的成本。通常在CPU 和内存之间设置小容量的 Cache。Cache 容量小但速度快,内存速度较低但容量大,通过优化调度算法,系统的性能会大大改善,仿佛其存储系统容量与内存相当而访问速度近似 Cache。
Cache 通常采用相联存储器(ContentAddressable Memory,CAM)。CAM 是一种基于数据内容进行访问的存储设备。当对其写入数据时,CAM 能够自动选择一个未用的空单元进行存储;当要读出数据时,不是给出其存储单元的地址,而是直接给出该数据或者该数据的一部分内容,CAM 对所有存储单元中的数据同时进行比较,并标记符合条件的所有数据以供读取。由于比较是同时、并行进行的,所以,这种基于数据内容进行读写的机制,其速度比基于地址进行读写的方式要快很多。
1.Cache 基本原理
使用 Cache 改善系统性能的依据是程序的局部性原理。根据程序的局部性原理,最近的、未来要用的指令和数据大多局限于正在用的指令和数据,或是存放在与这些指令和数据位置上邻近的单元中。这样,就可以把目前常用或将要用到的信息预先放在 Cache 中。当CPU 需要读取数据时,首先在 Cache 中查找是否有所需内容,如果有,则直接从 Cache 中读取;若没有,再从内存中读取该数据,然后同时送往 CPU 和 Cache。如果 CPU 需要访问的内容大多都能在 Cache 中找到(称为访问命中),则可以大大提高系统性能。如果以 h 代表对 Cache 的访问命中率(“1-h”称为失效率,或者称为未命中率),t1 表示 cache 的周期时间,t2 表示内存的周期时间,以读操作为例,使用“Cache+主存储器”的系统的平均周期为 t3。则:
t3 =t1′h+t2′(1-h)
系统的平均存储周期与命中率有很密切的关系,命中率的提高即使很小也能导致性能上的较大改善。
例如,设某计算机主存的读/写时间为 l00ns,有一个指令和数据合一的 Cache,已知该Cache 的读/写时间为 10ns,取指令的命中率为 98%,取数的命中率为 95%。在执行某类程序时,约有 1/5 指令需要存/取一个操作数。假设指令流水线在任何时候都不阻塞,则设
置 Cache 后,每条指令的平均访存时间约为:(2%′100ns+98%′10ns)+1/5′(5%′100ns+95%′10ns)=14.7ns
2.映射机制
当 CPU 发出访存请求后,存储器地址先被送到 Cache 控制器以确定所需数据是否已在 Cache 中,若命中则直接对 Cache 进行访问。这个过程称为 Cache 的地址映射(映像)。在 Cache 的地址映射中,主存和 Cache 将均分成容量相同的块(页)。常见的映射方法有
直接映射、全相联映射和组相联映射。
(1)直接映像
直接映像方式以随机存取存储器作为 Cache 存储器,硬件电路较简单。在进行映像时,主存地址被分成三个部分,从高到低依次为:区号、页号以及页内地址,如图 1-3 所示。
在本例中,内存容量为 1GB,Cache 容量为 8MB,页面的大小为 512KB。直接映像中,先分区,再分页。一个区的大小就是 Cache 容量的大小,所以一共分:1GB/8MB=128 个区,区号 7 位。每个区分:8MB/512KB=16 个页,所以页号为 4 位。在直接映像方式中,每个主存页只能复制到某一固定的 Cache 页中,如图 1-4 所示。直接映像方式的映像规律是:主存中每个区的第 0 页,只能进入到 Cache 的第 0 页。即:若当前时刻 Cache 中 0 号页已被占据,而 1-15 号页空闲,现在要将 1 区第 0 页(即内存的 16 页)调入 Cache 是会发生冲突的。所以直接映像的块冲突率非常高。在 Cache 中,为每一个页设立一个 Cache 标记,该标记用于识别当前的 Cache 块来自于哪个内存页。直接映像中,由于每个区的 N 号页,都必须进入到 Cache 的 N 号页,所以只需要记录区号即可。所以此时标记位的长度是 7 位。
直接映像方式的优点是比较容易实现,缺点是不够灵活,有可能使 Cache 的存储空间得不到充分利用。
(2)全相联映像
全相联映像使用相联存储器组成的 Cache 存储器。在全相联映像方式中,主存的每一页可以映像到 Cache 的任一页。如果淘汰 Cache 中某一页的内容,则可调入任一主存页的内容,因而较直接映像方式灵活。在全相联映像方式中,主存地址分为两个部分,分别为地址部分(主存页标记)和数据部分(页内地址)。数据部分用于存放数据,而地址部分则存放该数据的存储器地址。如图 1-5
所示。
全相联映像方式的 Cache 组织如图 1-6 所示。
当进行映像时,在我们给定的例子中,当程序访存时,则高 11 位给出主存页号,低19 位给出页内地址。因为每个 Cache 页可映像到 2048 个主存页中的任一页,所以每页的Cache 标记也需要 11 位,以表明它现在所映像的主存页号。因此,Cache 标记信息位数增
加,比较逻辑成本随之增加。 在全相联映像方式中,主存地址不能直接提取 Cache 页号,而是需要将主存页标记与Cache 各页的标记逐个比较,直到找到标记符合的页(访问 Cache 命中),或者全部比较完后仍无符合的标记(访问 Cache 失败)。因此这种映像方式速度很慢,失掉了高速缓存的作用,这是全相联映像方式的最大缺点。如果让主存页标记与各 Cache 标记同时比较,则成本又太高。全相联映像方式因比较器电路难于设计和实现,只适用于小容量 Cache。
(3)组相联映像
组相联映像(页组映像)介于直接映像和全相联映像之间,是这两种映像的一种折衷方案。全相联映像方式以页为单位,可自由映像,没有固定的对应关系。直接映像方式中,主存分组,主存组内的各页与 Cache 的页之间采取的是固定的映像关系,但各组均可映像到Cache 中。在组相联映像方式中,主存与 Cache 都分组,主存中一个组内的页数与 Cache 的分组数相同,如图 1-7 所示。
在图 1-7 给出的例子中,主存分 128 个区,每个区 8 个组,每个组 2 个页。组相联映像方式的主存地址组织如图 1-8 所示。
组相联映像的规则是:主存中的组与 Cache 的组形成直接映像关系,而每个组内的页是全相联映像关系。如主存 1 区 0 页,他在 0 组中,所以只能进入 Cache 的 0 组中,至于进入到 Cache 的 0 组 0 页,还是 0 组 1 页,并无强制要求,可任意放置。在组相联映像中,Cache 中每一页的标记位长度为 8 位,因为此时除了要记录区号,还得记录组号,即区号 7 位加组号 1 位等于 8 位。容易看出,如果 Cache 中每组只有一页,则组相联映像方式就变成了直接映像方式。如果 Cache 中每组页数为 16 页(即 Cache 只分一组),则就是全相联映像。因此,在具体设计组相联映像时,可以根据设计目标选取某一折衷值。在组相联映像中,由于 Cache 中每组有若干可供选择的页,因而它在映像定位方面较直接映像方式灵活;每组页数有限,因此付出的代价不是很大,可以根据设计目标选择组内页
数。为保障性能,内存与 Cache 之间的映射往往采用硬件完成,所以Cache 对于程序员而言是透明的,程序员编程时,完全不用考虑 Cache。
3.替换算法
当 Cache 产生了一次访问未命中之后,相应的数据应同时读入 CPU 和 Cache。但是当Cache 已存满数据后,新数据必须替换(淘汰)Cache 中的某些旧数据。最常用的替换算法有以下三种:
(1)随机算法。这是最简单的替换算法。随机法完全不管 Cache 块过去、现在及将来的使用情况,简单地根据一个随机数,选择一块替换掉。
(2)先进先出(First In and First Out,FIFO)算法。按调入 Cache 的先后决定淘汰的顺序,即在需要更新时,将最先进入 Cache 的块作为被替换的块。这种方法要求为每块做一记录,记下它们进入 Cache 的先后次序。这种方法容易实现,而且系统开销小。其缺点是可能会把一些需要经常使用的程序块(如循环程序)替换掉。
(3)近期最少使用(Least Recently Used,LRU)算法。LRU 算法是把 CPU 近期最少使用的块作为被替换的块。这种替换方法需要随时记录 Cache 中各块的使用情况,以便确定哪个块是近期最少使用的块。LRU 算法相对合理,但实现起来比较复杂,系统开销较大。通常需要对每一块设置一个称为“年龄计数器”的硬件或软件计数器,用以记录其被使用的情况。
4.写操作
因为需要保证缓存在 Cache 中的数据与内存中的内容一致,相对读操作而言,Cache 的写操作比较复杂,常用的有以下几种方法。
(1)写直达(write through)。当要写 Cache 时,数据同时写回内存,有时也称为写通。当某一块需要替换时,也不必把这一块写回到主存中去,新调入的块可以立即把这一块覆盖掉。这种方法实现简单,而且能随时保持主存数据的正确性,但可能增加多次不必要的主存
写入,会降低存取速度。
(2)写回(write back)。CPU 修改 Cache 的某一块后,相应的数据并不立即写入内存单元,而是当该块从 cache 中被淘汰时,才把数据写回到内存中。在采用这种更新策略的cache 块表中,一般有一个标志位,当一块中的任何一个单元被修改时,标志位被置“1”。在需要替换掉这一块时,如果标志位为“1”,则必须先把这一块写回到主存中去之后,才能再调入新的块;如果标志位为“0”,则这一块不必写回主存,只要用新调入的块覆盖掉这一块即可。这种方法的优点是操作速度快,缺点是因主存中的字块未随时修改而有可能出错。
(3)标记法。对 Cache 中的每一个数据设置一个有效位。当数据进入 Cache 后,有效位置“1”;而当 CPU 要对该数据进行修改时,数据只需写入内存并同时将该有效位置“0”。当要从 Cache 中读取数据时需要测试其有效位,若为“l”则直接从 Cache 中取数,否则,
从内存中取数。
1.3 流水线
流水线技术把一个任务分解为若干顺序执行的子任务,不同的子任务由不同的执行机构负责执行,而这些机构可以同时并行工作。在任一时刻,任一任务只占用其中一个执行机构,这样就可以实现多个任务的重叠执行,以提高工作效率。
1.3.1 流水线周期
流水线应用过程中,会将需要处理的工作分为 N 个阶段,最耗时的那一段所消耗的时间为流水线周期。如:使用流水线技术执行 100 条指令,每条指令取指 2ms,分析 4ms,执行 1ms,则流水线周期为 4ms。
1.3.2 计算流水线执行时间
延续上面的场景,将 1 个任务的执行过程可分成 N 个阶段,假设每个阶段完成时间为 t,则完成该任务所需的时间即为 Nt。若以传统的方式,则完成 k 个任务所需的时间是kNt;而使用流水线技术执行,且花费的时间是 Nt+(k-1)t。也就是说,除了第 1 个任务需要完整的时间外,其他都通过并行,节省下了大量的时间。所以流水线的执行时间可通俗的表达为:流水线执行时间=第 1 条指令的执行时间+(n-1)*流水线周期注:n 代表需要处理的任务数量。
在考试时,又需要特别注意一个细节问题,流水线的执行时间计算,其实进一步可以分理论情况与实践情况两种不同的处理方式。下面以实例进行说明。例:某计算机系统,一条指令的执行需要经历取指(2ms)、分析(4ms)、执行(1ms)三个阶段,现要执行 100 条指令,利用流水线技术需要多长时间?理论上来说,1 条指令的执行时间为:2ms+4ms+1ms=7ms。所以:理论流水线执行时间=2ms+4ms+1ms+(100-1)*4=403ms。而实际上,真正做流水线处理时,考虑到处理的复杂性,会将指令的每个执行阶段的时
间都统一为流水线周期,即 1 条指令的执行时间为:4ms+4ms+4ms=12ms。 所以:实际流水线执行时间=4ms+4ms+4ms+(100-1)*4=408ms。考试时 80%以上的概率采用理论公式计算,所以考试时需要以理论公式计算,若计算的结果无正确选项才考虑采用实际公式计算。
1.3.2 流水线的吞吐率
流水线的吞吐率(Though Put rate,TP)是指在单位时间内流水线所完成的任务数量或输出的结果数量。有些文献也称为平均吞吐率、实际吞吐率。计算流水线吞吐率的最基本的公式如下:
1.3.2 流水线的吞吐率
在流水线中,因为在同一时刻,有多个任务在重叠地执行,虽然完成一个任务的时间与单独执行该任务相近(甚至由于分段的缘故,可能更多一些),但是从整体上看完成多个任务所需的时间则大大减少。完成同样一批任务,不使用流水线所用的时间与使用流水线所用的时间之比称为流水线的加速比(speedup ratio)。如果不使用流水线,即顺序执行所用的时间为 T0 ,使用流水线的执行时间为 Tk ,则计算流水线加速比的基本公式如下:
如果流水线各个流水段的执行时间都相等(设为 Dt),则一条 k 段流水线完成 n 个连 续任务所需要的时间为(k+n-1)Dt。如果不使用流水线,即顺序执行这 n 个任务,则所需要的时间为 nkDt。因此,各个流水段执行时间均相等的一条 k 段流水线完成 n 个连续任务 时的实
际加速比为: