1 基础知识
1.1 锁存器的结构
锁存器即Latch ,数电中称之为电平触发的D触发器,也是D型锁存器,有电平触发器SR触发器改进得到,其工作特点是电平是有效电平(高电平或者低电平)期间,才接受信号并输出,否则保持不变。
1.2 DFF的结构
D触发器,数电中称之为边沿触发D触发器,有两个D-Latch组成而来
工作特点:触发器的次态取决于时钟信号的上升沿或者下降沿到达时输入的逻辑状态,而在这之前或之后,输入信号的变化对触发器输出的状态没影响。有效的提高了触发器的抗干扰能力,也提高了电路的工作可靠性。
FF1,FF2 时D-Latch.
1.3 建立时间,保持时间 ,传播延时,组合逻辑延时。
建立时间:触发器在时钟上升沿到来之前,其数据输入端的数据必须保持不变的最小时间
如果不满足建立时间要求,这个数据就不能被这一时钟打入触发器,只有在下一个时钟上升沿,数据才能被打入触发器,或者说,该数据就会被永久“跳过”而未被“采样”。
如果数据信号在时钟沿触发前的持续时间超过了建立时间,那么这个时间间隔就叫做建立时间裕量。举个例子:坐火车时需要提前到站检票安检,而不是一到火车站就可以乘坐。必须的提前到站的时间就是建立时间。
保持时间:触发器在时钟上升沿来到之后,其数据输入端的数据必须保持不变的最小时间。
- 如果数据信号在时钟沿触发后的持续时间超过了保持时间 Th,那么这个时间间隔就叫做保持时间裕量。
- 建立时间决定了该触发器之间的组合逻辑的最大延迟。
- 保持时间决定了该触发器之间的组合逻辑的最小延迟。
传播延时(触发器输出的响应时间)
是指一个数字信号从器件(一般是 DFF,符号表示为 Tcq / Tco)的输入端到输出端所需的时间。一般在 FPGA 中是指时钟上升沿之后延时 Tcq 的时间,数据才到达寄存器 Q端。
区别于门传播延时:反应为其对输入信号变化响应有多快,表示为信号通过该门所经历的时间,定义为输入信号和输出信号波形在 50% 翻转点之间的时间。
组合逻辑延时
一般是指两级寄存器之间的输出端 Q 到输入端 D 之间的组合逻辑延时,符号表示为 Tlogic / Tcomb。
1.3.1关于建立时间和保持时间的约束
Tsetup <= Tclk + Tskew - Tcq(max) - Tcomb(max)
Thold <= Tcq + Tcomb - Tshew
建议收藏:不能不刷的100道数字IC笔/面试题!_数字ic试题_Cheeky_man的博客-CSDN博客
1.4 亚稳态
为什么触发器要满足建立时间和保持时间?
因为触发器内部数据的形成是需要一定的时间,如果不满足建立和保持时间,触发器将进入亚稳态,进入亚稳态的触发器输出将不稳定,在0和 1 之间变化,这时需要经过一个恢复时间,其输出才能稳定,但稳定后的值并一定是你输入的值,这就是为啥要用两级触发器来同步异步输入信号,这样做是可以防止由于异步输入信号对于本级时钟可能不能满足建立和保持时间而使本级触发器产生亚稳态传播到后面的逻辑中,导致亚稳态的传播。
1.5 时钟域的分类和亚稳态解决办法
1.5.1 跨时钟域的问题-亚稳态
触发器的建立时间和保持时间在时钟上升沿左右定义了一个时间窗口,如果触发器的数据输入端口上数据在这个时间窗口内发生变化(或者数据更新),那么就会产生时序违规。存在这个时序违规是因为建立时间要求和保持时间要求被违反了,此时触发器内部的一个节点(或者要输出到外部的节点)可能会在一个电压范围内浮动,无法稳定在逻辑0或者逻辑1状态。
换句话说,如果数据在上述窗口中被采集,触发器中的晶体管不能可靠地设置为逻辑0或者逻辑1对应的电平上。所以此时的晶体管并未处于饱和区对应的高或者低电平,而是在稳定到一个确定电平之前,徘徊在一个中间电平状态(这个中间电平或许是一个正确值,也许不是)
如图所示,这就是所谓的亚稳态.
总结:亚稳态来源于建立时间和保持时间违例;单个时钟域中可以通过对关键路径的分析来避免亚稳态,但是多时钟域中,亚稳态不可避免!不过可以减少亚稳态的发生和传播,消除亚稳态的有害影响。
1.5.2、亚稳态的量化公式
采用平均故障间隔时间(MTBF:mean-time-between-failure)这个指标来估算从问题出现并导致故障的两个事件间的平均时间。MTBF越高,说明设计的稳定性越好。如果发生了故障,只是说明没有解决亚稳态的问题,并不是系统本身真的出现了问题。
其中,C1和C2代表器件的相关的常数,器件的建立时间和保持时间越小,C2越小,MTBF就越大。所以可以通过更快的触发器,来减少亚稳态发生的概率。是时钟频率,是异步信号边沿频率。
此外,数据变化频率越低,采样时钟频率越低,MTBF越高
1.5.3、解决亚稳态的方法
亚稳态是不可避免的,是器件的固有属性。可以减少亚稳态的发生和传播,避免亚稳态带来的消极影响。
减少亚稳态的方法,通过对MTBF的分析,提出以下几种方法:
(1)使用同步器(多级寄存器):比如常用的2级或者多级FF打拍的方法(最常见的方法)
(2)降低频率:如果能满足功能要求,降低频率能够减少亚稳态的发生。(在高性能要求下并不实用)
(3)避免变化过快或者过于频繁的信号进行跨时钟采样。(在高性能要求下并不实用)
(4)采用更快的触发器:更快的触发器,也可以减少亚稳态的产生
总结如下:
1、有关系的时钟之间传单bit数据,理论上只需要源数据保持足够长的时间(clk2的两个周期)即可;
2、无关系的时钟之间传单bit数据,必须要使用同步器;
3、不管有无关系的时钟进行单bit传输,脉冲同步器都可以解决这个问题;
4、多bit传输只能使用握手机制或者异步fifo;
5、低频采高频,为防止数据不丢失,应当让源数据变慢,多保持一些周期;高频采低频则不需要,但是高频采低频得到的结果可能带有很多冗余。
1.5.4 多级寄存器处理
在全同步设计中,如果信号来自同一时钟域(同步时钟域),各模块的输入不需要使用寄存器来寄存。只要满足建立时间和保持时间的约束,可以保证在时钟上升沿到来时,输入信号已经稳定,可以采样得到正确的值。
一般而言单bit信号就是我们所用到的脉冲信号或者电平信号。假设A和B是两个时钟域,各自的频率是clk_a和clk_b,clk_a的频率高于clk_b,那么单bit信号传输又分为两种情况。
1、信号从慢时钟域B到快时钟域A
在时钟域B下的脉冲信号pulse_b在时钟域A看来,是一个很宽的“电平”信号,保持多个clk_a的时钟周期,所以一定能被clk_a采到。
经验设计采集过程必须寄存两拍。
第一拍将输入信号同步化,同步化后的输出可能带来建立/保持时间的冲突,产生亚稳态。
需要再寄存一拍,减少亚稳态带来的影响。
一般来说两级是最基本要求,如果是高频率设计,则需要增加寄存级数来大幅降低系统的不稳定性。
也就是说采用多级触发器来采样来自异步时钟域的信号,级数越多,同步过来的信号越稳定。
特别需要强调的是,此时pulse_b必须是clk_b下的寄存器信号,如果pulse_b是clk_b下的组合逻辑信号,一定要先在clk_b先用D触发器(DFF)抓一拍,再使用两级DFF向clk_a传递。
这是因为clk_b下的组合逻辑信号会有毛刺,在clk_b下使用时会由setup/hold时间保证毛刺不会被clk_b采到,但由于异步相位不确定,组合逻辑的毛刺却极有可能被clk_a采到。
一般代码形式:
always @ (posedge clk_a or negedge rst_n)
begin
if (rst_n == 1'b0)
begin
pules_a_r1 <= 1'b0;
pules_a_r2 <= 1'b0;
end
else
begin //打2拍
pules_a_r1 <= pulse_b;
pules_a_r2 <= pules_a_r1;
end
end
assign pulse_a = pules_a_r2;
2、 信号从快时钟域A到慢时钟域B(低频采高频:脉冲同步器)
如果单bit信号从时钟域A到时钟域B,那么存在两种不同的情况:
传输脉冲信号pulse_a或传输电平信号level_a
如果是电平信号,需要保证level_a的宽度足够,至少维持一个clk_b的周期才能保证快的A域信号可以在慢的B域的时钟上升沿采集到;那么对于脉冲信号,宽度又没有那么够,又如何能保证它被采集到呢?
主要原理就是先把脉冲信号在clk_a下展宽,变成电平信号signal_a,再向clk_b传递,当确认clk_b已经“看见”信号同步过去之后,再清掉signal_a
module Sync_Pulse(
clk_a,//从时钟域A
clk_b,//到时钟域B
rst_n,//复位
pulse_a_in,//脉冲信号输入
pulse_b_out,//慢域B的采集到的脉冲信号
b_out//慢域B的输出
);
input clk_a;
input clk_b;
input rst_n;
input pulse_a_in;
output pulse_b_out;
output b_out;
reg signal_a;//脉冲信号变成电平信号
reg signal_b;//在B域对电平信号signal_a采样
reg signal_b_r1;//在B域对signal_b打一拍的信号
reg signal_b_r2;//在B域对signal_b打2拍的信号
reg signal_b_a1;//在A域对signal_b_r1打1拍的信号
reg signal_b_a2;//在A域对signal_b_r1打2拍的信号
//在时钟域clk_a下,生成展宽信号signal_a
always @(posedge clk_a or negedge rst_n)
begin
if (rst_n == 1'b0)
signal_a <= 1'b0;
else if (pulse_a_in) //检测到到输入信号pulse_a_in被拉高,则拉高signal_a
signal_a <= 1'b1;
else if (signal_b_a2) //检测到signal_b1_a2被拉高,则拉低signal_a
signal_a <= 1'b0;
else;
end
//在时钟域clk_b下,采集signal_a,生成signal_b
always @(posedge clk_b or negedge rst_n)
begin
if (rst_n == 1'b0)
signal_b <= 1'b0;
else
signal_b <= signal_a;
end
//多级触发器处理
always @ (posedge clk_b or negedge rst_n)
begin
if(rst_n == 1'b0)
begin
signal_b_r1 <= 1'b0;
signal_b_r2 <= 1'b0;
end
else
begin
signal_b_r1 <= signal_b; //对signal_b打两拍
signal_b_r2 <= signal_b_r1;
end
end
//在时钟域clk_a下,采集signal_b_r1,用于反馈来拉低展宽信号signal_a
always @ (posedge clk_a or negedge rst_n)
begin
if(rst_n == 1'b0)
begin
signal_b_a1 <= 1'b0;
signal_b_a2 <= 1'b0;
end
else
begin
signal_b_a1 <= signal_b_r1; //对signal_b_r1打两拍,因为同样涉及到跨时钟域
signal_b_a2 <= signal_b_a1;
end
end
assign pulse_b_out = signal_b_r1 & (~signal_b_r2);//脉冲信号
assign b_out = signal_b_r1;//在B域对signal_b打一拍的信号
endmodule
上述是对脉冲信号的采样,过程会比较复杂:
①在快域A中生成宽电平信号signal_a;
②再在慢域B中对signal_a进行采样和打两拍;
③根据打拍信号,采用pulse_b_out = signal_b_r1 & (~signal_b_r2);这样的赋值方式,得到脉冲信号(脉宽被拓展了)
而电平信号持续时间比较长(默认比慢域的一个周期还长),可以保证慢域能够采集到,那正常寄存两拍就行了。
小结:
对于电平信号(持续时间较长),快域采慢域或慢域采快域,使用电平同步器就够了——即在目的时钟打两拍;
对于脉冲信号(脉宽等于源时钟周期),使用脉冲同步器可以很好地解决两个域互传数据的问题。
1.5.5握手信号方法
使用握手信号是最古老的在不同域之间转输数据的方式。
1、握手信号工作过程
下图是由两个时钟域分割成的两个单独的系统。
使用握手信号"xreq"和"yack","系统X"将数据发送给"系统Y"。
下面是使用握手信号传输数据的例子:
1)发送器"系统 X"将数据放到数据总线上并发出"xreq"(请求)信号,表示有效数据已经发到接收器"系统 Y"的数据总线上。
2)把"xreq"信号同步到接收器的时钟域"yclk" 上。
3)接收器在识别"xreq"同步的信号"yreq2"后,锁存数据总线上的信号。
4)接收器发出确认信号"yack",表示其已经接受了数据。
5)接收器发出的"yack"信号同步到发送时钟"xclk"上。
6)发送器在识别同步的"xack2"信号后,将下一个数据放到数据总线上。
握手信号序列的时序如下图所示。
从上图可以看出,安全地将一个数据从发送器传输到接收器需要5个时钟周期(X:发送req,1个;Y:接受并同步req,2个、再发送ack,1个;X:接受ack,1个。共5个)。
2、握手信号的要求
数据应该在发送时钟域内稳定至少两个时钟上升沿。
请求信号"xreq"的宽度应该超过两个上升沿时钟,否则从高速时钟域向低速时钟域传递可能无法捕捉到该信号。
3、握手信号的缺点
跨时钟域传输单个数据的延迟比使用 FIFO传输相同的数据要大得多。
1.5.6 异步FIFO
参考资料
数字IC设计知识点及综合题详解(提前批、秋招必刷基础题)——(四)亚稳态、跨时钟域(CDC)处理方法及其编程仿真代码_下图为单bit信号跨时钟域电路,其中clk_a与clk_b为异步时钟。clk_a频率为100mhz、_Cheeky_man的博客-CSDN博客
数字IC笔试面试常考问题及答案_数字ic设计面试题_Cheeky_man的博客-CSDN博客
数字IC面试题知识汇总:1-20 - 知乎
1.6 时序分析
1.6.1 静态时序分析
静态时序分析(static timing analysis,STA)是遍历电路存在的所有时序路径,根据给定工作条件(PVT)下的时序库.ib文件计算信号在这些路径上的传播延时,检查信号的建立和保持时间是否满足约束要求,根据最大路径延时和最小路径延时找出违背时序约束的错误。
静态时序分析的优点:
不需要给输入激励;
几乎能找到所有的关键路径(critical path);
运行速度快,占用内存较少,不仅可以对芯片设计进行全面的时序功能检查,而且还可利用时序分析的结果来优化设计。因此静态时序分析已经越来越多地被用到数字集成电路设计的验证中;
静态时序分析的缺点:
只适用同步电路;
无法验证电路的功能;
需要比较贵的工具支持;
对于新工艺可能还需要建立一套特征库,建库的代价可能要几百万。
静态时序分析的工具:
Synopsys的prime time,
Cadence的Encounter Timing System等
数字 IC 笔试面试必考点(12)静态时序分析 STA_准静态寄存器 false path_新芯设计的博客-CSDN博客
1.6.2 动态时序分析
动态时序分析(dynamic timing analysis,DTA)通常是所有的输入信号都会给一个不同时刻的激励,在testbench(.sp或者.v)中设置一段仿真时间,最后对仿真结果进行时序和功能分析。 这里的仿真可以是门级或者晶体管级,包括spice格式和RTL格式的网表。(可以理解为仿真)
如下图所示的spice中给激励的语句和波形:
动态时序分析的优点
晶体管级的仿真比较精确,直接基于工厂提供的spice 工艺库计算得到;
适用于任何电路,包括同步、异步、latch等等;
不需要额外搞一套特征库;
不需要很贵的时序分析工具。
动态时序分析的缺点:
需要给不同的测试激励,这使得在分析的过程中关键路径无法检查全 (致命性的);随着规模增大,所需要的向量数量以指数增长,且这种方法难以保证足够的覆盖率。
规模大的电路spice仿真特别慢 (致命性的)。
动态时序的工具 :
spice仿真器: hspice, finesim, hsim, spectre等;
verilog仿真器: ModelSim,VCS,NC-Verilog,Verilog-XL等。
从上面的分析可以看出,静态时序的主要缺点是烧钱,需要很贵的工具。这一点国内的公司也容易解决,要么融资很多不差钱,要么用盗版。
而动态时序分析有2个致命性的缺点:关键路径无法检查全意味着里面可能有fail的path,芯片流片出来无法工作;仿真特别慢意味着你的schedule可能受到影响,无法按时交货。所以动态时序分析只适用于小规模的电路,通过给激励就能完成时序的检查,同时仿真的时间还能接受。
参考资料
数字IC面试题知识汇总:1-20 - 知乎
建议收藏:不能不刷的100道数字IC笔/面试题!_数字ic试题_Cheeky_man的博客-CSDN博客
1.7 Soc动态功耗和静态功耗。
动态功耗是设备运行时或者说信号改变时所消耗的功耗;
静态功耗是设备上电但是信号没有改变时所消耗的功耗;
这里要注意的是:在设备运行时,也需要消耗静态功耗的,因为设备运行时也是上电状态。功耗分类把静态功耗单独拿出来,只是为了理论分析方便,详细参考如下
芯片设计进阶之路——低功耗深入理解(一) - 知乎
1.7.1 SoC低功耗电路设计方法
针对功耗来源,提出了低功耗设计常用方法。
降低电源电压;
减小负载电容;
减少MOS管数量;
减小连线电容
减少电荷分享的影响(对动态电路)节点开关活动因子的影响;
从算法和体系结构角度优化;
选择具有低功耗功能器件;
时钟门控;
提高工艺:
使用新型低功耗器件和材料,减少晶体管尺寸,如从28nm到16nm等。
时钟门控:
频繁的信号翻转会造成很大的短路电流,以及对负载电容进行频繁的充放电,即增大所谓的内部功耗(Internal Power)和切换功耗
(Switch Power) 。
多电压域技术:
芯片的动态功耗正比于电压值的平方,静态功耗正比于电压值,因此芯片的电压域管理策略对芯片的功耗影响很大。
多电压域技术是按照芯片功能和应用需要,将不同的逻辑模块放置在不同的电压域中,这些电压域由电源管理模块分别独立供电,使得不同的逻辑模块可以在不同的电压下工作。
例如,某一段时间内,某些性能要求不高的模块可位于低电压域中,而性能要求较高模块的供电电压相应较高,且多电压域技术也是动态电压频率缩放(Dynamic Voltage and Frequency Scaling , DVFS)、静态电压缩放(Static Voltage Scaling, SVS)、自适应电压缩放(Adaptive Voltage Scaling,AVS)设计的基础。
电源门控技术:
随着工艺技术的发展,由漏电流所产生的功耗所占的总功耗比例越来越大。对于诸如手机的手持移动设备中的SoC芯片,休眠模式下漏电流功耗的大小是设计者在设计时必须考虑的设计因素。
对于希望在休眠模式下尽量节省功耗的设计来说,最好的办法是,将处于休眠模式状态的模块的供电电源关断而保持其它模块的正常供电,这种技术叫电源门控技术。
电源门控技术与时钟门控技术相比,时钟门控降低的仅仅是电路的动态功耗,而电源门控不仅降低动态功耗,而且降低静态功耗。。时钟门控技术不影响设计电路的功能,也无须修改RTL (Register TransferLevel)代码,它在设计和实现上可以是对设计者透明的,而电源门控技术影响各模块之间的相互连接,安全进入和退出电源门控模式会增加很多额外的操作。
电源门控—股有两种方法来实现:
外部电源门控(external power gating)。实现电源门控最基本的方法,适于消耗漏电功耗较少但关断时间较长的设计。举个例子,一个SoC系统在板极上有CPU的专用电源,这个电源只提供电压给CPU。外部电源门控技术就是,可以关闭这个电源以使CPU在非活动状态时漏电功耗减小到零。但这种做法也需要最长的时间对电源门控的模块进行供电和数据的重新加载。
内部电源门控(on-chip power gating)。内部电源门控是指在芯片内部用一些专门的逻辑单元如电源门控单元来控制所选模块的
供电情况。
外部电源门控技术与内部电源门控技术均能实现将电压域中电压关断从而最大限度地减小漏电功耗的目的,但在物理实现过程中,内部电源门控技术要复杂得多。
器件低功耗
SOC系统中各个器件选型时,选择具备低功耗功能器件,但器件无业务工作需求时,可以进入低功耗状态。
RTL级优化
不同的RTL(RegisterTransferLevel,寄存器传输级)代码,也会产生不同的功耗,而且RTL代码的影响比软件代码产生的影响可能还要大。因为,RTL代码最终会实现为电路。电路的风格和结构会对功耗产生相当重要的影响。
RTL级代码优化主要包括:
①对于CPU来说,有效的标准功耗管理有睡眠模式和部分未工作模块掉电。
②硬件结构的优化包括能降低工作电压Vdd的并行处理、流水线处理以及二者的混合处理。 ③降低寄存电容C的片内存储器memory模块划分。
④降低活动因子a的信号门控、减少glitch(毛刺)的传播长度、Glich活动最小化、FSM(有限状态机)状态译码的优化等。
⑤由硬件实现的算法级的功耗优化有:流水线和并行处理、Retiming(时序重定)、Unfolding (程序或算法的展开)、Folding(程序或算法的折叠)等等基本方法以及其组合。
后端综合与布线优化
功耗的精确计算
自适应阈值电压调节技术