背景介绍

芯片功耗组成中，有高达 40%甚至更多是由时钟树消耗掉的。这个结果的原因也很直观，因为这些时钟树在系统中具有最高的切换频率，而且有很多时钟 buffer，而且为了最小化时钟延时，它们通常具有很高的驱动强度。那么减少时钟网络的功耗消耗，最直接的办法就是如果不需要时钟的时候，就把时钟关掉。这种方法就是大家熟悉的门控时钟：clock gating。如果让我们设计一个门控时钟的电路，我们会怎么设计呢？最直接的方法，不需要时钟的时候关掉时钟，这就是与操作，我们只需要把 enable 和 CLK 进行“与”操作不就行了么，电路图如下：

这种直接将控制 EN 信号和时钟 CLK 进行与操作完成门控的方式，可以完成 EN 为 0 时，时钟被关掉。但是同时带来另外一个很大的问题：毛刺

如上图所示，EN 是不受控制的，随时可能跳变，这样纯组合输出 GCLK 就完全可能会有毛刺产生，时钟信号上产生毛刺是很危险的。

很自然的我们会想到解决方法，用触发器，只要把 EN 用 CLK 寄存一下，那么输出就是以 CLK 为基准了。其实还有一种办法是锁存器，把 EN 用锁存器锁存的输出，也是以 CLK 为基准的。

锁存门控

先来谈第二种方法，利用锁存器做clock gating，电路如下：

波形如下：

可以看到，只有在 CLK 为高的时候，GCLK 才可能会输出高，这样就能消除 EN 带来的毛刺。这是因为 D 锁存器是电平触发，在 clk=1 时，数据通过 D 锁存器流到了 Q；在 Clk=0 时， Q 保持原来的值不变。

虽然达到了我们消除毛刺的目的，但是这个电路还有两个缺点： 1 如果在电路中，锁存器与与门相隔很远，到达锁存器的时钟与到达与门的时钟有较大的延迟差别，则仍会出现毛刺。 2 如果在电路中，时钟使能信号距离锁存器很近，可能会不满足锁存器的建立时间，会造成锁存器输出出现亚稳态。

上述的右上图中，B 点的时钟比 A 时钟迟到，并且 Skew > delay，这种情况下，产生了毛刺。为了消除毛刺，要控制 Clock Skew，使它满足 Skew >Latch delay（也就是锁存器的 clk-q 的延时）。上述的右下图中，B 点的时钟比 A 时钟早到，并且|Skew| > ENsetup 一 (D->Q)，这种情况下，也产生了毛刺。为了消除毛刺，要控制 Clock Skew，使它满足|Skew|< ENsetup 一(D->Q)。

寄存门控

对于clock gating，我们还有另外的解决办法，就是用寄存器来寄存 EN 信号再与上 CLK 得到 GCLK，电路图如下所示：

时序图如下所示：

由于 DFF 输出会 delay 一个周期，所以除非 CLKB 上升沿提前 CLKA 很多，快半个周期，才会出现毛刺，而这种情况一般很难发生。但是，这种情况 CLKB 比 CLKA 迟到，是不会出现毛刺的。当然，如果第一个 D 触发器不能满足 setup 时间，还是有可能产生亚稳态。

提问：SOC 芯片设计中使用最多的是锁存结构的门控时钟，为什么？原因是:在实际的 SOC 芯片中，要使用大量的门控时钟单元。所以通常会把门控时钟做出一个标准单元，有工艺厂商提供。那么锁存器结构中线延时带来的问题就不存在了，因为是做成一个单元，线延时是可控和不变的。而且也可以通过挑选锁存器和增加延时，总是能满足锁存器的建立时间，这样通过工艺厂预先把门控时钟做出标准单元，这些问题都解决了。

那么用寄存器结构也可以达到这种效果，为什么不用寄存器结构呢？那是因为面积！一个 DFF 是由两个 D 锁存器组成的，采样 D 锁存器组成门控时钟单元，可以节省一个锁存器的面积。当大量的门控时钟插入到 SOC 芯片中时，这个节省的面积就相当可观了

代码（寄存器门控）

module clk_gating(
    input         clk      ,
    input         rst_n    , 
    input         out_en   ,
    input [63:0]  data     ,
    
    output reg out
);
 
reg en1;
wire clk_en;
 
always@(posedge clk or negedge rst_n) begin
    if(!rst_n)begin
        en1 <= 1'b0;
    end
    else begin
        en1 <= out_en;
    end
end
assign clk_en = clk & en1;
always @(posedge clk_en or negedge rst_n) begin
    if(rst_n==1'b0)
        out <= 64'b0;
    else
        out<= data;
end
endmodule

综合出来电路如下，和我们预想的一样。