AVB简介(二): gPTP简介
- 一、时间同步要解决的问题
- 二、gPTP的主要思想
- 2.1 体系结构
- 2.2 主时钟选取
- 2.3 绝对时间同步
- 2.4 相对时间同步
- 三、影响校时精度的因素
- 3.1 传输时延不对称
- 3.2 驻留时间
- 3.3 时间戳采样点
- 3.4 时钟频率
- 3.5 传输路径延时测量方式
- 3.6 时钟类型
- 四、gPTP校时过程
- 4.1 绝对时钟同步
- 4.2 相对时钟同步
- 五、参考资料
本文是AVB系列文章的第二篇,主要介绍AVB协议族中的精确时钟同步协议gPTP(IEEE Std 802.1AS-2011)(Precision Time Protocol standardized in IEEE1588-2008 (or IEC61588-Ed.2))。
一、时间同步要解决的问题
- 不知道大家还记得军训练习齐步走的场景:
大家整齐的站成一排,教官先喊出”齐步走“的口号,当学生听到走字后开始以同样的步伐行走(同频率同步长)
如果大家始终这样走,那永远都会是整齐的,因为同学们都是跟着自己的感觉走的,每个人对时间的感觉不同,最终总会乱起来。
为了防止这种情况发生,教练需要在同学们走正步的同时喊“幺二幺、幺二幺…”,让失调的同学在走的过程中动态调整。 - 时钟同步原理类似
教官相当于主时钟,教官发出的“齐步走”相当于校时信号。
各个学员类似于从时钟,收到校时信号指令后校准自己的时钟。
由于从时钟的晶振受到环境因素(温度等)变化影响,随着时间流逝,各各时钟会慢慢变的不同步,所以需要主时钟周期性的发出校时信号供失调的节点动态调整时钟(相当于教练喊的幺二幺)。
由此可见,如果要整个网络中的节点保持时钟同步,该网络必须解决以下问题:
- 选取一个主时钟
- 主时钟动态发出同步信号
- 其他本地时钟根据同步信号同步自己的本地时钟。本地时钟的同步包含下面两个方面(通俗点讲就是,找到同步点,然后以同样的频率运行):
1. 绝对时间同步 : 要求在同一时刻,A和B的显示时间一致(A测出来是早上8点,B测出来也应该是早上8点),又称为相位同步。
2. 相对时间同步 : 要求A和B两时钟对同一确定间隔的测量时长保持一致(A测出来是1ms那也要求B测出来也是1ms),又称为频率同步。
gPTP就是为了解决以上问题而诞生的。和其他校时协议不同的是,通过约束网络内的节点,它可以达到ns级的精度(6跳以内任意节点间最大时钟误差不超过1us),因此在车载、工业控制等对实时性要求较高的领域得到了应用。
二、gPTP的主要思想
先从下图直观感受下gPTP的校时机制,后面会逐步详细介绍:
2.1 体系结构
AVB域内的每一个节点都是一个时钟,由以下两个角色组成:
- 一个主时钟(Grandmaster Clock),它是标准时间的来源;
- 其他的都是从时钟(Slave Clock),它们必须把自己的时间和主时钟调整一致。
下图是一个简单的gPTP网络拓扑图:
它包含两种类型的节点:
- Time-aware end station:是系统内的主时钟(时间源,Grandmaster),也可是从时钟,图中标注的802.1AS endpoint就是该类设备。
- Time-aware Bridge:它可以是主时钟,也可是是个中转设备(类似传统的交换机),连接网络内的其他设备,作为中转设备,他需要连接主时钟的信息并将该信息发出去(在转发的时候需要矫正链路传输时延和驻留时间),图中标注的802.1AS bridge的就是该类设备。
从上图可以看到时钟从主时钟发出,经由各各bridge分发到所有的从节点。
2.2 主时钟选取
gPTP中主时钟既可以默认指定,也可通过BMCA(Best Master Clock Algorithm) 动态选取。 (车载或其他一些网络拓扑固定的应用场景中,一般不允许使用BMCA动态选取主时钟,而是默认指定。有需要请查阅规范文档,不详细展开)
2.3 绝对时间同步
下图包含一个主时钟一个从时钟,t1,t4为主时钟时间,t2,t3为从时钟时间:
主要校时流程如下:
- Master先发送Sync命令,Slave在t2时刻收到该命令,但不知道该命令什么时候发出的。
- Master发出Follow_Up命令,Slave收到该命令后知道Sync命令是在Mater的t1时刻发出的。
- Slave在t3时刻发送Delay_Req命令,Master在t4时刻收到,并记录了下来。
- Master发送Delay_Resp命令,Slave收到该命令后,Slave就知道了来自Master的两个时刻t1和t4,来自Slave的两个时刻t2和t3。
假设路径传输延时是对称的,即去程的传输延时和回程的传输延时相等,可以用小学二年级的知识,根据已知条件求取主从之间的传输延时与时间偏差(设从时钟超前主时钟clock_offset, 主从传输延时为path_delay)
t2 - t1 = clock_offset + path_delay
t4 - t3 = -clock_offset + path_delay
由此可以算出:
path_delay = (t4 – t3 + t2 – t1) / 2
clock_offset = (t3 – t4 + t2 – t1) / 2
现在从时钟知道了自己与主时钟的时差clock_offset,就可以调整自己的时间了。另外,从时钟还知道自己与主时钟的路径传输延时path_delay,该值对于switch意义重大,因为在gPTP的P2P校时方式中,switch需要转发主时钟的校时信号,在转发的时候需要将该值放在补偿信息中。
从上面流程可见,传输延时path_delay的精度/稳定新会影响校时精度,从而传输延时又可以划分为:各链路传输时间总和,中间节点转发导致的驻留时间(缓存时间)。
2.4 相对时间同步
相对时间就是指主时钟和从时钟的晶振频率要一致,可以通过以下方法估算晶振频率变化动态调整。如下图所示:分别在t1和tn时刻对主时钟进行采样,分别记录为t1_master, t1_slave, tn_master, tn_slave, 可得:
retio = (tn_slave – t1_slave) / (tn_master – t1_master)
如果retio等于1,表明同步了,如果大于1,表示从时钟频率快了,否则巴拉巴拉。从时钟可以根据该值调整自己的频率。
三、影响校时精度的因素
其实不同的校时协议原理都大同小异,为什么gPTP可以达到ns级的精度?我们呢不妨看一下影响校时的因素以及gPTP的对策。
3.1 传输时延不对称
前面2.3小结提到,假设传输延时是对称的,即保存从A传到B与从B传到A的时间相同,实际情况中,路径有可能是不对称的。这就会导致校时误差。
gPTP对策:
- 要求网络内的节点都是时间敏感的
- 传输延时分段测量(P2P方式)减少平均误差
- 中间转发节点可以计算报文的驻留时间,保证校时信号传输时间的准确性
- 如果已知链路不对称,可以将该值写在配置文件中,对于endpoint,在校时的时候会把该偏差考虑进去;对于bridge设备,在转发的时候,会在PTP报文的矫正域中(correctionField)把对应的差值补偿过来。
3.2 驻留时间
对于Bridge设备,从接收报文到转发报文所消耗的时间(中间可能经过缓存),称为驻留时间,该值有一定随机性。从而影响校时精度。
gPTP对策:Bridge设备必须具有测量驻留时间的能力,在转发报文的时候,需要将驻留时间累加在PTP报文的矫正域中(correctionField)。
3.3 时间戳采样点
前面提到的t1、t2、t3、t4等采样时刻的值,应该在哪里产生呢?
常规做法是在应用层采样,如下图蓝色传输线路所示:在发送端,报文在应用层(PTP校时应用)产生后,需经过协议栈缓冲,然后才发送到网络上;在接收端,报文要经过协议栈缓冲,才能到达接受者(PTP校时应用)。这样存在下面两个问题,而这会影响时间同步的精度:
- 协议栈缓冲带来的延时是不固定的
- 操作系统调度导致的随机延时
为了达到高精度的时间同步,必须消除软件带来的不确定因素,这就要求必须把时间采集点放在最靠近传输介质的地方。 - 从上图可以看到,比较合适的采集点就是MAC层:在发送方,当报文离开MAC层进入PHY层的时候记录当前时刻;在接收方,当报文离开PHY层刚到达MAC层的时候记录当前时刻。这样可以消除协议栈带来的不确定性。
- MAC时间戳可以通过软件的方式打,也可以通过硬件的方式打,硬件方式会更精确(可以消除系统调度带来的不确定性)。gPTP中要求使用硬件方式,也就是常说的硬件时间戳。
3.4 时钟频率
晶振频率越高,误差越小,校时越精确。
gPTP要求晶振频率不小于25MHz,误差不大于100PPM(每天8.64s误差)。
gPTP的要求并不算高,主要是考虑到成本因素,要求太高不利于推广。
3.5 传输路径延时测量方式
IEEE 1588支持两种路径延时测量方式:End-to-End(E2E) 和 Peer-to-Peer(P2P),二者不能在同一个网络中共存。
在End-to-End机制中,强调的是两个支持PTP的端点(一个master port,一个slave port)之间的延时,这两个端点可能是直接相连的,也可能中间穿插了普通的交换机、时间敏感的透明时钟(TC),在通信双方看来,信息都是在master port 和slave port之间传输,所以最终slave测量到的传输延时是从master到slave的端到端延时。
在Peer-to-Peer机制中,要求网络内所有节点必须支持P2P,所以它强调的是相邻相邻节点间的通信,最终测量的是相邻节点间的传输延时。二者主要区别如下图所示:
- P2P测量的是相邻节点间的延时,路径测量报文不会跨节点传输,有利于网络扩展;E2E测量的是master port和slave port之间的,中间节点(如TC、普通switch)需要转发延时测量报文,网络规模较大时,报文可能泛滥,master节点压力较大。
- master节点变更时,E2E需要重新测量到新master节点的路径延时,P2P只需关心相邻节点。
- E2E方式允许网络中有普通的switch(透传PTP报文即可,由于驻留时间随机,会影响测量精度),而P2P要求网络中的switch必须全部支持P2P。
- E2E机制中,校时报文和路径测量报文是耦合在一起的(第二章第3部分描述的就是典型的End-to-End的流程,它使用Sync、Follow_Up、Delay_Req、Delay_Resp四个消息,同时计算时钟偏差和路径测量);P2P机制中有独立的报文负责路径测量,把校时和路径测量解耦了。
gPTP要求使用PTP方式,并且要求网络中所有设备都支持PTP协议,路径传输延时测量只在相邻节点之间进行,他使用Pdelay_Req、Pdelay_Resp、Pdelay_Resp_Follow_Up消息来测量路径传输延时。(注意Peer-to-Peer中没有使用Sync报文,而是专门为路径测量新建了几个报文,降低了复杂度。)
具体流程如下:
- 节点A在t1时刻发送路径测量请求命令Pdelay_Req,并记录下时刻t1
- 节点B在t2时刻收到Pdelay_Req
- 节点B将t2放在报文Pdelay_Resp中,并在t3时刻将该报文发给节点A
- 节点B将t3放在报文Pdelay_Resp_Follow_Up中发给节点A
- 节点A在t4时刻收到Pdelay_Resp_Follow_Up。至此,节点A拥有t1、t2、t3、t4四个参数,平均路径传输延时可以通过下面的公式计算出来:
path_delay = (t4 – t3 + t2 – t1) / 2
在Peer-to-Peer机制中,不仅节点A会主动发起测量请求,节点B也会主动发起测量请求,也就是说,每个节点都知道和自己紧挨着的节点的传输延时(Peer-to-Peer的名字也是这样来的)。不过有的场景下(比如固定主时钟的情况),可能会禁止master port进行路径测量。
3.6 时钟类型
PTP时钟可以分为两类:One-Step Clock和Two-Step Clock。
还记得2.2小节中Follow_Up消息的作用吗? 它只是为了把t1的值传给slave节点。这种时钟就是Two-Step Clock, 它的事件报文(Sync等)中不携带时间信息,需要用另外一条普通报文传输时间信息(用来描述上一条事件报文是在什么时候发送的)。
如果t1能在Sync报文本身中传递给slave节点,就节省了一条报文
理论上来讲,同一个网络内可以存在两种类型的时钟,并且时钟类型不会影响校时精度。
gPTP要求使用Two-step时钟,因为这种机制对硬件要求较低,方便后续扩展,以及在现有的网络中普及。
四、gPTP校时过程
4.1 绝对时钟同步
以下图为例介绍gPTP时间同步过程,为了表述方便,这里做两点假设:
- 假设下面的三个设备都是One-Step的Clock,即Sync报文发出后,不需要额外的Follow_Up报文告知Sync报文是在哪个时刻发送的。(实际802.1AS要求时钟必须是Two-Step的)
- 假设各设备已通过前面介绍的Peer-to-Peer机制测量出路径传输延时path_delay1、path_delay2
校时流程如下:
- Grandmaster时钟在t1时刻发送时间同步报文Sync到Bridge,报文Sync的originTimestamp中填充时间信息t1,矫正域correction填充ns的小数部分(Sync报文的时间戳部分只能表示秒和纳秒,不足1纳秒的只能放在矫正域)。
- Bridge收到Sync报文后,不仅要矫正自己的时钟,还要把Sync报文转发出去。
- Bridge根据Sync报文调整自己的时钟:
Bridge在t2时刻收到Sync报文,并从中解析出Grandmaster是在t1时刻发送的,以及Grandmaster填充的校正值correction。在t2时刻,Grandmaster的时钟显示的值应该是:
t1 + correction + path_delay1
由此可以计算出Bridged的时钟偏差,并调整自己的时钟:
clock_offset = t1 + correction + path_delay1 - t2
- Bridge转发Sync报文:
如下图所示,收到Sync报文后,Bridge将自己与上级节点的路径延时(path_delay1)和Sync报文在自己这里的驻留时间(rEsidence_time)累加到Sync报文的矫正域,并转发出去。此时矫正域correction值如下:
correction = old_value_of_correction + path_delay1 + residence_time
注意:Bridge不修改Sync报文的originTimestamp字段(该字段为Grandmaster发出Sync报文的时间)。
- End-Point在t4时刻收到Sync报文,并从中解析出Grandmaster是在t1时刻发送该报文的,以及Bridge矫正后的correction。在t4时刻,Grandmaster的时钟显示的值应该是:
t1 + correction + path_delay2
由此可以计算出End-Point和Grandmaster的时钟偏差,并调整自己的时钟:
clock_offset = t1 + correction + path_delay2 – t4
由上面的校时流程可以看出,整个校时过程像水面的波纹一样从Grandmaster开始向外一层层的扩散,每个节点只关注自己和上级节点的传输延时,Bridge负责将中间路径的传输延时和缓存时间逐段累加到矫正域。
4.2 相对时钟同步
如下图所示,主时钟在时刻master_t1发出校时信号Sync_1,从时钟接收到该信号的时候,记录两个值:
- slave_t1:接收到Sync_1信号时,slave本地时钟的值,这个值是当前时刻在slave时间坐标系下的采样
- slave_t1’:接收到Sync_1信号时master时间坐标系的值,该值可以用下面的公式算出:
master_t1 + 传输时延 + 矫正域
其中,master_t1和矫正域的值在Sync报文中携带,传输延时可以通过前面的方法测量。
根据前面介绍的相对时钟同步原理,可以通过下面的公式判断自己的频率和主时钟是否保持一致:
ratio = (slave_tn – slave_t1) / (slave_tn’ – slave_t1’)
理想情况下,ratio的值应该是1,如果大于1,说明从时钟走的快了,如果小于1,说明走的慢了。从时钟可以根据该值调整自己的频率。
五、参考资料
1、gPTP简介