目录
1. INTRODUCTION TO FAULT TOLERANCE
1.2 Definitions
1.3 Two Kinds of Faults
1.4 Hardware vs Software Faults
1.4.1 Failure Curve for Hardware
1.4.2 Hardware and Software Failures
1.5 Causes of Failures
1.6 3 Ways to Class Failures
1.6.1 Temporal Behaviour
1.6.2 Output Behaviour
2. REDUNDANCY
2.1 冗余 Redundancy
2.2 Hardware Redundancy 硬件冗余
2.2.1 Detecting Errors
2.3 投票(Voting)
2.3.1 近似一致(Approximate Agreement)
2.3.2 投票算法(Voting Algorithms)
2.3.3 多数投票(Majority Voting)
2.3.4 通用k-多数投票(Generalised k-plurality voting)
2.3.5 通用中位数投票(Generalised Median Voting)
2.3.6 Comparison of Voters
2.4 N模块冗余(N-Modular Redundancy)
2.5 清除(Purging)
1. INTRODUCTION TO FAULT TOLERANCE
容错系统:如果系统能在有限数量的故障存在的情况下,依然按照规定的规格运行,那么这个系统就被认为是容错的。
- "有限数量的故障"指的是我们作为工程师选择的容错等级,具体容错等级的选择通常基于HAZOP(危害及可操作性研究)等工具。
- "按照规定的规格在故障存在的情况下运行"意味着系统必须能够检测到故障的发生,并进行故障处理。
1.2 Definitions
- 故障(Failure):系统行为偏离规定的规格。
- 缺陷(Fault):故障的原因,可能是错误的步骤,过程,数据定义等。
- 错误(Error):缺陷的表现(发生)。
- 可靠性(Reliability):系统在特定时间内无故障运行的概率。
1.3 Two Kinds of Faults
- 硬件缺陷:物理缺陷,可能导致系统或组件产生错误。 A physical defect that can cause the system or component to produce an error
- 软件缺陷:软件源代码中的缺陷,可能导致系统或组件产生错误。A defect in the source of the software that can cause the system or component to produce an error
1.4 Hardware vs Software Faults
硬件和软件以不同的方式失败。硬件通常会随着时间的推移出现故障,如元件的退化或环境条件的改变。反观软件,则在相同的状态和输入下,每次都会失败或每次都会成功,这就使得软件的故障更加系统性。
1.4.1 Failure Curve for Hardware
Does this make sense for software failures? No!
1.4.2 Hardware and Software Failures
Hardware (tends to) fail randomly 硬件(倾向于)随机故障
- e.g. degradation of components 组件的退化
- e.g. changes in environmental conditions 环境条件的变化
Software (tends to) fail systematically 软件(倾向于)系统性故障
- with same state, same inputs, fails every time or succeeds every time (although beware concurrency and other sources of nondeterminism) 相同的状态,相同的输入,每次都失败或每次都成功(但要注意并发性和其他非确定性的来源)
1.5 Causes of Failures
- 规格中的缺陷 Faults in the Specification:需要良好的规格验证技术。
- 系统组件中的缺陷 Faults in System Components(软件或硬件):需要良好的工程技术(本课程的重点)。
- 环境影响导致的缺陷 Faults due to Environment Effects:例如,对于太空船来说可能是辐射,对于其他系统可能是温度,G力等。(在HAZOP等工具中应被识别出来)
1.6 3 Ways to Class Failures
- 时间行为 Temporal Behaviour:永久的,间歇的或瞬态的 permanent, intermittent or transient。
- 输出行为 Output Behaviour:非恶意的或拜占庭式的 Non-Malicious or Byzantine。
- 独立性和相关性 Independence and Correlation:独立的或相关的 Independent or Correlated。
1.6.1 Temporal Behaviour
1.6.2 Output Behaviour
非恶意输出:所有接收的组件都能一致地解释输出。
拜占庭式输出:所有接收的组件无法一致地解释输出。
1.7 Independence vs Correlated 独立性与相关性
考虑两个相同的服务器,故障等于服务器崩溃。这两个服务器的故障是独立的还是相关的?在这里,我们需要理解它们的独立性和相关性。就像在可靠性块图(Reliability Block Diagrams)中,我们假设服务器故障是不相关的。
在这个过程中,更深入的理解和扩展,可以涉及到如何进行HAZOP,以及不同类型的故障(例如拜占庭故障)可能如何影响系统的工作。此外,我们也可以研究不同的容错策略,如冗余,备份,多版本等,以及如何在设计时考虑这些策略来提高系统的容错性。
2. REDUNDANCY
2.1 冗余 Redundancy
冗余是一种技术,使得在部分组件失效的情况下,系统仍能继续运行。主要类型包括:
- 硬件冗余 Hardware Redundancy:如使用多个处理器、复制硬件组件及计算。
- 软件冗余 Software Redundancy:如开发多种实现方式的软件。
- 信息冗余 Information Redundancy:如使用错误检查和错误纠正编码。
- 时间冗余 Time Redundancy:如重试任务,事务回滚等。
例如,空中客车A330/340的设计就使用了硬件冗余。具体内容可以参考 Airbus FCS。
2.2 Hardware Redundancy 硬件冗余
硬件冗余用于检测和容忍系统中的特定错误。例如,在一个静态对(Static Pair)中,监视器和接口互相检查。其中的假设是,P1和P2是独立失败的。
2.2.1 Detecting Errors
例如,当监视器从P1接收到32.0,从P2接收到32.1,这是正常的;但如果从P1接收到32.0,从P2接收到4.3,那么就存在错误。但这时就需要确定到底是P1还是P2出现了故障。
2.3 投票(Voting)
当需要比较超过两个组件时,可以使用投票机制,以确定可能出现故障的组件。如下面的示例,P1, P2, P3通过投票器输出结果。
2.3.1 近似一致(Approximate Agreement)
例如,当P1,P2,P3分别输出24.2、24.1、24.3时,如果他们的输出在某个小距离ε内,我们就认为这两个测量值是足够相等的(sufficiently equal)。在这个例子中,P1和P2是足够相等的,而P3与它们的距离较大,因此可能存在错误。
2.3.2 投票算法(Voting Algorithms)
投票算法决定了应该输出什么。例如,当P1,P2,P3分别输出24.2、24.1、24.3时,应该输出什么?
接下来我们会详细解释三种投票方式:Majority Voting 多数投票,Generalised k-plurality voting 通用k-多数投票,Generalised Median Voting 通用中位数投票。
2.3.3 多数投票(Majority Voting)
多数投票是一种简单的投票算法,其中的输出是投票中得到最多数的选项。在错误检测中,如果大多数的组件(例如P1和P2)提供了相同的值,那么这个值就会被视为正确的,而其他与众不同的值(例如P3)会被视为可能的错误。
- 当票数最多的集合(例如S1)的票数超过总数的一半时(即> N/2),投票算法将输出S1中的任意元素。
- 当票数最多的集合(例如S2)的票数没有超过总数的一半时,投票算法不会产生输出(表示为⊥)。
2.3.4 通用k-多数投票(Generalised k-plurality voting)
在通用k-多数投票中,我们考虑那些得票数至少为k的值。在我们的例子中,如果k等于2,那么只有那些至少由两个处理器产生的值才会被考虑。这种方式提供了一种灵活的容错机制,因为我们可以根据处理器的数量和信任度来选择合适的k值。
- 当票数最多的集合(例如S2)满足多数约束(即票数≥k),投票算法将输出S2中的任意元素。
- 当票数最多的集合(例如S2)不满足多数约束(即票数<k),投票算法不会产生输出(表示为⊥)。
2.3.5 通用中位数投票(Generalised Median Voting)
在通用中位数投票中,我们选择所有值中的中位数作为结果。如果处理器数量是奇数,中位数就是排序后处于中间的那个值;如果处理器数量是偶数,中位数就是排序后中间两个值的平均值。这种方法对于处理器输出值相差较大的情况特别有效,因为中位数可以提供一个相对稳定的结果。
在通用中位数投票中,我们反复消除最远的两个元素,直到最后剩下1个或2个元素,然后选择其中任何一个作为输出。
2.3.6 Comparison of Voters
不同的投票算法有不同的优点和缺点,选择哪种算法取决于具体的应用场景和容错需求。
2.4 N模块冗余(N-Modular Redundancy)
N模块冗余是一种容错技术,它通过掩蔽故障组件的故障来保持系统的正常运行。具体来说,对于有N个组件的系统:
- 系统可以容忍⌊(N-1)/2⌋个组件的失败。
- 系统可以检测到??个组件的故障。(这个问题在给出的slides中没有给出具体的数值,需要根据具体的N值和冗余策略来确定。)
2.5 清除(Purging)
如果一个单位是故障的,应该对其进行清除,除非这个故障是暂时的。具体的清除策略包括:
- 自我清除(Self purging):单位将自己与投票输出进行比较,如果不同,就对自己进行清除。
- 筛选冗余(Sift-out redundancy):将所有的单位配对,如果某个单位与大多数单位的输出不同,那么控制器就会断开与该单位的连接。