已剪辑自: https://mp.weixin.qq.com/s/jttd-dhv9PmNu25Z-zyd5Q
最近从各个行业对系统的安全性的关注度越来越高,10月28日,工信部公开征求的《道路机动车辆生产准入许可管理条例(征求意见稿)》中,第六条提出,申请道路机动车辆生产企业准入许可,第四项要求:
第九条提出,申请道路机动车辆产品准入许可,第二项要求:
以上条款从企业的安全管理要求和产品的安全技术要求两个方面对生产企业和其所生产的产品做出了规定,可以看出,随着智能网联汽车的普及,和国内自主品牌企业对于汽车电动化、网联化、智能化的设计水平提升,企业的安全管理能力和产品的安全性也愈发重要。
近期,城市轨道交通行业也发布了一份城市轨道交通行业管理体系认证调研报告,笔者也参与了这份调研报告的编制过程,在轨道交通领域,不仅要考虑安全性,还有可靠性(reliability )、可用性(Availability)、可维护性(Maintainability),统称为RAMS,由于轨道交通系统如信号系统、车辆系统涉及到公众的生命安全,对于生产企业和产品的RAMS管理和技术要求已成为硬性要求,但从调研的情况来看,仍然有不少企业的实施情况不理想,存在体系管理与产品实际的安全可靠性脱节的情况。
那么,无论是机动车辆领域将要成为行业准入要求的安全管理,还是轨道交通行业已经实施多年的RAMS管理情况,如何能让产品的安全性、可靠性指标达到设计要求,每个人都有着不同的见解看法,比如建立起全面的安全性、可靠性的管理体系,运用各种技术方法,这是一个非常复杂的系统工程课题,很难用一两句话解释清楚。
本篇用第一性原理来谈谈个人对这个问题的理解,**所谓第一性原理,就是要从事物的基本原理出发,从物理学原理进行推论,**这一过程会耗费更多精力。与之相对的采用类比的方法。运用类比的方法相比第一性原理更为省心省力,比如某企业的安全管理体系是如何建立的,某产品的设计就是这么来做的,就照着别人的管理方式,别人的产品作为参照物,亦步亦趋。
首先来理解一个术语概念,无论是汽车行业现在提的功能安全、预期功能安全、网络安全,和汽车行业本来就有可靠性要求,还是轨道交通行业统称的可靠性、可用性、可维护性和安全性,归纳起来在专业领域有一个统称术语,叫可信性,英文是Dependability。**它是系统的一种质量属性,需要时按照要求执行的能力。**可信性是一系列特性的统称,包括可靠性(reliability )、可用性(Availability)、可维护性(Maintainability)、安全性(Safety),现在还会有网络安全的要求,称为安保性(Security)。
如何来保证系统能够按照要求执行,通常把系统的状态定义三种:
1.**正常运行状态:**系统可以正常执行预期功能的状态
2.**不能正常运行后的安全状态:**系统无法正常执行预期功能,但保持在了安全的状态
3.**不能正常运行后的危险状态:**系统无法正常执行预期功能,进入了危险状态,存在引发潜在事故的风险
它们三者之间的相互转换关系如下
**从第一性原理出发,具备高可信性意味着系统在规定的时间内,尽可能保持在正常状态,尽可能少进入故障安全态,不能进入危险状态。**进入危险状态就可能会发生事故,绝对不能接受,但频繁接入故障安全态也不好,可靠性太低,用户也不会接受。比如AEB辅助驾驶系统,产生非预期的刹车,存在后车追尾的事故风险,但频繁地不能维持功能,退出辅助驾驶状态,给用户的体验感降低。
如何做到呢,从上图中可以看出,就是要分析失效,这里引出了下面三个:
故障(fault):可能导致系统错误的异常情况。
错误(error):计算的、观测的、测量的值或条件与真实的、规定的、理论上正确的值或条件之间的差异。
失效(failure):系统按要求执行功能的能力的终止。系统偏离了其规定的功能或性能。
它们之间的传播链为:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-5UACtHoz-1669608924448)(https://mmbiz.qpic.cn/mmbiz_png/kUQjuxf2XQWaxSPypJS2W6Ir0tFaLWE47g8YLZaKnibnezfO7dKAjxd315QEajxjAbI08OztLHah4d5LMRgOYAA/640?wx_fmt=png&wxfrom=5&wx_lazy=1&wx_co=1)]
从最低层部件发生故障,故障引起了部件偏离了其正常的性能指标范围,发生错误,错误引起了失效,失效又造成了其上一级的故障,一级级地向上传递,最终引起了系统执行功能中断,中断后存在两种可能:保持在了不可用但安全的状态,不可用并存在危险的状态。
如实现列车车门控制的功能为例,以下是一个简略的传播链
理解了失效发生的原因,可以得出如果想要避免失效,那么就要找到引起失效的故障原因,存在两个类型的故障,即系统性故障和随机性故障。随机性故障是由生产制造和运行过程造成的,如老化,磨损,退化,外部影响等。系统性故障可以被复现,因为它们来源于设计错误。随机性故障也可能由设计错误引起,如低估了周边环境温度对处理器的影响,选择了不合适的处理器或者处理器散热控制不当,引起了处理器死机属于设计错误。
如何降低和避免系统性故障和随机性故障的发生,随机性故障是客观存在的,不能完全规避,但可以通过一些安全设计方法如冗余,多样性提高安全性,通过热设计、电磁兼容设计、抗振性等设计方法提高可靠性,系统性故障是可以规避的,通过开发过程、生产制造过程、操作维护过程的一系列质量控制方法进行,并通过验证和确认的方法进行检查。
通过以上部分,理解了可信性、失效、错误、故障、系统性故障、随机性故障这些基本概念,就可以用第一性原理来说,总结起来三句话:
- 提升产品的可信性,就要是尽可能保持在正常状态,尽可能少进入故障安全态,不能进入危险状态;
- 达到第一点的要求,就要分析系统失效和引起失效的故障;
- 产生故障的成因分为两方面:系统性和随机性,有利于避免系统性故障和降低随机性故障的工作就要多做,对这两方面没有价值的工作就少做或不做。
因此,在安全性可靠性的管理体系设计中,从以上三点出发,根据企业当前的实际情况,采用第一性原理,从系统的故障机理出发,来检查每一项工作是否有利于提升产品的可信性水平,相信可以找到这项工作的意义和价值。