知圈 |
進“毫米波雷達社群”請加微信13636581676,備注毫米波
ISO 26262中對“Functional Safety, 功能安全”的定義如下:
Absence of unreasonable risk due to hazards caused by malfunctioning behavior of E/E systems.
(不存在由電子電氣系統的功能異常表現引起的危害而導致不合理的風險)
而從本質上來講,電子電器系統的功能異常表現由兩類失效引起:
從這個角度,可以認為功能安全的目標就是將電子電器系統的隨機硬件失效和系統性失效控制在合理的(或者說可接受的)范圍內。適當且充分的安全分析可以幫助功能安全開發更好地實現這一目標。安全分析方法包含兩類:
ISO 26262標準中對這兩類分析方法分別推薦了FMEA (Failure Mode and Effects Analysis)和FTA (Fault Tree Analysis)。

另一方面,ISO 26262中對功能安全開發的要求既有定性分析的要求,也有定量分析的要求。當試圖將這些要求與分析方法對應時存在著一些誤解,認為FMEA只能用于定性分析,而FTA則只用于定量分析,其實不然。
作為兩種被很多行業廣泛使用的分析方法,FMEA和FTA均既能用于定量分析也能用于定性分析,只是不同行業會基于不同的目標加以篩選使用。而實際上在功能安全開發過程中,FMEA和FTA的定量分析和定性分析均所有體現且發揮著不同的作用。本文將對這一點進行說明。
1.FMEA中的定性分析與定量分析
1.1.FMEA簡介
FMEA(Failure Mode and Effects Analysis)歷史悠久,最早于1949年在美國軍事裝備開發中提出,后來形成了國際標注1977年引入汽車行業,目前被汽車行業廣泛使用的標準為德國汽車工業協會VDA和美國汽車工業行動小組AIAG聯合發布的“
Failure Mode and Effects Analysis – FMEA Handbook
”。
FMEA主要針對技術風險,是對產品開發和生產流程中進行預防性質量管理的一種分析方法。FMEA分析方法最大的特點是從系統各元器件的失效原因到它們的失效對系統的影響,從而對可能造成不可接受的影響的失效原因制定優化措施,是一種“自下而上(bottom-up)”的分析方法。

FMEA 圖解,自下而上的方法
1.2.FMEA與定性分析——“七步法”
在2019版的《Failure Mode and Effects Analysis – FMEA Handbook》中FMEA定性分析歸納為七步,如下圖所示。

其中第1步和第7步是新版本加上去的,分別對計劃和最后的文檔工作進行了指導,而中間五步則是FMEA的核心。接下來將重點對這五步的關鍵點進行闡述。
1.2.1.Structural Analysis(結構分析)
這里的結構指的是系統的結構。系統由若干個要素(element)組成,這些要素都具備相應的特征同時通過一定的關系與其他要素相互聯系。同時系統具有將系統與外界環境分開的明確的邊界,并且其與環境的關系由輸入和輸出定義。
結構分析的目的就是清晰、完整地描述產品的組成部分,包括系統的邊界。在FMEA中用樹狀圖的形式描述了整個系統中的要素。

1.2.2.Function Analysis(功能分析)
功能分析的目的是保證產品功能被適當地分配給了相應的要素,從而將產品功能和要素功能關聯起來形成功能網絡。而這個工作將在已經確定的系統結構樹的基礎上完成。

1.2.3.Failure Analysis(失效分析)
對失效的定義來源于功能定義,當功能不能被實現時即為失效。功能的失效模式可以從以下幾個方面定義:
Loss of function (e.g. inoperable, fails suddenly)
Degradation of function (e.g. performance loss over time)
Intermittent function (e.g. operation randomly starts/stops/starts)
Partial function (e.g. performance loss)
Unintended function (e.g. operation at the wrong time,
unintended direction, unequal performance)
Exceeding function (e.g. operation above acceptable threshold)
Delayed function (e.g. operation after unintended time interval)
一條完整的失效網包含以下三個因素,三者的關系如下。失效分析的目的是正確地識別出失效原因(failure cause)、失效模式(failure mode)和失效影響(failure effect), 從而基于功能網確定失效網。
失效原因(failure cause)
失效模式(failure mode)
失效影響(failure effect)

failure mode是使要素無法滿足預期功能的方式;而failure cause則為使failure mode發生的原因;failure effect被定義為failure mode所引起的后果。

1.2.4.Risk Analysis (風險分析)
風險分析的目的是通過評估風險的嚴重度(Severity)、頻度(Occurrence)和探測度(Detection)來確定需要采取優化措施的優先級。
Severity值指的是最頂層(整車層)的failure effect所造成的嚴重程度。簡單來說,10表示最嚴重,0表示最不嚴重。
Occurrence值反映的是在為避免failure cause發生所采取的預防措施的作用下failure cause發生的可能性。簡單來說,10表示發生的可能性最大,0表示可能性最小。
Detection值則反映了在產品量產釋放之前采取的探測failure cause的措施的有效性。簡單來說,10表示探測的有效性最差,0表示有效性最好。
1.2.5.Optimization(優化)
在確定失效網的S\O\D值后,將進行風險分析,確定需要采取優化措施的優先級。對于風險評估的標準每個公司都可能有自己的標準,有些公司用RPN值,RPN=O*D*S,根據RPN的結果大小來確定優先級。有些公司采用S*O值的結果來進行確定。不管采取哪一種評價標準,核心的目的是識別出系統中最需要優化的點。
優化的目的是對需要采取進一步措施的failure cause定義新的預防措施和探測措施,以降低O/D值從而將風險降低到可接受的范圍。
1.3.FMEA與定量分析——FMEDA
在功能安全開發中,FMEDA(Failure Modes, Effects and Diagnostic Coverage Analysis)作為對電子元器件的隨機硬件失效分析方法而被廣泛熟知,而實際上FMEDA是在FMEA的“自下而上(bottom-up)”的分析思路的基礎上,加入以下兩部分內容發展而來的:
從這個角度,可以認為FMEDA就是FMEA分析方法進行定量分析的典型應用。
FMEDA的第一步是識別出電子元器件的每一個故障模式對系統造成的影響。完成這一目標需使用上節提到的FMEA定性分析步驟中的“結構分析”、“功能分析”與 “失效分析”,從而構建出功能網和失效網。當失效網確定后,有安全影響的電子元器件及其失效模式也隨之確定。
FMEDA的第二步是對每一個與安全相關的失效模式確定以下三個值,從而為定量分析提供數據支持(這一點在2.3.3節“FTA與FMEDA的合作”中有更進一步的說明)。
|
|
|
|
|
|
|
故障模式占比(failure mode distribution)
|
Reliability Engineering等手冊
|
|
診斷覆蓋率(Diagnostic Coverage)
|
ISO 26262,part5指南、企業know-how與專家經驗
|
舉例來說,假設下圖中電阻R72通過標準和相關手冊確定的故障模式及失效率信息如下:


λ _unsafe:電子元器件所有安全相關的總失效率
λ _type:電子元器件某個故障模式下的總失效率
假設R72短路會直接違背安全需求,但不會構成多點失效電路中對短路故障有監控機制且覆蓋率為90%。則該失效模式的分析結果為:
λ _SPF = 0 (FIT)
λ _RF = λ _type * (1-90%) = 28 * 10% = 2.8 (FIT)
λ _PMF_L = 0 (FIT)

假設R72斷路不會直接違背安全需求,但是它會與另一個元器件的失效共同構成雙點失效。且電路中對斷路故障有監控機制且覆蓋率為80%。則該失效模式的分析結果為:
λ _SPF = 0 (FIT)
λ _RF = 0 (FIT)
λ _PMF_L = λ _type * (1-80%) = 8 * 20% = 1.6 (FIT)

綜上,FMEDA對R72的分析總結如下:

2.FTA中的定性分析與定量分析
2.1.FTA簡介
1961年以前的安全與失效分析方法僅局限于對系統部件的失效模式何失效影響進行定性分析。但是隨著系統復雜性逐漸提高,要想把每個失效模式對系統可能造成的影響理清越來越困難;與此同時,這種分析方法不適用于對系統的可靠性進行定量分析。1961年,基于可靠性理論的知識,貝爾實驗室的布爾代數工程師H. Watson將帶有邏輯符號的布爾模型引入失效分析方法中去定量評估控制系統的可靠性,FTA便誕生了。
在波音公司首次在Minuteman I發射控制安全研究中公開使用FTA并獲得很好的實踐結果后,FTA隨后被引入航空航天、核工程、機器人行業,幾十年的發展使得FTA在評估復雜系統的安全性和可靠性方面得到了廣泛的應用。2011年ISO 26262將FTA作為推薦的演繹分析法(Deductive analysis method)引入到汽車的功能安全開發中。
何為演繹分析法?簡單來說就是從影響出發找出到原因的“自上而下(top-down)”的分析方法。通常把頂層影響成為頂層事件或頂事件(top event),底層原因稱為原始事件或底事件(primary event)。

1).識別出可能引起頂層事件非預期發生的原始事件和原始事件組合
2).篩選出最有可能導致頂層事件非預期發生的原始事件或組合
3).通過布爾代數理論計算導致頂層事件非預期發生的可能性
2.2.FTA與定性分析——割集(cut set)
FTA的定性分析的主要作用是通過構建故障樹識別頂事件與底事件之間的關系,同時識別出可能引起頂層事件非預期發生的原始事件和原始事件組合。
由于FMEA是從系統的底層原因觸發,因此在分析某個底層事件的某個失效模式時會假定其他底層事件都是正常狀態,而不考慮與其他底層事件同時發生故障對系統頂層造成的影響,所以FMEA僅用于分析單點故障。而FTA的優勢則可以分析多點故障。接下來以EPB系統(電子駐車系統,Electric Parking Brake)為例對FTA的定性分析的這一優勢進行說明。
搭建故障樹是進行FTA定性分析的第一步,而確定頂事件是搭建故障樹的第一步。在功能安全分析中,系統的Safety Goal通常定義為頂事件。選取EPB系統的一條Safety Goal為例搭建故障樹并對說明FTA如何做定性分析。
Safety Goal:EPB應避免錯誤建壓而造成過高的減速度,ASIL: C
這條Safety Goal對應EPB系統的動態液壓制動功能。法規要求EPB能夠作為第二套行車制動系統,通過拉起EPB開關,可以觸發電控液壓制動單元主動建壓以實現最低1.5m/s2的減速度。
動態液壓制動功能由ESC Assy的SSM模塊實現,SSM模塊的功能主要包括:
evaluation of the state of the vehicle (static/dynamic)
respond driver bottom intention to release and apply the parking brake
comfort functions such as automatic release and application
Requesting the dynamic deceleration function

動態液壓制動功能信號鏈,由ESC Assy(藍色)實現
當動態液壓功能正確工作時,其信號鏈為:EPB開關拉起 → SSM模塊計算目標減速度 → ESC響應目標減速度建壓。反之,以下事件任何一個發生都會導致頂事件的發生(或門):
EPB開關非錯誤拉起
SSM模塊錯誤請求動態建壓
ESC錯誤主動建壓
最終搭建的故障樹如下所示(此處故障樹僅作示例使用,略去很多細節,與真實開發存在差距):

基于頂事件與底事件之間的關系,也就識別出了可能引起頂層事件非預期發生的原始事件和原始事件組合,也即識別出割集(cut set)。當一個原始事件即可以引起頂層事件非預期發生時,記為order=1; 當兩個原始事件同時發生才會引起頂層事件非預期發生時,記為order=2,以此類推。
割集結果驗證了前面提到的FTA定性分析相比FMEA既可以識別單點故障又可以識別多點故障的優勢。基于分析結果可以篩選出對安全目標有影響的故障以及故障的類型(單點故障或者多點故障),從而優化設計。
Cut set |
order |
SSM軟件bug |
1 |
EE存儲錯誤 |
1 |
(EPB開關電路錯誤,EPB開關監控失效) |
2 |
2.3.FTA與定量分析——SPFM, LFM, PMHF
在功能安全開發中,FTA定量分析被廣泛運用于計算電子電器系統的隨即硬件失效率是否滿足以下兩個方面的要求:
1).硬件架構度量的評估
(Evaluation of the hardware architectural metrics)
2).隨機硬件失效導致違背安全目標的評估
(Evaluation of safety goal violations due to random hardware failures)
2.3.1.要求1:硬件架構度量的評估
簡單來說,硬件架構度量用來評估相關項的架構應對隨機硬件失效時的有效性。這些度量所針對的隨機硬件失效僅限于相關項中某些安全相關電子和電氣硬件元器件,即那些能對安全目標的違背或實現有顯著影響的元器件,并限于這些元器件的單點故障、殘余故障和潛伏故障。
顯示用于防止硬件架構中單點或殘余故障風險的安全機制的覆蓋率是否足夠(單點故障度量,single-point fault metric, SPFM);
顯示用于防止硬件架構中潛伏故障風險的安全機制的覆蓋率是否足夠(潛伏故障度量, Latent fault metric, LFM)

ISO 26262中對單點故障度量的要求如下,對ASIL A的安全目標沒有要求,對ASIL B的安全目標沒有強制要求,對ASIL C和ASIL D的安全目標有強制要求。

ISO 26262中對潛伏故障度量的要求如下,對ASIL A的安全目標沒有要求,對ASIL B的安全目標沒有強制要求,對ASIL C和ASIL D的安全目標有強制要求。

2.3.2.要求2:隨機硬件失效導致違背安全目標的評估
簡單來說,對隨機硬件失效導致違背安全目標的評估是用來確定違背安全目標的殘余風險已經足夠低。最常用的方法為“隨機硬件失效概率度量”( Probabilistic Metric for random Hardware Failures,PMHF)。PMHF表示在汽車運行周期中每小時平均失效概率。ISO 26262對PMHF的要求如下:

2.3.3.FTA與FMEDA合作
FTA定量分析的目標為計算并分析電子電器系統的隨機硬件失效是否滿足ISO 26262對SPFM, LFM以及PMHF的要求。這一過程需要FTA和FMEDA合作完成。
從微觀角度講,對于一個電子電器系統的的ECU電路圖,我們可以確定電路圖中所有電子元器件的失效模式與對應的失效率以及對失效的診斷覆蓋率。但是,從宏觀角度講有兩點需要明確:
因此需要對所有電子元器件的失效模式進行分析和篩選。FTA定性分析過程中搭建的故障樹中的底事件中已經識別出了能造成整車安全影響的硬件失效,將這些底事件轉換成系統對硬件的需求輸入給FMEDA,以構建出頂層失效與底層電子元器件故障的失效網絡;失效網絡確認后,通過FMEDA分析確定和安全相關的電子元器件的失效率、故障模式占比以及安全機制的診斷覆蓋率,并將相關數據作為FTA的輸入。
在此需要指出,除了在ECU層設計安全機制外,在軟件層也可以設計滿足一定診斷覆蓋率的安全機制(即軟件監控),而這一部分在FMEDA中是沒有的,它存在于FTA故障樹中。因此,FTA在計算SPFM, LFM以及PMHF時,輸入并不完全是來自FMEDA,而應該是FMEDA加上軟件層的安全機制覆蓋率。

總結
1、FMEA和FTA作為兩種不同的分析方法被引入功能安全開發中,兩者均能進行定性分析,也能進行定量分析;
2、FMEA進行定性分析的主要目標是從系統各元器件的失效原因到它們的失效對系統的影響,從而對造成不可接受的影響的失效原因制定優化措施;
3、FMEDA作為對電子元器件的隨機硬件失效分析方法,實際上是在FMEA的方法論基礎上發展而來,因此可以認為FMEA的定量分析體現在FMEDA的應用中;
4、FTA進行定性分析的主要作用是通過構建故障樹識別頂事件與底事件之間的關系,同時識別出可能引起頂層事件非預期發生的原始事件和原始事件組合;
5、確定電子電器系統的隨即硬件失效是否滿足ISO 26262的定量要求,通常需要借助FTA和FMEDA共同完成,FTA的底事件為FMEDA提供設計需求,FMEDA為FTA提供隨機硬件失效相關的數據
。