複製鏈接
請複製以下鏈接發送給好友

硬件可靠性

鎖定
硬件可靠性是指在給定的操作環境與條件下,硬件在一段規定的時間內正確執行要求功能的能力。
中文名
硬件可靠性
條    件
給定的操作環境與條件
因    素
元件失效、設計不當
設    計
I/O通道干擾的抑制

硬件可靠性硬件設計

一般來説,系統總是由多個子系統組成,而子系統又是由更小的子系統組成,直到細分到電阻器、電容器、電感、晶體管、集成電路、機械零件等小元件的複雜組合,其中任何一個元件發生故障都會成為系統出現故障的原因。因此,硬件可靠性設計在保證元器件可靠性的基礎上,既要考慮單一控制單元的可靠性設計,更要考慮整個控制系統的可靠性設計。 [1] 
硬件可靠性及提高
1.影響硬件可靠性的因素
(1)元件失效。元件失效有三種:一是元件本身的缺陷,如硅裂、漏氣等;二是加工過程、環境條件的變化加速了元件、組件的失效;三是工藝問題,如焊接不牢、篩選不嚴等。
(2)設計不當。在計算機控制系統中,許多元器件發生的故障並不是元件本身的問題,而是系統設計不合理或元器件使用不當所造成。在設計過程中,如何正確使用各種型號的元器件或集成電路,是提高硬件可靠性不可忽視的重要因素。
1、電氣性能:元器件的電氣性能是指元器件所能承受的電壓、電流、電容、功率等的能力,在使用時要注意元器件的電氣性能,不能超限使用。
2、環境條件:計算機控制系統的工作環境有時相當惡劣,由於環境因素的影響,不少系統的實驗室試驗情況雖然良好,但安裝到現場並長期運行就頻出故障。其原因是多方面的,包括温度、干擾、電源、現場空氣等對硬件的影響。因此,設計系統時,應考慮環境條件對硬件參數的影響,元件設備須經老化試驗處理。
3、組裝工藝:在硬件設計中,組裝工藝直接影響硬件系統的可靠性。由於工藝原因引起的故障很難定位排除,一個焊點的虛焊或似接非接很可能導致整個系統在工作過程中不時地出現工作不正常現象。另外,設計印製電路板時應考慮元器件的佈局、引線的走向、引線的分類排序等。
2.提高硬件可靠性的一般方法
計算機控制系統的整體設計中,如何提高系統硬件的可靠性是整個系統設計的關鍵,系統硬件設計時常需採用必要的可靠性措施:
(1)電路設計。據統計,影響計算機控制系統可靠性的因素約45%來自系統設計。為了保證系統的可靠性,在對其電路設計時應考慮最極端的情況。
各種電子元器件的特性不可能是一個恆定值,總是在其額定(典型)參數的某個範圍內;同時,電源、電壓也有一個波動範圍。最壞的設計方法是考慮所有元件的公差,並取其最不利的數值核算電路每一個規定的特性。如果這一組參數值能保證電路正常工作,那麼在公差範圍內的其他所有元件值都能使電路可靠地工作。
在設計應用系統電路時,還要根據元器件的失效特徵及其使用場所採取相應的措施,對容易產生短路的部件以串聯方式複製,對容易產生開路的部分以並聯方式複製。
(2)元器件選擇。在確定元器件參數之後,還要確定元器件的型號,這主要取決於電路所允許的公差範圍。由於製造工藝所限,有些元器件參數的公差範圍可能較大,如電容器電容量等。另外,元件或器件的額定工作條件包括多個方面(如電流、電壓、頻率、機械參數以及環境温度等),設計時要考慮參數裕量,並在運行時儘量保證接近元器件的設計工作温度。
(3)結構設計。結構可靠性設計是硬件可靠性設計的最後階段。結構設計時,首先應注意元器件及部件的安裝方式,其次是控制系統工作環境的條件(如通風、除濕、防塵等)。
(4)噪聲抑制。噪聲對模擬電路的影響會直接影響系統精度,噪聲對數字電路也會造成誤動作。因此,在工程設計中必須採用噪聲抑制和屏蔽措施。對於模擬應用系統,可在電源端增加一些低通濾波電路來抑制由電源引入的干擾;對於數字系統,通常採用濾波器和接地系統;同時,在整體結構佈局時應注意元器件的位置和信號線的走向。對於電磁干擾、電場干擾可採用電磁屏蔽、靜電屏蔽來隔離噪聲,也可採用接地、去耦電容等措施來減少噪聲的影響。
(5)冗餘設計。硬件冗餘設計可以在元件級、子系統級或系統級上進行,必然增加硬件和成本。因此,設計時應仔細權衡採用硬件冗餘的利弊關係。在計算機控制系統中,主要採用控制單元冗餘和控制系統冗餘來提高系統硬件可靠性。
單元可靠性設計
控制與接口單元是指能獨立完成某些測控功能的功能模塊,其可靠性設計主要包括微處理器系統的冗餘設計、輸入輸出通道干擾的抑制、電源系統干擾的抑制、控制單元運行狀態的監視等。
1.I/O通道干擾的抑制
模擬量輸入通道常態干擾的頻率通常高於被測信號的頻率,因此可考慮採用濾波網絡對模擬量輸入信號進行濾波。可採用各種形式的金屬屏蔽層做好信號傳送線路的屏蔽工作,將信號線與外界電磁場有效地隔離開來;在系統既有模擬電路又有數字電路時,數字地與模擬地要分開,最後只在一點相連,以防相互干擾。I/O通道一般應採用光電耦合器進行電氣隔離,既可避免構成地環路,還可有效地抑制噪聲。另外,在輸入輸出通道上應採用一定的過壓保護電路。
2.電源系統干擾的抑制
同一電源網路上有較多大功率設備時,在控制單元與供電電源之間可加入三相隔離變壓器,以防止電網干擾侵入控制系統。在整機的電源線入口處,可通過增加電源濾波器來防止其他電子設備與本系統之間產生相互干擾。在機內獨立的印刷板上應安裝小型電源濾波器,以防止板與板之間的相互干擾。
由於開關電源具有較強的抗工頻電壓波動和頻率波動能力,同時能隔離從電源線進入的傳導干擾,適當場合可選用開關電源。必要時,系統輸入輸出通道和其他設備可考慮採用獨立的供電電源,實行電源分組供電。另外,邏輯電路板上的直流電源線和接地線要注意合理佈線。
3.控制單元運行狀態監視
可使用看門狗定時器(WDT)監視控制單元的運行狀態。WDT的輸出直接連到CPU的中斷請求端或控制單元的復位端,WDT的每次“定時到”溢出脈衝信號均能引起CPU的中斷或復位。WDT受CPU控制,可對其重新設置時間常數或刷新。
定時器重新開始計時,只要程序正常運行就不會產生定時中斷或系統復位。一旦程序執行出錯或發生程序亂飛、死機現象,看門狗定時器就會產生溢出脈衝信號,引起定時中斷或復位,從而使控制單元重新啓動或進入中斷服務程序進行糾錯處理。
4.控制單元的掉電保護
對付電網瞬間斷電或電壓突然下降的有效方法就是掉電保護,對計算機測控系統可外加不間斷電源(UPS),對測控系統中的控制單元可增加掉電保護電路,並慎重設計。掉電信號由硬件電路檢測,加到控制單元CPU的外部中斷輸入端。軟件中斷將掉電中斷規定為高級中斷,使控制單元CPU能及時對掉電做出反應。在掉電中斷子程序中,首先進行現場保護,保存當時重要的狀態參數。當電源恢復正常時,CPU重新復位,恢復現場並繼續未完成的工作。
5.控制單元冗餘設計
常用的控制單元冗餘設計包括熱備份並聯冗餘和冷備份並聯冗餘,兩者都是以增加成倍的硬件投資來換取系統硬件的可靠性。
(1)熱備份並聯冗餘是將若干功能相同的控制單元並聯運行,同步執行相同的處理程序,當並聯系統中至少有一個控制單元工作正常時,整個系統即維持正常工作。
為了提高控制單元的可靠性和經濟性,常採用雙機熱備份並聯方式。對受控系統而言,雙機熱備份並聯方式只是其中一個控制單元完成測控任務,另一個控制單元處於並行工作的待命狀態。但兩個控制單元同步執行同樣的程序,一旦自檢系統發現主控單元有故障時,則待命狀態的備控單元自動切換上去,代替主控單元使系統繼續正常運行。在設計雙機熱備份系統時,要解決以下兩個主要問題:
1)雙機同步。雙機同步一般是以事件作為同步令牌,其中事件可由設計者定義。如系統的工作過程為:輸入接口採集由傳感器送來的數據,在CPU內將採集到的數據和設定值進行比較、處理,最後得到本次的控制量輸出。那麼,事件可劃分為數據採集和數據處理兩個事件。
當應用系統啓動時,兩機同時執行第一事件,即採集狀態數據。當第一事件完成後,再將兩結果進行比較,如果相同則繼續第二事件;若有錯誤,則主控單元自動切換,用備控單元代替主控單元。只要主控單元工作正常,則備控單元一直處於待命狀態。
當事件進行數據處理時,若超出精度範圍,則認為其中一個數據可能有錯誤,這時可以讓雙機重新轉到本事件的首地址再執行一遍。若仍有差錯,則再轉到故障檢測程序。這種軟件回捲方法可以消除某些偶然性因素的影響。
2)故障檢測。可以利用兩機各自的自檢程序分別進行自檢,找出發生故障的控制單元。如果故障機是主控單元,則可進行自動切換,使程序繼續執行下一個事件。為了能及時切換,可以根據任務的特點多設置一些事件,使得雙機同步校驗次數增多。
所謂切換是指通過輸入輸出接口相互交換雙機狀態,一旦某控制單元出錯,另一控制單元就可及時知道。當備控單元發現主控單元有故障時,就可以發出控制信號,使主控單元自動退出控制,備控單元代替主控單元使系統繼續正常運行。
(2)冷備份並聯冗餘設計中,備份的控制單元平時不加電工作,只在發現主控單元出故障時才用其代替主控單元。冷備份的控制單元在硬件結構、軟件實現上都與主控單元完全一樣,各種聯機設備都安置到位,處於接通電源即可投入正常工作的冷備份狀態。
冷備份並聯系統中的冷熱切換可以用人工操作轉換,也可以自動切換。在設計成自動切換時,主控單元必須設置各路(或關鍵幾路)報警信號。若發現超限現象,則及時輸出切換信號去觸發冷備份系統的電源觸點,使備份單元投入正常運行。

硬件可靠性軟硬件區別

軟件可靠性與硬件可靠性之間主要存在以下區別: [2] 
①最明顯的是硬件有老化損耗現象,硬件失效是物理故障,是器件物理變化的必然結果,有浴盆曲線現象;軟件不發生變化,沒有磨損現象,有陳舊落後的問題,沒有浴盆曲線現象。
②硬件可靠性的決定因素是時間,受設計、生產、運用所有過程的影響;軟件可靠性的決定因素是與輸入數據有關的軟件差錯,是輸入數據和程序內部狀態的函數,更多地取決於人。
③硬件的糾錯維護可通過修復或更換失效的系統重新恢復功能,軟件只能重新設計。
④對硬件可採用預防性維護技術預防故障,採用斷開失效部件的辦法診斷故障;而對軟件則不能採用這些技術。
⑤基於預估計可靠性測試和可靠性的逐步提升等技術對軟件和硬件有不同的意義。
⑥為提高硬件可靠性可採用冗餘技術,而同一軟件的冗餘不能提高可靠性。
⑦硬件可靠性檢驗方法已建立,並已標準化且有一套完整的理論;而軟件可靠性驗證方法仍未建立,更沒有完整的理論體系。
⑧硬件可靠性已有成熟的產品市場,而軟件產品市場還很新。
⑨軟件錯誤是永恆的,可重現的,一些瞬間的硬件錯誤可能會被誤認為是軟件錯誤。
總之,軟件可靠性比硬件可靠性更難保證。實際上,即使是美國宇航局的軟件系統,其可靠性仍比硬件可靠性低一個數量級。
參考資料
  • 1.    .仲明振,陳伯時,李崇堅主編.中國電氣工程大典 第15卷 電氣傳動自動化.中國電力出版社,2009.04.
  • 2.    .楊剛,龍海燕編著.嵌入式系統設計與實踐.北京航空航天大學出版社,2009.03.