複製鏈接
請複製以下鏈接發送給好友

容錯多處理機系統

鎖定
多處理機系統是指由兩台以上處理機組成的計算機系統。每個處理機都有各自的控制和運算部件,可獨立地執行程序,而共享公共的主存儲器和外圍設備。處理機之間是通過網絡實現通訊的。容錯多處理機系統是指計算機系統內的部件出現允許故障時,多處理系統任然可以正常運行。
中文名
容錯多處理機系統
外文名
Fault-tolerant multiprocessor system
學    科
計算機
定    義
出現故障系統仍可以運行
有關術語
多處理機系統
特    點
可靠性高

容錯多處理機系統定義

容錯多處理機系統包括大量的硬件措施和軟件措施,還包括電源組件,電源組件可以提供不間斷的不被打斷的環境。包容錯誤程序的計算機使用特殊軟件的慣常程序和自我檢查的邏輯程序,將其設計為電路的一部分,用來檢查硬件問題,並可以自動轉換成後備設施。在不涉及計算機系統的情況下,計算機的一些部分可以進行移除,也可以進行修理。容錯多處理機系統具有很高的可靠性和強大信息處理能力,在在惡劣環境中 , 計算機仍能正常運行。容錯多處理機系統實現容錯的途徑:故障檢測技術;故障屏蔽技術;系統重組技術動態冗餘技術,其中的核心技術為冗餘技術。動態冗餘技術包括重組,恢復,可重組的N倍冗餘,緩慢降級等技術。動態冗餘是通過故障檢測,故障定位及系統恢復來達到容錯的一種技術。由於系統恢復採用某種重組技術,因此係統的冗餘結構將隨故眯情況發生變化,這種技術不防止故障產生差錯,但防止差錯產生失效 [1] 

容錯多處理機系統多處理機系統

多處理機系統含兩個以上處理機,在一個操作系統控制下,實現指令、任務的並行處理的計算機系統。整個計算機系統都在統一的操作系統控制下工作,按照多指令流、多數據流的模式實現對作業、任務、程序段的並行處理。在執行時,用一些特殊的指令派生出一些可同時執行的進程(帶有控制塊可獨立執行的程序段),分配給各個處理機並行處理,某處理機不空閒時,一些進程即排隊等待。這樣,多處理機的計算機系統工作效率肯定很高。然而,這種系統的結構則比較複雜,除硬件結構複雜外,還要從軟件系統上,用並行算法、資源分配、進程調度等技術加以處理。

容錯多處理機系統容錯方法

容錯多處理機系統冗餘技術

冗餘技術又稱儲備技術,有時也稱容災備份技術,它是利用系統的並聯模型來提高系統可靠性的一種手段。冗餘技術分為工作冗餘和後備冗餘。工作冗餘:一種兩個或以上的單元並行工作的並聯模型。平時,由各處單元平均負擔工作,因此工作能力有冗餘。後備冗餘:平時只需一個單元工作,另一個單元是冗餘的,用做待機備用。以計算機為例,其服務器及電源等重要設備,都採用一用二備甚至一用三備的配置。正常工作時,幾台服務器同時工作,互為備用。電源也是這樣。一旦遇到停電或者機器故障,自動轉到正常設備上繼續運行,確保系統不停機,數據不丟失。

容錯多處理機系統軟件容錯

軟件容錯本身有兩層含義: 一是對軟件自身故障的處理;二是使用軟件對系統中出現的其它故障進行處理。軟件容錯技術大都是針對軟件本身的設計故障提出的, 但應用這些軟件容錯思想對它們有針對性地加以修改後,也可用於對系統的硬件故障進行處理。簡單的冗餘是不夠的, 需要輔以設計和數據表示的多樣性才能達到較好的容錯效果。設計多樣性( Design Diversity) 技術的核心思想是:完成某個功能有多種可能的不同方法, 現將每種可能的方法都實現( 每種實現稱為一個變體), 以儘可能保證至少有一個變體能可靠地運行。既然每種變體的設計思想各不相同, 對於同樣的輸入,不同的變體就可能產生不同的輸出, 這時就需要一種表決機制來判斷哪種輸出是正確的或可接受的。數據多樣性( Data Diversity) 是作為對設計多樣性的補充由 Ammann 和 Knight 提出的。數據多樣性着眼於程序的輸入數據, 與原始輸入數據邏輯等價的“ 重表達”數據都可以作為程序的新輸入數據。以不同表達方式的輸入數據執行相同的程序或程序的變體是數據多樣性技術的核心思想。重配置與重恢 復(Reconfiguration and Rejuve -nation): 是互為補充的軟件容錯技術。軟件重配置允許在動態考慮各種限制因素(如操作系統服務、處理器負載、可用內存等) 的情況下使用冗餘的資源對軟件進行實時恢復,是一種事件驅動的即時處理過程。在設計時,需要首先定義好重配置的觸發條件, 然後仔細定義相應條件的具體重配置策略。軟件重恢復是處理由於軟件老化導致軟件暫態故障的一種技術。它會以定時輪詢的方式中止軟件運行,清空其內部狀態並重啓之。這樣,相當於消除了軟件長期運行可能導致的積累錯誤效應。軟件重配置與重恢復的技術特點是適應性強,非常適用於資源受限的環境中 [2] 

容錯多處理機系統故障檢測

計算機系統故障檢測包括操作系統、文件結構、軟件系統特徵等方面的內容,同時還涉及硬件知識,檢查時既要進行動態的通電檢測,又要進行靜態的斷點檢測。作為計算機技術人員,關鍵是在掌握相關知識的前提下,對故障分析有清晰的思路和準確的判斷能力。檢測步驟:1、區分是軟件故障還是硬件故障,當加電啓動時能進行自檢,能顯示自檢後的系統配置清況,則計算機系統的硬件基本上沒有什麼問題,故障的原因是軟件引起的可能性比較大。2、具體確定是操作系統還是應用軟件故障,若是系統軟件故障則可能需要重新安裝操作系統,若是應用軟件故障則應該調整應用軟件安裝3、硬件故障的檢查步驟,若是硬件故障則需要首先分清主機故障還是外部設備故障即從系統到設備,再由設備到部件;由系統到設備是指計算機系統發生故障後要確定主機、鍵盤、顯示器、打印機、硬盤和軟驅等是哪一個設備出問題。同時要注意關聯部分的故障。
參考資料