複製鏈接
請複製以下鏈接發送給好友

雙機容錯軟件

鎖定
雙機容錯軟件實際上是集羣容錯的特例,雙機指兩台服務器間,集羣指多台服務器間,兩者區別主要在於服務器數據數量的不同。
中文名
雙機容錯軟件
名詞類型
軟件技術
名詞領域
計算機
分    類
雙機熱備份軟件和雙機容錯軟件

雙機容錯軟件軟件分類

雙機容錯軟件可細分為雙機熱備份軟件和雙機容錯軟件。一般來講,雙機容錯軟件實際上包含了雙機熱備份和雙機容災兩種技術。
雙機容錯軟件是計算機應用系統穩定、可靠、有效、持續運行的重要保證。它通過系統冗餘的方法解決計算機應用系統的可靠性問題,並具有安裝維護簡單、穩定可靠、監測直觀等優點。

雙機容錯軟件原因

為什麼採用雙機容錯軟件,首先應先了解為什麼服務器會發生停頓。服務器停頓原因大致可分為7類;按計劃的硬件、操作系統進行維護,如增加硬盤、安裝操作系統補丁等;應用失效,如數據庫出錯等;操作員出錯,如誤操作等人為錯誤;操作系統故障,如操作系統死機等;硬件故障,如硬盤、網卡損壞等;斷電(沒有UPS的情況);自然災害,如火災、地震、洪水等。從上面的説明可以看出,在停頓原因中軟件的因素佔到了絕大多數,而硬件原因只佔其中的以小部分原因,這就是為什麼説可以監控應用的容錯軟件有着比監控硬件的熱備份軟件更好的性能的原因。操作員出錯即人為錯誤,使用純軟件方式可以部分消除該錯誤,如誤關機、操作系統文件的誤刪除等,因為數據是分別存儲於不同服務器上,所以對於沒有損傷到複製文件的誤操作不會產生影響的。對於硬件故障,共享磁盤陣列櫃的熱備份軟件雖然對硬件進行監控但也只能部分消除,而熱備份軟件主要是對CPU的監控,對於如磁盤陣列櫃的錯誤、磁盤的損壞等無能為力,但純軟件方式可以做到。對於斷電(沒有UPS的情況),純軟件方式可以部分解決,因為這種方式的服務器之間有距離,只要不是同時斷電就可以解決。自然災害可以用純軟件方式部分解決,同樣是因為服務器之間有距離,如火災等。
對現代企業來説,利用計算機系統來提供及時可靠的信息和服務是必不可少的。但計算機硬件和軟件都不可避免地會發生故障,這些故障有可能給企業帶來極大的損失,甚至整個服務的終止,網絡的癱瘓。可見,對一些行業,例如,金融、郵電、交通、石油、電力、保險、證券等,系統的容錯性和不間斷性顯得尤為重要。因此,必須彩取適當的措施來確保計算機系統的容錯性和不間斷性,以維護系統的高可用性和高安全性。
雙機容錯軟件與集羣技術提供了比磁盤陣列更好的性能以及更多的功能。當一台主機出現故障,可及時啓動另一台主機接替原主機任務,保證了用户數據的可靠性和系統的持續運行,它主要是解決的問題是保持計算機應用軟件系統的連續運作。對於一些櫃枱業務系統,大數據量連續處理系統來説,這種數據管理是必不可少的。
目前,這項技術已在各行各業得到廣泛的應用。

雙機容錯軟件工作模式

雙機容錯軟件雙機熱備份

所謂的雙機熱備份,就是一台主機為工作機,另一台主機為備份機,在系統正常情況下,工作機為信息系統提供支持,備份機監視工作機的運行情況,工作機也同時監視備份機是否正常,有時備份機因某種原因出現異常,工作機可儘早通知系統管理工作人員解決,確保下一次切換的可靠性。當工作機出現異常,不能支持信息系統運營時,備份機主動接管工作機的工作,繼續支持信息的運營,從而保證信息系統能夠不間斷地運行。當工作機經過維修恢復正常後,它會將其先前的工作自動抓回,恢復以前正常時的工作狀態。

雙機容錯軟件雙機互備援

所謂雙機互備援,就是兩台服務器均為工作機,在正常情況下,兩台工作機均為信息系統提供支持,並互相監視對方的運行情況。當一台主機出現異常時,不能支持信息系統正常運營,另一台主機則主動接管異常機的工作,繼續支持信息的運營,從而保證信息系統能夠不間斷地運行,而達到不停機的功能,但正常運行主機的負載會有所增加。此時必須儘快將異常機修復,以縮短正常機負載持續時間。當異常機經過維修恢復正常後,它會自動抓回先前的工作,恢復以前正常時的工作狀態。

雙機容錯軟件軟件示例

易騰數信公司的雙機容錯軟件(EterneCluster-DN)為此提供了一套完美的解決方案。軟件通過兩台服務器間心跳連線感知對方的工作狀態,及時有效的瞭解服務器現實狀況並能將故障機的工作以最快的速度切換至備用服務器上運行,保證了數據和業務的連續性,也同時保證了客户們的最根本利益,為用户節省大量的開支。
軟件示例 軟件示例
其負責管理2台主機運行的各自應用系統,當主機或主機上的軟件出現故障時,不需人工干預,雙機集羣中另外主機通過心跳線路,可以自動檢測出該故障主機,準確、快速地將原主機的應用系統移交到另一台主機上繼續運行,實現整個系統的不間斷運行,從而保證整個系統對外服務的正常,為企業24小時×365天的關鍵業務應用提供了強大的保障。

雙機容錯軟件服務器優勢

在一台容錯服務器內部有超過 500個故障檢測點,隨時都有可能發出錯誤報警和通知。這些故障中,有處理器、芯片組、內存尋址、字節和電源錯誤,也有內部總線協議、CRC、ECC、系 統時鐘、系統服務和散熱系統錯誤等,對於標準工業服務器而言,任何錯誤都可能導致系統癱瘓,更為可怕的是這些錯誤是隨機的,很多屬於臨時性錯誤。如果把系統重新啓動,有些故障就會消失。與故障相比,有些錯誤不容易被察覺,導致錯誤的計算結果,其危害更大。
工業標準服務器所以有如此的問題 主要與設計思想有關,運行時間不是其主要設計目標,它只具有有限冗餘特徵,如電源,需要通過集羣來提高可靠性。與之相比,小型機具有更高的可靠性設計,用於保障系統的可靠運行。小型機在故障點檢測上有很多的保障機制。通常小型機的價格比較高。隨着處理器技術的發展,特別是Intel Xeon 7500系列處理器的推出,IA處理器在可靠性性能設計上與小型機所採用的RISC處理器大幅度接近,但在系統上,標準工業服務器還是有些差距。
工業標準服務器的優勢在於價格,小型機的競爭力在於高可靠性,有沒有辦法魚和熊掌兼得呢?就只有在系統結構上想辦法,雙機、集羣和容錯都是不錯的方法。
雙機和集羣是通過軟件的方法,通過故障機切換來提升可靠性。與之相比,容錯是採用硬件的方法,以及特有故障處理和保障機制提高系統的可靠性。容錯較之單機具有更高的可靠性,其中,容錯還具有糾正臨時性錯誤的能力,可以確保計算的正確性。
小型機也通過雙機和容錯來進一步提升可靠性,但成本代價更高。隨着IA處理器可靠性性能的改善,採用容錯服務器提高系統可靠性成為了很多明智用户的選 擇。與雙機相比,容錯服務器硬件成本高於雙機方案,但考慮軟件因素,容錯服務器具有相當競爭力。在這種情況下,以Stratus的ftServer為代 表,容錯服務器的門檻已經大大降低,成為關鍵業務應用的理想選擇。 [1] 
參考資料