複製鏈接
請複製以下鏈接發送給好友

容錯技術

鎖定
容錯技術是容忍並防範局部錯誤的決策方法。是提高決策可靠性的重要方法之一。所謂容忍錯誤,就是認識到錯誤是客觀存在的,不可避免的,因此,要把主要的精力放在防範錯誤的對策上。其主要內容有:(1)診斷技術,即在最短的時間內,也就是在錯誤還不致於造成重大損失之前,就發現並排除錯誤。(2)錯誤防範技術和錯誤影響弱化技術。(3)冗餘技術,即用功能相近的若干決策方案或措施來代替單一方案,在原方案有效時,其餘方案從表面上看是多餘的,然而一旦原方案失效時,這些“多餘”的方案就可自動依次接替原方案而維持決策實施的正常進行。 [1] 
中文名
容錯技術
外文名
Fault Tolerant
定    義
利用冗餘硬件交叉檢測操作結果
核心設備
服務器

容錯技術容錯技術概況

容錯FT(Fault Tolerant)技術一般利用冗餘硬件交叉檢測操作結果。隨着處理器速度的加快和價格的下跌而越來越多地轉移到軟件中。未來容錯技術將完全在軟件環境下完成,那時它和高可用性技術之間的差別也就隨之消失了。
局域網的核心設備是服務器。用户不斷從文件服務器中大量存取數據,文件服務器集中管理系統共享資源。但是如果文件服務器或文件服務器的硬盤出現故障,數據就會丟失,所以,我們在這裏講解的容錯技術是針對服務器、服務器硬盤和供電系統的。
雙重文件分配表和目錄表技術
硬盤上的文件分配表和目錄表存放着文件在硬盤上的位置和文件大小等信息,如果它們出現故障,數據就會丟失或誤存到其他文件中。通過提供兩份同樣的文件分配表和目錄表,把它們存放在不同的位置,一旦某份出現故障,系統將做出提示,從而達到容錯的目的。
快速磁盤檢修技術
這種方法是在把數據寫入硬盤後,馬上從硬盤中把剛寫入的數據讀出來與內存中的原始數據進行比較。如果出現錯誤,則利用在硬盤內開設的一個被稱為“熱定位重定區”的區,將硬盤壞區記錄下來,並將已確定的在壞區中的數據用原始數據寫入熱定位重定區上。
磁盤鏡像技術
磁盤鏡像是在同一存儲通道上裝有成對的兩個磁盤驅動器,分別驅動原盤和副盤,兩個盤串行交替工作,當原盤發生故障時,副盤仍舊正常工作,從而保證了數據的正確性。
雙工磁盤技術
它是在網絡系統上建立起兩套同樣的且同步工作的文件服務器,如果其中一個出現故障,另一個將立即自動投入系統,接替發生故障的文件服務器的全部工作。
網絡操作系統具有完備的事務跟蹤系統
這是針對數據庫和多用户軟件的需要而設計的,用以保證數據庫和多用户應用軟件在全部處理工作還沒有結束時或工作站或服務器發生突然損壞的情況下,能夠保持數據的一致。其工作方式是:對指定的事務(操作)要麼一次完成,要麼什麼操作也不進行。
UPS監控系統
UPS監控系統用於監控網絡設備的供電系統,以防止供電系統電壓波動或中斷。
在工作中,我們選取的容錯技術應根據實際情況而定(如資金,規模等)。 [2] 

容錯技術容錯技術歷史

上世紀80年代,第一代容錯技術就開始進入商用領域。美國Stratus(容錯公司)在Stratus獨特的硬件級容錯技術及VOS專有操作系統環境下,採用了Motorola M68000處理器。
1993年,英特爾 I860處理器在Stratus的硬件級容錯體系結構中成功應用,在軟件環境方面,還能滿足業界對開放性要求的Unix操作系統FTX,即AT&T UNIX SVR4。
1996年,容錯技術得到HP的支持,共同推出Stratus Continuum系列,將Stratus容錯結構結合HP PA-RISC對稱多處理技術。
進入21世紀以來,製造、中小企業、能源、交通等領域對服務器,特別是中低端IA服務器的需求激增,過去僅僅可以應用在RISC平台、HP-UX環境下的容錯產品也面臨着新的挑戰。另一方面,企業越來越依賴信息系統來完成關鍵業務的應用,同時他們不可能配備更多的專業人員來進行專職維護。雙機熱備集羣服務器遇到難題。
如今:NEC通過與美國容錯公司多年的合作,於2001年推出了業界第一台基於IA架構、支持Microsoft Win-dows Server 2000標準操作系統環境的容錯服務器。NEC的Express5800/ft系列在Windows及Linux平台上的可靠性達到了99.999%,這種實時保護技術來源於STRATUS連續處理技術(Fundamentals of Continuous Pro-cessing Design),它包括:
LOCKSTEP 技術
LOCKSTEP技術使用相同的、冗餘的硬件組件在同一時間內處理相同的指令。LOCKSTEP技術可以保持多個CPU、內存精確的同步,在正確的相同時鐘週期內執行相同的指令。該技術保證能夠發現任何錯誤,即使短暫的錯誤,系統也能在不間斷處理和不損失數據的情況下恢復正常運行。
安全故障(FAILSAFE)軟件
FAILSAFE 軟件和LOCKSTEP技術運行一樣,可防止很多軟件錯誤和儲運耗損。該軟件在Windows 2000/2003環境下采用熱插拔內存鏡像負載均衡、多點終止失效、多通道I/O等方式,大大增強了系統連續運行的穩定性。
FAILSAFE可以管理和診斷特徵捕獲,分析和通報服務器的軟件問題,從而允許個人在軟件發生錯誤之前去糾正錯誤。FAILSAFE軟件的下列功能增強了NEC Express5800/ft系統在Windows環境中的可靠性:保護短暫的硬件故障;通過增強的驅動程序預防軟件失效;軟件問題的捕獲、分析及修正;內存數據的連續性維持;豐富的糾錯功能可以解決各種不同的錯誤。為了避免物理撞擊等意外故障,安全故障軟件還提供了自動重啓功能,能夠將宕機前CPU與內存數據即時保存下來,最大限度地避免數據的意外丟失。
激活服務(ACTIVE SERVICE )
當然,假如容錯服務器的硬件發生永久性故障,儘管系統能夠正常運行,也必須及時更換硬件才能維持容錯的冗餘架構容錯服務器都配備了簡易直觀的圖形界面來管理監測工具,(如NECExpress5800/ft提供了ESMPRO 管理軟件),能夠對服務器中硬件運行及故障狀態進行適時監控。

容錯技術發展趨勢

容錯技術的應用已經開始從過去的證券、電信等領域進入基礎行業,如製造、能源、物流、交通及有着"7×24"不間斷運營需求的中小商業團體和政府。NEC為迎合互聯網的高速增長,為容錯服務器引入了最新的穩定、安全、可升級、功能強大的Linux版本
容錯的未來將會向更高的可用性、更卓越的可維護性發展。調查顯示,越來越多的用户開始注重TCO(總擁有成本)而不是初期購買價格,更多的企業決定逐步放棄採用雙機熱備的方式來維護複雜的集羣服務器,轉而將目光瞄向具有容錯技術的平台或容錯服務器平台。
在中國市場,NEC 公司與神州數碼的合作在一定程度上彌補了容錯服務器在中國市場服務拓展領域的短板。這將引發國內各領域的容錯技術與應用的井噴式發展。
參考資料