複製鏈接
請複製以下鏈接發送給好友

分佈式數據處理系統

鎖定
分佈式數據處理系統(Distributed Data Stream Management System,DDSMS)是可以對數據進行分佈式處理的系統。DDSMS可以極大地縮短數據處理時間,提高響應速度,在實際生活中具有極其廣泛的用途。
中文名
分佈式數據處理系統
外文名
Distributed DataStream Management System
簡    稱
DDSMS
數    據
隨時間變化的數據信息序列
方    式
分佈式
功    能
6個

分佈式數據處理系統背景介紹

科技的進步和網絡技術的日新月異,增加了數據處理的難度,大量的實時數據流不斷地衝擊着應用系統的處理極限,要求應用系統能夠做出及時的反應,並且還要提高準確性,這些挑戰對於傳統的數據庫技術相當棘手。分佈式數據處理系統(DBMS)的適用範圍有限,處理靜態的小規模數據結構還可以,面對大型的網絡數據流,DBMS體現出來的弊端較為明顯,它沒有能力應對動態的數據流,更不可能形成隨時間而變化的查詢結果,它在大規模的網絡應用環境中的作用受到限制,存在技術性障礙。所以開發新的數據模型是目前網絡應用系統發展的關鍵環節。分佈式數據模型引起研究者的關注,它是專門的數據流結構模型,可以將產生的數據結構應用於分佈式環境。 [1] 
要想在海量數據中準確、快速的尋找到答案,需要耗費大量的時間、空間資源,對系統的性能也有更高的要求。雖然外部存儲大量數據集的技術已經發展的比較成熟,並在各大領域得到廣泛應用,但它不支持連續查詢,而且查詢效率低,並不適用於數據流應用,無法達到實時性的要求。為了實現高速處理大規模數據,往往要求系統的響應時間短、處理速度快。在進行數據處理時,系統仍然在進行工作,仍有大量數據輸入進來。為了達到實時性的要求,必須儘量縮短處理時間,提高響應效率。如果處理速度不夠,會有大量數據堆積,造成系統擁塞或停滯。因此,設計一種分佈式數據處理系統,提高查詢處理速度和系統的負載優化是一件具有現實意義的事情。 [1] 

分佈式數據處理系統研究現狀

近幾年,隨着數字化信息技術的發展,分佈式數據流處理技術迅猛發展,大量專家學者和研究機構致力於分佈式數據流處理技術的研究,學術界和產業界充分認識到分佈式數據流處理技術具有廣闊的應用前景和發展空間。 [1] 
北京大學哈爾濱工業大學走在了分佈式數據處理系統的前沿,引領了分佈式數據處理技術的發展潮流。北京大學數據庫實驗室研製並推出了原型阿爾戈斯(Argus)系統,具有很強的兼容性和可移植性,既能作為處理數據流的通用系統,也可以移植到其他操作系統上提供數據庫的服務。與此同時,他們基於該系統開發了一套流查詢語言,與結構化查詢語言十分相似,能夠輕鬆實現查詢數據流的功能。國內外大量科研機構和專家學者開始了分佈式數據處理系統的研究,創建了與數據流管理相關的體系結構和系統模型,用以滿足各大企業對新型數據管理的需求。 [1] 

分佈式數據處理系統需求分析

DDSMS所處理的是一種隨時間變化的數據信息序列,也就是數據流,它的特點是:連續的、潛在的、無限的、快速的,而且傳統的DDSMS在實際處理過程中,這種數據序列具有到達順序不可控、數據的速率不穩定、數據量巨大等特點。這些特點使得設計一個DDSMS需要具有以下的功能: [1] 
(1)由於物理存儲空間的限制和處理效率的要求,對數據流進行在線處理時,一般只掃描數據一遍;
(2)在一定的時間內,能夠對數據進行排序,使無序變為有序。
(3)對用户而言,傳統的DDSMS的程序設計使用户對數據的查詢具有很好的實時性;
(4)傳統的DDSMS在處理數據中,當遇到數據流的數據量巨大已超過系統的承載能力時,隨機或者有選擇地清除一些數據以緩解系統數據的膨脹;
(5)傳統的DDSMS對異常數據的處理也提出了一些要求,首先要迅速,同時要合乎實時的要求;
(6)及時的數據用户的接口能夠為用户提供方便的數據信息查詢。

分佈式數據處理系統系統結構

圖1 圖1
如圖1對DDSMS提供了一個可供參考的抽象系統結構。 [1] 
通過取樣的方法控制數據輸入的流量可以輸入監聽器。查詢庫可以處理共享,它存儲系統的連續查詢,連續查詢已經在系統中註冊。窗口查詢的臨時工作區,關於每個數據源的物理位置等靜態存儲這三個部分構成數據存儲。在當前數據流狀態上,既可以一次查詢也可以連續查詢。輸入的監控器和查詢的處理器互相聯繫,其結果存儲在臨時緩存中或通過流輸給用户,而且通過變化數據輸入速率可以對查詢計劃進行優化。
這個系統可以分為下面兩個部分:
(1)服務器方面:服務器訪問接口可以處理客户和服務器相互的所有命令和數據,服務器訪問的接口被稱作是外界和服務器的紐帶。服務器等待連接用户,控制器監聽特定的端口訪問接口,通過用户給的命令、處理結果或者數據流,最終返回查詢的結果。
(2)終端接口:終端的接口是為用户操作提供的接口,屏蔽了其中的作用過程,控制命令和查詢接口構成了終端的接口,DLL在終端中是終端接口模塊。

分佈式數據處理系統區別

與數據庫管理系統的區別
如果我們把數據集看作一個特殊的數據流,那麼可以把DDSMS定義為一個傳統數據庫系統的擴展。下面我們先對DDSMS和DBMS進行下歸納比較。傳統數據庫管理系統(DBMS)與DDSMS在功能和性能方面的幾種差異: [1] 
(1)基本的計算模型不相符。傳統的數據庫管理系統假定DBMS 被動地存儲數據單元,而用户主動發起查詢等操作,這是個用户主動,DBMS被動的模型。而DDSMS從外部數據源獲取數據,當系統檢測到符合查詢條件的數據時將數據返回給用户,這是個DDSMS主動,用户被動的模型。
(2)DBMS的查詢是精確的查詢,目前還沒有DBMS提供內建的功能支持近似查詢。而DDSMS由於數據量巨大並且快速變化,在很多時候只能提供近似的查詢結果。
(3)DBMS提供的是一次查詢,一次查詢獲得查詢結果,而DDSMS是連續查詢,只要用户註冊了一個查詢,並且沒有註銷這個查詢,那麼這個查詢將一直有效,DDSMS向用户不斷地返回查詢結果。
(4)DBMS通常不考慮與事務相關聯的時間和空間的限制,其調度與處理決策不考慮數據的各種時間特性,其系統的設計指標並不強調實時性和查詢服務質量的自適應性,而實時性和自適應性正好是數據流應用所必需的。
參考資料
  • 1.    朱沙沙. 分佈式數據處理系統的研究與應用[D]. 南京郵電大學, 2013.