複製鏈接
請複製以下鏈接發送給好友

分佈式平台

鎖定
分佈式平台是指將數據存儲、數據分析和計算等構建在由多個主機構成的集羣上的軟件平台。
中文名
分佈式平台
外文名
distributed platform

分佈式平台基本概念

分佈式平台相對於單機構成的系統,其分佈式平台主要區別在於處理問題的規模上,包括數據計算的規模和數據存儲的規模。從物理層次上看,分佈式平台運行在由多台不共享內存的機器構成的集羣上,但是從邏輯層上來看,分佈式平台對用户而言就好像一個單機系統,完全感覺不到物理上分佈式的存在。分佈式平台相對於單機構成的系統具有諸多優點。具有的特點和優點如下。
● 資源共享。整個分佈式環境中的硬件、軟件、數據資源和計算資源都可以進行共享。
● 用户透明性。邏輯上,整個分佈式系統展現給用户的是一個統一的整體,用户使用的時候感覺不到分佈式系統的存在。
● 高性價比。分佈式平台相對於單機系統,一般都具有較高的性價比。
● 高可靠。分佈式平台利用資源共享的特性,為分佈式計算和分佈式存儲提供了容錯機制,以確保數據計算和數據存儲的高可靠性。
● 高度靈活性。現在的分佈式平台大多兼容市場上主流廠商的硬件產品,兼容中低配置機器。

分佈式平台基本原理

分佈式平台的基本原理是利用多台計算機來協同解決由單台計算機不能解決的問題,這類問題往往是由於數據規模超出了單機系統存儲容量,或者計算量超出了單機系統的計算能力。利用分佈式平台提供的資源共享和協同計算的能力,可以很好地解決大規模數據的處理問題。分佈式平台在物理構成上,各主機之間通過高速的內部網絡進行連接,在此基礎上配置分佈式管理系統,以對外提供硬件共享、軟件共享、數據共享、服務共享等多種資源共享服務。

分佈式平台分佈式文件系統

分佈式文件系統(Distributed File System,DFS)是指文件系統管理的物理存儲資源不都是直接連接在本地節點上,而是分佈在由高速內部網絡連接的一組機器節點上,這些機器節點共同構成了一個集羣。分佈式文件系統在設計上一般都是基於客户機/服務器模型,即傳統的C/S 模型。在分佈式的環境下,服務器不再是單機系統,而是可以供多個用户從網絡上訪問的物理集羣。同分布式平台一樣,分佈式文件系統在設計上充分考慮用户的使用習慣,儘量做到對外表現得就像和本地文件系統一樣。用户訪問分佈式文件系統和訪問本地文件系統的使用方法相同,用户感覺不到物理上分佈式的存在。常見的分佈式文件系統有網絡文件系統(NFS)、Andrew 文件系統(AFS)、Google 的分佈式文件系統(GFS)等。一個典型的分佈式文件系統的架構如圖1所示。
圖1 分佈式文件系統的架構 圖1 分佈式文件系統的架構
分佈式文件系統的集羣中一般有一個或多個控制節點,如圖2-1 中的Tracker Cluster。它主要負責分佈式文件系統的元數據(目錄信息、文件存儲位置、命名空間信息等)的管理,監控存儲集羣的運行狀態和健康狀態。另外還有若干個數據節點,主要用來存放實際的文件數據,如圖1 中的StorageCluster。
當客户端需要讀/寫分佈式文件系統的時候,客户端首先連接到控制節點,以獲取要讀/寫的數據的實際存放位置等信息,然後,客户端根據控制節點返回的信息連接相應的數據節點,進行實際的數據讀/寫操作,讀/寫完成後,存儲節點需要向集羣的控制節點報告此次操作的結果,以便告訴客户端讀/寫是否成功。

分佈式平台分佈式計算

分佈式計算是一門計算機科學,它研究如何把一個需要非常巨大的計算能力才能解決的問題分成許多小的部分,並由許多相互獨立的計算機進行協同處理,以得到最終結果。分佈式計算是讓幾個物理上獨立的組件作為一個單獨的系統協同工作,這些組件可能指多個CPU 或者網絡中的多台計算機。它做了如下假定:如果一台計算機能夠在5s 內完成一項任務,那麼5 台計算機以並行方式協同工作時就能在1s 內完成。實際上,由於協同設計的複雜性,分佈式計算並不都能滿足這一假設。對於分佈式編程而言,其核心的問題是如何把一個大的應用程序分解成若干個可以並行處理的子程序。有兩種可能的處理方法:一種是分割計算,即把應用程序的功能分割成若干個模塊,由網絡上的多台計算機協同完成;另一種是分割數據,即把數據集分割成小塊,由網絡上的多台計算機分別計算。對於海量數據分析等數據密集型問題,通常採取分割數據的分佈式計算方法;對於大規模分佈式系統,則可能同時採取這兩種方法。國際上典型的分佈式計算的項目有以下幾個。
● SETI@home:通過運行屏幕保護程序或後台程序,來分析世界上最大的射電望遠鏡所收到的、可能含有外星智能信號的射電波。
● GIMPS:尋找新的梅森素數。
● United Devices:綜合科學性運算,主攻醫藥領域,以尋找抗癌藥物和天花疫苗為主。