複製鏈接
請複製以下鏈接發送給好友

Cascading

鎖定
Cascading,是一個架構在Hadoop上的API,用來創建複雜和容錯數據處理工作流。它抽象了集羣拓撲結構和配置來快速開發複雜分佈式的應用,而不用考慮背後的MapReduce。
中文名
Cascading
外文名
Cascading
性    質
名詞
延    伸
重要技術

目錄

  1. 1 簡介
  2. 架構
  3. 發展
  4. 2 延伸

Cascading簡介

Cascading架構

Cascading目前依賴於Hadoop提供存儲和執行架構,但是Cascading API為開發者隔離了Hadoop的技術細節,提供了不需要改變初始流程工作流定義就可以在不同的計算框架內運行的能力。

Cascading發展

Hadoop是Apache開源組織的一個分佈式計算開源框架,在很多大型網站上都已經得到了應用,如亞馬遜、Facebook和Yahoo等等。它主要由MapReduce的算法執行和一個分佈式的文件系統HDFS等兩部分組成。
HDFS:即Hadoop Distributed File System (Hadoop分佈式文件系統)
HDFS具有高容錯性,並且可以被部署在低價的硬件設備之上。HDFS很適合那些有大數據集的應用,並且提供了對數據讀寫的高吞吐率。

Cascading延伸

MapReduce:MapReduce是Google 的一項重要技術,它是一個編程模型,用以進行大數據量的計算。對於大數據量的計算,通常採用的處理手法就是並行計算。至少現階段而言,對許多開發人員來説,並行計算還是一個比較遙遠的東西。MapReduce就是一種簡化並行計算的編程模型,它讓那些沒有多少並行計算經驗的開發人員也可以開發並行應用。