複製鏈接
請複製以下鏈接發送給好友

Spark

(2016年機械工業出版社出版的圖書)

鎖定
《Spark》是2016年機械工業出版社出版的圖書,作者是劉馳。本書詳細介紹了Spark技術的概況、內部機制和企業界的應用情況。
中文名
Spark
作    者
劉馳
出版社
機械工業出版社
ISBN
9787111529286

Spark內容簡介

本書是一本以Spark1.4為基礎,詳細介紹了Spark技術的概況、內部機制和企業界的應用情況。作者結合國內外眾多資料和項目經驗,力求深入淺出地講解Spark技術的生態應用和發展狀況,此外還選取了SparkSummit中的典型案例進行解析,為讀者全面展現Spark技術在企業界的應用情況。本書適合Spark技術初學者、Spark技術愛好者、Spark運維工程師和開源軟件愛好者,也可以作為相關培訓學校和大專院校相關專業的教學用書。 [1] 

Spark圖書目錄

目 錄
前言
第一篇 概 念 篇
第1章 Spark概述2
1.1 Spark初見2
1.1.1 Spark的發展史及近況2
1.1.2 Spark的特點5
1.1.3 Spark的作用6
1.1.4 Spark的體系結構6
1.1.5 Spark的發展趨勢6
1.2 Spark框架7
1.2.1 批處理框架7
1.2.2 流處理框架8
1.3 Spark的生態系統8
1.4 Spark的數據存儲11
1.5 本章小結11
第2章 Spark環境配置12
2.1 Spark運行環境配置12
2.1.1 先決條件12
2.1.2 下載與運行 Spark13
2.1.3 使用交互式 Shell14
2.1.4 搭建SparkStandalone集羣16
2.2 Spark開發環境配置18
2.2.1 Spark獨立應用程序18
2.2.2 構建IDE開發環境24
2.3 Spark編譯環境配置29
2.3.1 使用Maven編譯項目源碼30
2.3.2 使用IDEA搭建源碼編譯與
閲讀環境31
2.4 本章小結35
第二篇 開 發 篇
第3章 Spark核心開發37
3.1 Spark編程模型概述37
3.2 SparkContext38
3.2.1 SparkContext的作用38
3.2.2 SparkContext的創建38
3.2.3 使用Shell41
3.2.4 應用實踐41
3.3 RDD簡介42
3.3.1 RDD創建42
3.3.2 RDD轉換操作43
3.3.3 RDD動作操作44
3.3.4 RDD惰性計算44
3.3.5 RDD持久化44
3.3.6 RDD檢查點45
3.4 共享變量45
3.4.1 廣播變量45
3.4.2 累加器46
3.5 Spark核心開發實踐46
3.5.1 單值型Trasnformation算子46
3.5.2 鍵值對型Transformation算子58
3.5.3 Action算子64
3.6 本章小結72
第4章 Spark四大應用技術框架73
4.1 Spark SQL73
4.1.1 Spark SQL入門73
4.1.2 數據源75
4.1.3 性能調優81
4.1.4 分佈式SQL引擎82
4.1.5 Shark遷移至SparkSQL指南82
4.1.6 Hive的兼容性83
4.1.7 Spark SQL數據類型85
4.2 Spark Streaming86
4.2.1 Spark Streaming簡介87
4.2.2 入門實例87
4.2.3 基本概念89
4.3 Spark GraphX97
4.3.1 Spark GraphX簡介97
4.3.2 屬性圖98
4.3.3 圖操作100
4.3.4 Pregel API108
4.3.5 圖構造器110
4.3.6 頂點與邊相關RDD111
4.3.7 化表示113
4.3.8 圖算法114
4.3.9 Example116
4.4 Spark MLlib116
4.4.1 Spark MLlib簡介116
4.4.2 數據類型117
4.4.3 基本統計分析121
4.4.4 分類與迴歸123
4.4.5 協同過濾136
4.4.6 聚類138
4.4.7 降維139
4.4.8 特徵提取與轉換141
4.4.9 頻繁模式挖掘146
4.4.10 化算法147
4.4.11 導出PMML模式149
4.5 SparkR150
4.5.1 SparkR DataFrame150
4.5.2 DataFrame的相關操作152
4.5.3 從SparkR運行SQL查詢153
第5章 Spark系統配置與調優154
5.1 Spark運行監控154
5.2 Spark配置參數158
5.2.1 應用屬性159
5.2.2 運行環境屬性159
5.2.3 Shuffle操作

Spark作者簡介

劉馳,博士,現任北京理工大學軟件學院教授,軟件服務工程系系主任。入選“北京理工大學傑出中青年支持與發展計劃”。主持了國家自然科學基金、工信部電子商務集成試點工程等多項國家省部級重點項目。分別於清華大學和英國帝國理工學院獲得學士和博士學位,後歷任德國電信研究院(柏林)博士後研究員、美國IBM TJ Watson研究中心研究員和IBM中國研究院研究主管。研究方向為:物聯網、雲計算和大數據技術。
參考資料