反饋

大數據技術

（2021年人民郵電出版社出版的圖書）

《大數據技術》是2021年人民郵電出版社出版的圖書。^[1]

書名: 大數據技術
作者: 薛志東,張雙雙,盧璟祥
出版社: 人民郵電出版社

出版時間: 2021年
開本: 128 開
裝幀: 平裝
ISBN: 9787115567192

大數據技術內容簡介

本書從技術實戰的角度，帶領讀者一步一步掌握大數據的相關技能。本書不僅提供相應命令、配置文件，還提供模擬環境演示等，並儘可能通過案例和實操降低大數據學習的門檻，力求讓讀者學以致用。

本書主要內容包括大數據技術概述、Linux基礎與集羣搭建、Hadoop集羣配置、HDFS、MapReduce分佈式編程、Hive大數據倉庫、HBase數據庫部署與操作、數據獲取與Flume應用、基於Spark的內存計算，以及利用大數據平台處理圖像及視頻。

大數據技術圖書目錄

第1章大數據技術概述 1

1.1　大數據的概念與基本特性　1

1.2　大數據處理流程　2

1.3　Hadoop大數據技術　3

1.3.1　Hadoop簡介　3

1.3.2　Hadoop的發行版本　5

1.4　實踐環境準備　7

習題　15

第2章　Linux基礎與集羣搭建　16

2.1　Linux常用命令　16

2.1.1　用户和用户組　16

2.1.2　文件與目錄　18

2.1.3　主機名　24

2.1.4　分區管理　25

2.2　網絡配置　27

2.2.1　基本網絡配置　27

2.2.2　集羣網絡配置　28

2.3　Linux集羣配置　31

2.3.1　SSH免密碼登錄　31

2.3.2　Java環境安裝　33

2.3.3　MySQL服務　34

2.3.4　配置時鐘同步　35

2.4　快速配置Linux集羣　37

2.4.1　導入虛擬機　37

2.4.2　快速配置　39

習題　42

第3章　Hadoop集羣配置　43

3.1　Hadoop集羣安裝　43

3.1.1　基礎環境準備　43

3.1.2　配置Java環境　49

3.1.3　安裝Hadoop　51

3.1.4　啓動Hadoop　58

3.2　Hadoop集羣初始化和日誌查看　62

3.2.1　初始化文件系統　62

3.2.2　集羣的啓動與停止　62

3.2.3　查看日誌　63

習題　64

第4章　HDFS　65

4.1　HDFS簡介　65

4.1.1　HDFS的基本概念　65

4.1.2　HDFS文件的讀取　66

4.1.3　HDFS文件的寫入　67

4.1.4　HDFS 數據備份　68

4.2　HDFS基本命令　69

4.3　HDFS數據平衡優化　72

4.3.1　編程原則　73

4.3.2　平衡邏輯　73

4.3.3　數據平衡案例　74

4.4　HDFS API的使用方法　75

習題　81

第5章　MapReduce分佈式編程

5.1　MapReduce簡介　82

5.2　詞頻統計編程實例　83

5.3　MapReduce Shuffle過程開發　89

5.3.1　MapReduce數據類型　90

5.3.2　Partitioner負載平衡編程　90

5.3.3　Sort排序編程　92

5.3.4　Combiner減少中間數據編程　93

5.4　MapReduce的性能優化　94

5.4.1　Hadoop配置參數調優　94

5.4.2　使用合適的數據類型　95

5.4.3　基準性能測試工具　96

5.5　YARN數據處理框架　99

5.5.1　YARN常用命令　100

5.5.2　使用Web GUI監控實例　102

5.6　MapReduce實戰：繪製頻度分佈　104

5.6.1　實戰概述　104

5.6.2　實戰步驟　104

5.6.3　源碼分析　109

習題　114

第6章　Hive大數據倉庫　115

6.1　Hive簡介　115

6.2　Hive安裝及配置　116

6.3　從創建數據庫到創建表　118

6.3.1　數據類型　118

6.3.2　創建數據庫　119

6.3.3　創建表　119

6.3.4　刪除表　121

6.3.5　修改表　121

6.4　數據查詢及自定義函數運算　123

6.4.1　HiveQL操作　123

6.4.2　JOIN語句　124

6.4.3　內置操作符和函數　125

6.5　Hive自定義函數編程　128

6.5.1　數據準備　128

6.5.2　編程實現　129

6.5.3　使用自定義函數　130

6.6　Hive實戰　132

6.6.1　數據準備　133

6.6.2　實戰步驟　133

習題　136

第7章　HBase數據庫部署與操作

138

7.1　HBase簡介　138

7.1.1　HBase表　138

7.1.2　HBase基本知識　138

7.2　HBase的安裝　139

7.2.1　必要條件　139

7.2.2　安裝配置HBase　140

7.2.3　啓動HBase　142

7.3　HBase Shell操作　143

7.3.1　普通命令　145

7.3.2　DDL操作　146

7.3.3　DML操作　148

7.3.4　工具命令　150

7.3.5　複製命令　151

7.4　HBase客户端API　151

7.4.1　CRUD操作　151

7.4.2　批量處理　155

7.4.3　行鎖　156

7.4.4　掃描　157

7.4.5　數據過濾　158

7.5　HBase客户端選擇及配置優化　159

7.6　HBase與MapReduce集成　159

7.7　HBase集羣監控　160

7.8　HBase實戰：公有云網盤系統管理　164

7.8.1　部署公有云網盤　165

7.8.2　網盤核心代碼分析　168

習題　171

第8章　數據獲取與Flume應用　172

8.1　公開數據資源獲取　172

8.2　使用網絡爬蟲獲取數據　173

8.2.1　爬蟲的工作原理　173

8.2.2　爬蟲的搜索策略　174

8.2.3　爬蟲的簡單應用　175

8.3　使用Flume獲取數據　177

8.3.1　Flume簡介　177

8.3.2　Flume運行機制　177

8.3.3　Flume安裝部署　179

8.3.4　Flume簡單應用　180

8.4　綜合案例　182

習題　186

第9章　基於Spark的內存計算　187

9.1　Spark簡介　187

9.2　Spark快速部署　188

9.2.1　Spark單機模式部署　188

9.2.2　Spark分佈式集羣部署　189

9.3　Spark程序　192

9.3.1　Spark Shell　192

9.3.2　在IDEA中編寫詞頻統計　193

9.4　Spark RDD編程　197

9.4.1　RDD簡介　197

9.4.2　RDD的操作算子　198

9.4.3　RDD的持久化　204

9.5　Spark生態系統　205

9.5.1　Spark Core　206

9.5.2　Spark SQL　206

9.5.3　Spark Streaming　206

9.5.4　MLlib　206

9.5.5　GraphX　207

9.6　Spark應用案例　207

9.6.1　案例概述　207

9.6.2　代碼實現　208

9.6.3　運行結果　208

習題　209

第10章　利用大數據平台處理圖像

210

10.1　圖像的基本概念　210

10.2　Hadoop處理圖像的問題與對策　211

10.2.1　Hadoop直接處理圖像存在

的問題　211

10.2.2　解決途徑　212

10.3　HIPI安裝與部署　212

10.4　使用HIPI進行圖像處理　214

10.5　HIPI工具hibDownload　222

10.5.1　編譯hibDownload　222

10.5.2　hibDownload的使用方法　222

10.5.3　hibDownload的工作原理　222

10.5.4　hibDownload的使用示例　230

習題　235

參考文獻　236

大數據技術作者簡介

薛志東，博士，研究員，現在華中科技大學軟件學院工作，長期從事大數據相關教學與科研工作。先後講授多門本科生、研究生課程，承擔多項國家自然科學基金、湖北省自然科學基金、華為技術公司委託等重要項目。目前的研究主要涉及大數據處理相關領域等，如基於雲計算的圖像與視頻等信息處理技術、醫學與生物信息處理與分析、文本挖掘、深度學習、GPU開發等；同時對移動應用、康復遊戲、無人機、機器人應用軟件開發等有濃厚的興趣。

參考資料

1. 大數據技術基礎與實戰．噹噹[引用日期2022-04-19]

大數據技術的概述圖（1張）

詞條統計

瀏覽次數：次
編輯次數：1次歷史版本
最近更新： tluhcc （2022-04-26）

1 內容簡介
2 圖書目錄
3 作者簡介