複製鏈接
請複製以下鏈接發送給好友

大數據技術

(2021年人民郵電出版社出版的圖書)

鎖定
《大數據技術》是2021年人民郵電出版社出版的圖書。 [1] 
書    名
大數據技術
作    者
薛志東,張雙雙,盧璟祥
出版社
人民郵電出版社
出版時間
2021年
開    本
128 開
裝    幀
平裝
ISBN
9787115567192

大數據技術內容簡介

本書從技術實戰的角度,帶領讀者一步一步掌握大數據的相關技能。本書不僅提供相應命令、配置文件,還提供模擬環境演示等,並儘可能通過案例和實操降低大數據學習的門檻,力求讓讀者學以致用。
本書主要內容包括大數據技術概述、Linux基礎與集羣搭建、Hadoop集羣配置、HDFS、MapReduce分佈式編程、Hive大數據倉庫、HBase數據庫部署與操作、數據獲取與Flume應用、基於Spark的內存計算,以及利用大數據平台處理圖像及視頻。

大數據技術圖書目錄

第1章 大數據技術概述 1
1.1 大數據的概念與基本特性 1
1.2 大數據處理流程 2
1.3 Hadoop大數據技術 3
1.3.1 Hadoop簡介 3
1.3.2 Hadoop的發行版本 5
1.4 實踐環境準備 7
習題 15
第2章 Linux基礎與集羣搭建 16
2.1 Linux常用命令 16
2.1.1 用户和用户組 16
2.1.2 文件與目錄 18
2.1.3 主機名 24
2.1.4 分區管理 25
2.2 網絡配置 27
2.2.1 基本網絡配置 27
2.2.2 集羣網絡配置 28
2.3 Linux集羣配置 31
2.3.1 SSH免密碼登錄 31
2.3.2 Java環境安裝 33
2.3.3 MySQL服務 34
2.3.4 配置時鐘同步 35
2.4 快速配置Linux集羣 37
2.4.1 導入虛擬機 37
2.4.2 快速配置 39
習題 42
第3章 Hadoop集羣配置 43
3.1 Hadoop集羣安裝 43
3.1.1 基礎環境準備 43
3.1.2 配置Java環境 49
3.1.3 安裝Hadoop 51
3.1.4 啓動Hadoop 58
3.2 Hadoop集羣初始化和日誌查看 62
3.2.1 初始化文件系統 62
3.2.2 集羣的啓動與停止 62
3.2.3 查看日誌 63
習題 64
第4章 HDFS 65
4.1 HDFS簡介 65
4.1.1 HDFS的基本概念 65
4.1.2 HDFS文件的讀取 66
4.1.3 HDFS文件的寫入 67
4.1.4 HDFS 數據備份 68
4.2 HDFS基本命令 69
4.3 HDFS數據平衡優化 72
4.3.1 編程原則 73
4.3.2 平衡邏輯 73
4.3.3 數據平衡案例 74
4.4 HDFS API的使用方法 75
習題 81
第5章 MapReduce分佈式編程
82
5.1 MapReduce簡介 82
5.2 詞頻統計編程實例 83
5.3 MapReduce Shuffle過程開發 89
5.3.1 MapReduce數據類型 90
5.3.2 Partitioner負載平衡編程 90
5.3.3 Sort排序編程 92
5.3.4 Combiner減少中間數據編程 93
5.4 MapReduce的性能優化 94
5.4.1 Hadoop配置參數調優 94
5.4.2 使用合適的數據類型 95
5.4.3 基準性能測試工具 96
5.5 YARN數據處理框架 99
5.5.1 YARN常用命令 100
5.5.2 使用Web GUI監控實例 102
5.6 MapReduce實戰:繪製頻度分佈 104
5.6.1 實戰概述 104
5.6.2 實戰步驟 104
5.6.3 源碼分析 109
習題 114
第6章 Hive大數據倉庫 115
6.1 Hive簡介 115
6.2 Hive安裝及配置 116
6.3 從創建數據庫到創建表 118
6.3.1 數據類型 118
6.3.2 創建數據庫 119
6.3.3 創建表 119
6.3.4 刪除表 121
6.3.5 修改表 121
6.4 數據查詢及自定義函數運算 123
6.4.1 HiveQL操作 123
6.4.2 JOIN語句 124
6.4.3 內置操作符和函數 125
6.5 Hive自定義函數編程 128
6.5.1 數據準備 128
6.5.2 編程實現 129
6.5.3 使用自定義函數 130
6.6 Hive實戰 132
6.6.1 數據準備 133
6.6.2 實戰步驟 133
習題 136
第7章 HBase數據庫部署與操作
138
7.1 HBase簡介 138
7.1.1 HBase表 138
7.1.2 HBase基本知識 138
7.2 HBase的安裝 139
7.2.1 必要條件 139
7.2.2 安裝配置HBase 140
7.2.3 啓動HBase 142
7.3 HBase Shell操作 143
7.3.1 普通命令 145
7.3.2 DDL操作 146
7.3.3 DML操作 148
7.3.4 工具命令 150
7.3.5 複製命令 151
7.4 HBase客户端API 151
7.4.1 CRUD操作 151
7.4.2 批量處理 155
7.4.3 行鎖 156
7.4.4 掃描 157
7.4.5 數據過濾 158
7.5 HBase客户端選擇及配置優化 159
7.6 HBase與MapReduce集成 159
7.7 HBase集羣監控 160
7.8 HBase實戰:公有云網盤系統管理 164
7.8.1 部署公有云網盤 165
7.8.2 網盤核心代碼分析 168
習題 171
第8章 數據獲取與Flume應用 172
8.1 公開數據資源獲取 172
8.2 使用網絡爬蟲獲取數據 173
8.2.1 爬蟲的工作原理 173
8.2.2 爬蟲的搜索策略 174
8.2.3 爬蟲的簡單應用 175
8.3 使用Flume獲取數據 177
8.3.1 Flume簡介 177
8.3.2 Flume運行機制 177
8.3.3 Flume安裝部署 179
8.3.4 Flume簡單應用 180
8.4 綜合案例 182
習題 186
第9章 基於Spark的內存計算 187
9.1 Spark簡介 187
9.2 Spark快速部署 188
9.2.1 Spark單機模式部署 188
9.2.2 Spark分佈式集羣部署 189
9.3 Spark程序 192
9.3.1 Spark Shell 192
9.3.2 在IDEA中編寫詞頻統計 193
9.4 Spark RDD編程 197
9.4.1 RDD簡介 197
9.4.2 RDD的操作算子 198
9.4.3 RDD的持久化 204
9.5 Spark生態系統 205
9.5.1 Spark Core 206
9.5.2 Spark SQL 206
9.5.3 Spark Streaming 206
9.5.4 MLlib 206
9.5.5 GraphX 207
9.6 Spark應用案例 207
9.6.1 案例概述 207
9.6.2 代碼實現 208
9.6.3 運行結果 208
習題 209
第10章 利用大數據平台處理圖像
210
10.1 圖像的基本概念 210
10.2 Hadoop處理圖像的問題與對策 211
10.2.1 Hadoop直接處理圖像存在
的問題 211
10.2.2 解決途徑 212
10.3 HIPI安裝與部署 212
10.4 使用HIPI進行圖像處理 214
10.5 HIPI工具hibDownload 222
10.5.1 編譯hibDownload 222
10.5.2 hibDownload的使用方法 222
10.5.3 hibDownload的工作原理 222
10.5.4 hibDownload的使用示例 230
習題 235
參考文獻 236

大數據技術作者簡介

薛志東,博士,研究員,現在華中科技大學軟件學院工作,長期從事大數據相關教學與科研工作。先後講授多門本科生、研究生課程,承擔多項國家自然科學基金、湖北省自然科學基金、華為技術公司委託等重要項目。目前的研究主要涉及大數據處理相關領域等,如基於雲計算的圖像與視頻等信息處理技術、醫學與生物信息處理與分析、文本挖掘、深度學習、GPU開發等;同時對移動應用、康復遊戲、無人機、機器人應用軟件開發等有濃厚的興趣。
參考資料