複製鏈接
請複製以下鏈接發送給好友

大數據技術

(2023年上海科學技術出版社出版的圖書)

鎖定
《大數據技術》是2023年上海科學技術出版社出版的圖書。 [1] 
中文名
大數據技術
出版時間
2023年4月1日
出版社
上海科學技術出版社
ISBN
9787547860984

大數據技術內容簡介

本書全面介紹了數據開發利用技術,包括大數據計算、大數據管理、大數據安全、大數據可視化、數據自治、數據爬蟲、知識圖譜、大數據挖掘、深度學習、區塊鏈等技術,還特別介紹了數據產品生產技術。這些技術涵蓋了數據獲取與管理、數據分析與應用、數據安全與流通等數據開發利用的各個環節,形成一個較為完整的大數據技術體系。 [1] 

大數據技術圖書目錄

第1章 緒論 1
1.1 大數據的技術挑戰 1
1.1.1 大數據的"大"1
1.1.2 數據"大"的技術挑戰 3
1.1.3 大數據決策的技術挑戰 5
1.1.4 數據安全的技術問題 7
1.2 大數據計算 8
1.2.1 大數據文件 9
1.2.2 大數據計算框架 10
1.2.3 大數據管理 11
1.3 數據開發 12
1.3.1 數據獲取 12
1.3.2 數據分析 13
1.3.3 數據可視化 14
1.4 數據產業支持 15
1.4.1 數據產業需要的技術支持 15
1.4.2 數據資產化 16
1.4.3 數據產品及其質量 17
1.4.4 數據流通與安全 18
1.5 小結 19
參考文獻 19
第 2章 大數據計算 21
2.1 數據訪問21
2.1.1 安全模型 21
2.1.2 訪問控制策略 23
2.1.3 訪問控制與授權 24
2.1.4 訪問控制與審計 24
2.2 分佈式文件系統 24
2.2.1 GoogleFS 25
2.2.2 HDFS 27
2.2.3 GlusterFS 28
2.2.4 CephFS 29
2.3 大數據計算框架 30
2.3.1 批處理 30
2.3.2 流數據計算 38
2.3.3 增量計算模型 41
2.3.4 新興計算框架 44
2.3.5 大數據計算框架的發展 46
2.4 多地計算異地計算模式 48
2.4.1 概念48
2.4.2 計算模型 49
2.4.3 特點 49 2.5 小結 49
參考文獻 49
第 3章 大數據管理 51
3.1 概述 51
3.2 分佈式文件系統 HDFS 52
3.2.1 前提和設計目標 53
3.2.2 數據塊 53
3.2.3 HDFS架構 54
3.2.4 HDFS容錯機制 54
3.3 列式存儲格式 Parquet 55
3.3.1 行存儲與列存儲文件格式 55
3.3.2 Parquet 概述 56
3.3.3 數據模型 56
3.3.4 Parquet 文件的存儲格式 57
3.4 NOSOL 58
3.4.1 鍵值對數據庫 58
3.4.2 基於列族的數據庫 59
3.4.3 基於文檔的數據庫 59
3.4.4 基於圖的數據庫 60
3.5 鍵值數據庫 Redis 60
3.5.1 Redis簡介 60
3.5.2 Redis數據類型 61 3.5.3 Redis事務 63
3.5.4 Redis 持久化機制 63
3.6 HBase 63
3.6.1 HBase簡介 63
3.6.2 HBase訪問接口 64
3.6.3 HBase數據模型 64
3.6.4 HBase系統架構 65
3.6.5 HBase存儲格式 66
3.7 Dynamo67
3.7.1 Dynamo系統設計假設和前提 67
3.7.2 Dynamo數據分佈策略 68
3.7.3 CAP原理 68
3.7.4 Dynamo 的一致性實現技術 69
3.7.5 Dynamo系統訪問接口 69
3.8 Cassandra 69
3.9 MongoDB 70
3.9.1 MongoDB簡介 70
3.9.2 MongoDB數據模型70
3.9.3 MongoDB基礎操作71
3.9.4 MongoDB聚集操作 73
3.9.5 MongoDB複製機制75
3.9.6 MongoDB分片機制 76
3.10 Neo4j 76
3.10.1 Neo4j簡介 76
3.10.2 Neo4j基礎概念 77
3.10.3 NeO4j的Cypher查詢語言和模式 78
...... [1] 
參考資料