複製鏈接
請複製以下鏈接發送給好友

大數據基礎與應用

(2019年機械工業出版社出版的圖書)

鎖定
《大數據基礎與應用》是2019年機械工業出版社出版的圖書,作者是趙國生、王健,本書共分為12章,通過實例使讀者具備解決實際問題的能力。
中文名
大數據基礎與應用
作    者
趙國生
作    者
王健
出版社
機械工業出版社
ISBN
9787111637974

大數據基礎與應用內容簡介

《大數據基礎與應用》共分為12章,第1章介紹了大數據產生的背景、大數據的結構與特徵、大數據相關概念、大數據可視化、大數據相關工具與發展前景。第2~9章為基礎知識部分,介紹了大數據的生態系統全貌,重點對計算平台Hadoop、分佈式文件系統HDFS、計算框架MapReduce、開源數據庫HBase、典型工具NoSQL、集羣計算Spark、流計算Storm和分佈式協調系統Zookeeper等相關技術進行了詳細介紹,通過實例使讀者具備解決實際問題的能力。第10~12章為典型應用案例部分,介紹了大數據分析應用系統的開發過程,涵蓋了數據採集、數據分析、數據轉換和結果顯示的整個交互式大數據處理和分析流程。
《大數據基礎與應用》內容豐富、條理清晰、示例指導性強,讀者可以通過章後的習題對所學內容作進一步鞏固,熟練掌握大數據基本原理、工程應用場景及實驗分析技巧。
《大數據基礎與應用》適合作為大中專院校數據科學與大數據專業、計算機類專業的教材,也可以作為讀者自學或者科研技術人員的參考書。 [1] 

大數據基礎與應用圖書目錄

前言
第1章初識大數據
1.1大數據產生的背景
1.2大數據的結構與特徵
1.2.1大數據的結構
1.2.2大數據的特徵
1.3大數據相關概念
1.3.1大數據關鍵技術
1.3.2數據類型與數據管理
1.3.3數據倉庫
1.3.4數據挖掘
1.4大數據可視化
1.4.1什麼是數據可視化
1.4.2數據可視化的工具與方法
1.4.3數據可視化的建模
1.4.4數據可視化分類
1.5大數據相關工具
1.5.1Hadoop
1.5.2R語言
1.5.3Python語言
1.5.4RapidMiner
1.5.5Tableau
1.6大數據時代的新機遇
1.6.1數據價值
1.6.2應用價值
1.6.3發展前景
1.7本章小結
1.8習題
第2章大數據處理架構Hadoop
2.1Hadoop簡介
2.2Hadoop發展史及特點
2.3Hadoop體系結構
2.3.1HDFS體系結構
2.3.2MapReduce體系結構
2.4配置Linux環境
2.4.1安裝VMware12虛擬機
2.4.2部署CentOS 64位操作系統
2.4.3配置網絡
2.4.4Linux終端
2.5Hadoop環境搭建
2.5.1JDK安裝和測試
2.5.2Hadoop安裝和配置
2.5.3SSH免密碼配置
2.6Hadoop關鍵組件
2.6.1HDFS
2.6.2HBase
2.6.3MapReduce
2.6.4Hive
2.6.5Pig
2.6.6Mahout
2.6.7ZooKeeper
2.6.8Flume
2.6.9Sqoop
2.6.10Ambari
2.7本章小結
2.8習題
第3章分佈式文件系統HDFS
3.1HDFS概念
3.1.1HDFS簡介
3.1.2HDFS相關概念
3.2HDFS體系結構
3.3HDFS文件存儲機制
3.4HDFS的數據讀寫過程
3.4.1讀數據的過程
3.4.2寫數據的過程
3.5HDFS應用實踐
3.5.1HDFS常用命令
3.5.2HDFS的Web界面
3.5.3HDFS常用Java API及應用實例
3.6本章小結
3.7習題
第4章計算系統MapReduce
4.1MapReduce概述
4.1.1MapReduce簡介
4.1.2MapReduce 數據類型與格式
4.1.3數據類型Writable接口
4.1.4Hadoop序列化與反序列化機制
4.2MapReduce架構
4.2.1數據分片
4.2.2MapReduce的集羣行為
4.2.3MapReduce作業執行過程
4.3MapReduce接口類
4.3.1MapReduce輸入的處理類
4.3.2MapReduce輸出的處理類
4.4MapReduce應用案例——單詞計數
程序
4.4.1WordCount代碼分析
4.4.2WordCount處理過程
4.5本章小結
4.6習題
第5章分佈式數據庫HBase
5.1初識HBase
5.1.1HBase的來源
5.1.2HBase的特點
5.1.3HBase的系統架構
5.2HBase安裝與配置
5.2.1HBase運行模式分類
5.2.2Hbase的安裝
5.2.3HBase基本API實例
5.2.4HBase Shell工具使用
5.3Hbase的存儲結構
5.3.1存儲結構中重要模塊
5.3.2HBase物理存儲和邏輯視圖
5.3.3數據座標
5.4HBase的實現原理
5.4.1Hbase的讀寫流程
5.4.2表和Region
5.4.3Region的定位
5.5HBase表結構設計
5.5.1列族定義
5.5.2表設計原則
5.5.3Rowkey設計
5.6本章小結
5.7習題
第6章NoSQL數據庫
6.1NoSQL簡介
6.1.1NoSQL的含義
6.1.2NoSQL的產生
6.1.3NoSQL的特點
6.2NoSQL技術基礎
6.2.1一致性策略
6.2.2數據分區與放置策略
6.2.3數據複製與容錯技術
6.2.4數據的緩存技術
6.3NoSQL的類型
6.3.1鍵值存儲
6.3.2列存儲
6.3.3面向文檔存儲
6.3.4圖形存儲
6.4NoSQL典型工具
6.4.1Redis
6.4.2CouchDB
6.5本章小結
6.6習題
第7章集羣計算Spark
7.1深入理解Spark
7.1.1Spark簡介
7.1.2Spark與Hadoop差異
7.1.3Spark的適用場景
7.1.4Spark成功案例
7.2Spark的安裝與配置
7.2.1安裝模式
7.2.2Spark的安裝
7.2.3啓動並驗證Spark
7.3Spark程序的運行模式
7.3.1Spark on Yarn-cluster
7.3.2Spark on Yarn-client
7.4Spark編程實踐
7.4.1啓動Spark Shell
7.4.2Spark RDD基本操作
7.4.3Spark應用程序
7.5Spark的三個典型應用案例
7.5.1詞頻數統計
7.5.2人口的平均年齡
7.5.3搜索頻率的K個關鍵詞
7.6本章小結
7.7習題
第8章流計算Storm
8.1流計算概述
8.1.1流計算的概念
8.1.2流計算與Hadoop
8.1.3流計算框架
8.2開源流計算框架Storm
8.2.1Storm簡介
8.2.2Storm的特點
8.2.3Storm的設計思想
8.2.4Storm的框架設計
8.3實時計算處理流程
8.3.1數據實時採集和計算
8.3.2數據查詢服務
8.4典型的流引擎Spark Streaming
8.4.1Spark Streaming
8.4.2Storm和Spark Streaming框架
對比
8.5流計算的應用案例——電商
實時銷售額的監控
8.5.1技術架構
8.5.2技術實現
8.5.3項目預案
8.6本章小結
8.7習題
第9章分佈式協調系統ZooKeeper
9.1ZooKeeper概述
9.1.1ZooKeeper簡介
9.1.2ZooKeeper數據模型
9.1.3ZooKeeper特徵
9.1.4ZooKeeper工作原理
9.2ZooKeeper的安裝和配置
9.2.1安裝ZooKeeper
9.2.2配置ZooKeeper
9.2.3運行ZooKeeper
9.3ZooKeeper的簡單操作及步驟
9.4ZooKeeper Shell操作
9.4.1ZooKeeper服務命令
9.4.2ZooKeeper客户端命令
9.5ZooKeeper API操作
9.6ZooKeeper應用案例——Master
選舉
9.6.1使用場景及結構
9.6.2編碼實現
9.7本章小結
9.8習題
第10章銷售數據分析系統
10.1數據採集
10.1.1在Windows下安裝JDK
10.1.2在Windows下安裝Eclipse
10.1.3將WebCollector項目導入
Eclipse
10.1.4在Windows下安裝MySQL
10.1.5連接JDBC
10.1.6運行爬蟲程序
10.2在HBase集羣上準備數據
10.2.1將數據導入到MySQL
10.2.2將MySQL表中的數據導入到HBase
表中
10.3安裝Phoenix中間件
10.3.1Phoenix架構
10.3.2解壓安裝Phoenix
10.3.3Phoenix環境配置
10.3.4使用Phoenix
10.4基於Web的前端開發
10.4.1將Web前端項目導入Eclipse
10.4.2安裝Tomcat
10.4.3在Eclipse中配置Tomcat
10.4.4在Web瀏覽器中查看執行
結果
10.5本章小結
10.6習題
第11章交互式數據處理
11.1數據預處理
11.1.1查看數據
11.1.2數據擴展
11.1.3數據過濾
11.1.4數據上傳
11.2創建數據倉庫
11.2.1創建數據倉庫的基本命令
11.2.2創建Hive區分表
11.3數據分析
11.3.1基本統計
11.3.2用户行為分析
11.3.3實時數據
11.4本章小結
11.5習題
第12章協同過濾推薦系統
12.1推薦算法概述
12.1.1基於人口統計學的推薦
12.1.2基於內容的推薦
12.1.3基於協同過濾的推薦
12.2協同過濾推薦算法分析
12.2.1基於用户的協同過濾推薦
12.2.2基於物品的協同過濾推薦
12.3Spark MLlib推薦算法應用
12.3.1ALS算法原理
12.3.2ALS的應用設計
12.4本章小結
12.5習題
附錄課後習題答案
參考文獻
參考資料