複製鏈接
請複製以下鏈接發送給好友

數據科學導引

鎖定
《數據科學導引》是由歐高炎、朱占星、董彬、鄂維南編著,2017年高等教育出版社出版的教材,該教材是博雅大數據學院針對開設的“數據科學與大數據技術”專業編寫的數據科學導論課程教材,可作為全國高等學校數據科學相關專業的本科生和研究生教材,也可供從事相關工作的技術人員參考使用 [1] 
全書內容共分十五章,包括緒論、數據預處理、迴歸模型等內容 [1] 
中文名
數據科學導引
作    者
歐高炎
朱占星
董彬
鄂維南
出版社
高等教育出版社
出版時間
2017年12月20日
頁    數
400 頁
開    本
16 開
裝    幀
平裝
ISBN
978-7-04-048911-8
版面字數
340千字

數據科學導引成書過程

《數據科學導引》是博雅大數據學院系列教材的第一本。其目的是從技術的角度對數據科學涉及的模型和算法進行全面介紹。
該教材是集體創作的成果。歐高炎負責數據預處理、分類模型、集成模型、關聯規則挖掘、降維、文本分析、分佈式計算等章節和附錄。朱占星負責迴歸模型、聚類模型、特徵選擇、EM算法、概率圖模型和深度學習等章節。董彬對教材進行審閲並提出了很多寶貴意見。鄂維南負責全書的統籌和組織以及所有章節的修改,同時負責緒論章節。北京大學計算機科學技術研究所鄒磊和湖南大學信息科學與工程學院彭鵬撰寫了圖與網絡分析章節的初稿。北京大學數據科學專業姚嘉豪、餘欣航、陳嘉和王文佳等同學對該教材初稿進行了校核。博雅大數據學院的數據分析師晏曉東和高揚參與了該教材案例與實戰部分的撰寫和“數據嗨客”在線案例和練習的整理。博雅大數據學院的UI設計師戴曉彤製作了該教材大部分插圖 [2] 
2017年12月20日,《數據科學導引》由高等教育出版社出版 [1] 

數據科學導引內容簡介

《數據科學導引》內容共分十五章,包括緒論、數據預處理、迴歸模型、分類模型、集成模型、聚類模型、關聯規則挖掘、降維、特徵選擇、EM 算法、概率圖模型、文本分析、圖與網絡分析、深度學習、分佈式計算。附錄部分對相關的基礎知識做了簡要介紹 [1] 

數據科學導引教材目錄

前輔文
第一章 緒論
1.1 數據科學的基本內容
1.2 對學科發展的影響
1.3 對科學研究的影響
1.4 數據科學的課程體系
1.5 本書內容介紹
第二章 數據預處理
2.1 特徵編碼
2.2 缺失值處理
2.3 數據標準化
2.4 特徵離散化
2.5 離羣值檢測
2.6 其他預處理方法
案例與實戰
第三章 迴歸模型
3.1 線性迴歸
3.2 線性迴歸正則化
3.3 非線性迴歸
案例與實戰
第四章 分類模型
4.1 邏輯迴歸
4.2 K 近鄰
4.3 決策樹
4.4 樸素貝葉斯
4.5 支持向量機
案例與實戰
第五章 集成模型
5.1 集成方法綜述
5.2 隨機森林
5.3 AdaBoost
5.4 應用實例: 個人信用風險評估
案例與實戰
第六章 聚類模型
6.1 K-means 聚類
6.2 層次聚類
6.3 譜聚類
6.4 基於密度的聚類
6.5 小結
案例與實戰
第七章 關聯規則挖掘
7.1 關聯規則概述
7.2 Apriori 算法
7.3 FP-Growth 算法
案例與實戰
第八章 降維
8.1 主成分分析
8.2 線性判別分析
8.3 多維尺度變換
8.4 局部線性嵌入
8.5 其他降維方法
案例與實戰
第九章 特徵選擇
9.1 特徵選擇的一般過程
9.2 特徵選擇常用的方法
9.3 無監督特徵選擇
9.4 小結
案例與實戰
第十章 EM 算法
10.1 EM 算法
10.2 EM 的應用: 高斯混合模型
10.3 小結
案例與實戰
第十一章 概率圖模型
11.1 概率圖模型概述
11.2 隱馬爾可夫模型
11.3 條件隨機場
11.4 小結
案例與實戰
第十二章 文本分析
12.1 文本表示模型
12.2 主題模型
12.3 情感分析
案例與實戰
第十三章 圖與網絡分析
13.1 基本概念
13.2 幾何特徵
13.3 鏈接分析
13.4 社區發現
13.5 知識圖譜
案例與實戰
第十四章 深度學習
14.1 多層感知機
14.2 深度學習模型的優化
14.3 卷積神經網絡
14.4 循環神經網絡
14.5 小結
案例與實戰
第十五章 分佈式計算
15.1 Hadoop: 分佈式存儲與處理
15.2 常見模型的\ MapReduce 實現
15.3 Spark: 分佈式數據分析
15.4 其他分佈式系統
附錄
A. 矩陣運算
B. 概率論基礎
C. 優化算法
D. 距離
E. 模型評估
參考文獻 [1] 

數據科學導引教學資源

  • 課程資源
《數據科學導引》配套建設有數據科學導引數字課程。該數字課程包括實踐案例、配套數據集、拓展閲讀等內容 [3] 
數字課程名稱
出版社
出版時間
內容提供者
數據科學導引數字課程
高等教育出版社、高等教育電子音像出版社
2017年12月
歐高炎、朱占星、董彬、鄂維南

數據科學導引教材特色

《數據科學導引》系統地介紹數據科學的基本內容,包括數據預處理,數據分析的基本方法,特殊問題的處理(比方説文本分析)深度學習,以及分佈式系統。除了從理論角度系統地介紹數據科學的基本內容,該教材還提供了數據分析實踐案例。學生可以藉助“數據嗨客”這一平台進行實際的操作,和數據進行互動,在提高動手能力的同時加深對理論的理解和認識。教師可以將數據嗨客提供的在線實踐練習作為實踐作業,學生在線完成後教師可以直接得到反饋報表,從而減輕教師的工作量 [2] 

數據科學導引作者簡介

歐高炎,博雅大數據學院院長 [4] 
朱占星,北京大學大數據科學研究中心研究員 [5] 
董彬,北京大學數學學院教師,數學學科學位分委員會委員 [6] 
鄂維南,男,1963年9月生於江蘇省靖江市,博士,2011年當選為中國科學院數學物理學部院士。現任北京大學、普林斯頓大學教授 [7] 
參考資料