反饋

深入淺出

（2020年機械工業出版社出版的圖書）

《深入淺出》是2020年機械工業出版社出版的圖書，作者是張朝陽。

中文名: 深入淺出
作者: 張朝陽

出版時間: 2020年
出版社: 機械工業出版社^[1]
ISBN: 9787111640561

深入淺出內容簡介

實用性是本書的基本出發點，書中介紹了近年來在工業界被廣泛應用的機器學習算法，這些算法經受了時間的考驗，不但效果好而且使用方便。此外，本書也十分注重理論的深度和完整性，內容編排力求由淺入深、推理完整、前後連貫、自成體系，先講統計學、矩陣、優化方法這些基礎知識，再介紹線性模型、概率圖模型、文本向量化算法、樹模型和深度學習。與大多數機器學習圖書不同，本書還介紹了算法周邊的一些工程架構及實現原理，比如如何實時地收集訓練樣本和監控算法指標、參數服務器的架構設計、做A/B 測試的注意事項等。

本書理論體系完整，公式推導清晰，可作為機器學習初學者的自學用書。讀者無需深厚的專業知識, 本科畢業的理工科學生都能看懂。另外由於本書與工業實踐結合得很緊密，所以也非常適合於從事算法相關工作的工程技術人員閲讀。^[2]

深入淺出圖書目錄

前言

第 1 章概述

1.1 機器學習基本流程 /1

1.2 業界常用算法 /2

1.3 構建機器學習系統 /3

第 2 章統計學

2.1 概率分佈 /5

2.1.1 期望與方差 /5

2.1.2 概率密度函數 /7

2.1.3 累積分佈函數 /10

2.2 極大似然估計與貝葉斯估計 /11

2.2.1 極大似然估計 /11

2.2.2 貝葉斯估計 /13

2.2.3 共軛先驗與平滑的關係 /15

2.3 置信區間 /15

2.3.1 t 分佈 /16

2.3.2 區間估計 /17

2.3.3 Wilson 置信區間 /19

2.4 相關性 /20

2.4.1 數值變量的相關性 /20

2.4.2 分類變量的相關性 /22

2.4.3 順序變量的相關性 /27

2.4.4 分佈之間的距離 /28

第 3 章矩陣

3.1 矩陣的物理意義 /30

3.1.1 矩陣是什麼 /30

3.1.2 矩陣的行列式 /31

3.1.3 矩陣的逆 /32

3.1.4 特徵值和特徵向量 /32

3.2 矩陣的數值穩定性 /33

3.2.1 矩陣數值穩定性的度量 /33

3.2.2 基於列主元的高斯約當消元法 /33

3.2.3 嶺迴歸 /38

3.3 矩陣分解 /38

3.3.1 特徵值分解與奇異值分解 /39

3.3.2 高維稀疏矩陣的特徵值分解 /40

3.3.3 基於矩陣分解的推薦算法 /45

3.4 矩陣編程實踐 /46

3.4.1 numpy 數組運算 /46

3.4.2 稀疏矩陣的壓縮方法 /50

3.4.3 用 MapReduce 實現矩陣乘法 /52

第 4 章優化方法

4.1 無約束優化方法 /54

4.1.1 梯度下降法 /54

4.1.2 擬牛頓法 /56

4.2 帶約束優化方法 /58

4.3 在線學習方法 /61

4.3.1 隨機梯度下降法 /61

4.3.2 FTRL 算法 /63

4.4 深度學習中的優化方法 /70

4.4.1 動量法 /70

4.4.2 AdaGrad /71

4.4.3 RMSprop /71

4.4.4 Adadelta /71

4.4.5 Adam /72

4.5 期望最大化算法 /72

4.5.1 Jensen 不等式 /73

4.5.2 期望最大化算法分析 /73

4.5.3 高斯混合模型 /77

第 5 章線性模型

5.1 廣義線性模型 /79

5.1.1 指數族分佈 /79

5.1.2 廣義線性模型的特例 /80

5.2 邏輯迴歸模型 /83

5.3 分解機制模型 /84

5.3.1 特徵組合 /84

5.3.2 分解機制 /86

5.3.3 分解機制模型構造新特徵的思路 /87

5.4 基於域感知的分解機制模型 /88

5.5 算法實驗對比 /95

第 6 章概率圖模型

6.1 隱馬爾可夫模型 /98

6.1.1 模型介紹 /98

6.1.2 模型訓練 /101

6.1.3 模型預測 /102

6.2 條件隨機場模型 /103

6.2.1 條件隨機場模型及特徵函數 /103

6.2.2 向前變量和向後變量 /107

6.2.3 模型訓練 /110

6.2.4 模型預測 /111

6.2.5 條件隨機場模型與隱馬爾可夫模型的對比 /112

第 7 章文本向量化

7.1 詞向量 /113

7.1.1 word2vec /113

7.1.2 fastText /117

7.1.3 GloVe /118

7.1.4 算法實驗對比 /120

7.2 文檔向量 /121

7.2.1 Paragraph Vector /121

7.2.2 LDA /123

第 8 章樹模型

8.1 決策樹 /130

8.1.1 分類樹 /131

8.1.2 迴歸樹 /134

8.1.3 剪枝 /137

8.2 隨機森林 /139

8.3 AdaBoost /140

8.4 XGBoost /141

8.5 LightGBM /146

8.5.1 基於梯度的單邊採樣算法 /147

8.5.2 互斥特徵捆綁 /147

8.5.3 Leaf-Wise 生長策略 /148

8.5.4 DART /149

8.6 算法實驗對比 /150

第 9 章深度學習

9.1 神經網絡概述 /154

9.1.1 網絡模型 /154

9.1.2 反向傳播 /157

9.1.3 損失函數 /158

9.1.4 過擬合問題 /159

9.1.5 梯度消失 /161

9.1.6 參數初始化 /161

9.2 卷積神經網絡 /162

9.2.1 卷積 /162

9.2.2 池化 /165

9.2.3 CNN 網絡結構 /165

9.2.4 textCNN /167

9.3 循環神經網絡 /168

9.3.1 RNN 通用架構 /168

9.3.2 RNN 的學習問題 /170

9.3.3 門控循環單元 /172

9.3.4 LSTM /174

9.3.5 seq2seq /177

9.4 注意力機制 /179

第 10 章 Keras 編程

10.1 快速上手 /182

10.2 Keras 層 /184

10.2.1 Keras 內置層 /184

10.2.2 自定義層 /191

10.3 調試技巧 /194

10.3.1 查看中間層的輸出 /194

10.3.2 回調函數 /195

10.4 CNN 和 RNN 的實現 /198

第 11 章推薦系統實戰

11.1 問題建模 /203

11.2 數據預處理 /206

11.2.1 歸一化 /206

11.2.2 特徵哈希 /208

11.3 模型探索 /210

11.3.1 基於共現的模型 /210

11.3.2 圖模型 /211

11.3.3 DeepFM /214

11.3.4 DCN /219

11.4 推薦服務 /221

11.4.1 遠程過程調用簡介 /221

11.4.2 gRPC 的使用 /223

11.4.3 服務發現與負載均衡 /226

第 12 章收集訓練數據

12.1 日誌的設計 /229

12.2 日誌的傳輸 /231

12.3 日誌的合併 /238

12.4 樣本的存儲 /248

第 13 章分佈式訓練

13.1 參數服務器 /250

13.2 基於 PS 的優化算法 /256

13.3 在線學習 /259

第 14 章 A/B 測試

14.1 實驗分組 /261

14.2 指標監控 /266

14.2.1 指標的計算 /266

14.2.2 指標的上報與存儲 /267

14.2.3 指標的展現與監控 /269

14.3 實驗結果分析 /272^[2]

深入淺出作者簡介

張朝陽，畢業於華中科技大學工業工程系，獲碩士學位。曾就職於58同城、字節跳動，現任脈脈高級算法研究員，從事過反作弊、推薦、搜索等業務的算法研究和系統開發工作，擅長自然語言處理、點擊率預估和特徵工程。多年堅持寫博客，總能以淺顯易懂的文字將算法原理講清楚，在博客園上吸引了眾多粉絲。^[2]

參考資料

1. 深入淺出．國家圖書[引用日期2022-06-19]
2. 深入淺出．京東圖書[引用日期2023-12-21]

深入淺出的概述圖（1張）

詞條統計

瀏覽次數：次
編輯次數：4次歷史版本
最近更新：遇一人能白首（2024-01-21）

1 內容簡介
2 圖書目錄
3 作者簡介