複製鏈接
請複製以下鏈接發送給好友

深度學習

(2021年人民郵電出版社出版的圖書)

鎖定
《深度學習》是2021年人民郵電出版社出版的圖書,作者是[美]伊恩·古德費洛、[加]約書亞·本吉奧、[加]亞倫·庫維爾 。 [1] 
中文名
深度學習
作    者
[美]伊恩·古德費洛,[加]約書亞·本吉奧,[加]亞倫·庫維爾
出版時間
2021年
出版社
人民郵電出版社
ISBN
9787115552860

深度學習內容簡介

本書由全球知名的3位專家Ian Goodfellow、Yoshua Bengio 和Aaron Courville撰寫,是深度學習領域奠基性的經典教材。全書的內容包括3個部分:第1部分介紹基本的數學工具和機器學習的概念,它們是深度學習的預備知識;第2部分系統深入地講解現今已成熟的深度學習方法和技術;第3部分討論某些具有前瞻性的方向和想法,它們被公認為是深度學習未來的研究重點。
《深度學習》適合各類讀者閲讀,包括相關專業的大學生或研究生,以及不具有機器學習或統計背景、但是想要快速補充深度學習知識,以便在實際產品或平台中應用的軟件工程師。

深度學習作者簡介

作者簡介 Ian Goodfellow,谷歌公司(Google)研究科學家,2014年蒙特利爾大學機器學*。他的研究興趣涵蓋大多數深度學習主題,特別是生成模型以及機器學習的安全和隱私。他在研究對抗樣本方面是一位有影響力的早期研究者,他發明了生成式對抗網絡,在深度學習領域貢獻卓越。 Yoshua Bengio,2018年圖靈獎得主,蒙特利爾大學計算機科學與運籌學系(DIRO)教授,蒙特利爾學習算法研究所(MILA)負責人,CIFAR項目的共同負責人,加拿大統計學習算法研究主席。Yoshua Bengio的主要研究目標是瞭解產生智力的學習原則。他還教授“機器學習”研究生課程(IFT6266),並培養了一大批研究生和博士後。 Aaron Courville,蒙特利爾大學計算機科學與運籌學系的助理教授,也是LISA實驗室的成員。目前他的研究興趣集中在發展深度學習模型和方法,特別是開發概率模型和新穎的推斷方法。Aaron Courville主要專注於計算機視覺應用,在其他領域,如自然語言處理、音頻信號處理、語音理解和其他AI相關任務方面也有所研究。 中文版審校者簡介 張志華,北京大學數學科學學院統計學教授,北京大學大數據研究中心和北京大數據研究院數據科學教授,主要從事機器學習和應用統計學的教學與研究工作。 譯者簡介 趙申劍,上海交通大學計算機系碩士研究生,研究方向為數值優化和自然語言處理。 黎彧君,上海交通大學計算機系博士研究生,研究方向為數值優化和強化學習。 符天凡,上海交通大學計算機系碩士研究生,研究方向為貝葉斯推斷。 李凱,上海交通大學計算機系博士研究生,研究方向為博弈論和強化學習。

深度學習目錄

第 1 章引言 1
1.1 本書面向的讀者 7
1.2 深度學習的歷史趨勢 8
1.2.1 神經網絡的眾多名稱和命運變遷 8
1.2.2 與日俱增的數據量 12
1.2.3 與日俱增的模型規模 13
1.2.4 與日俱增的精度、複雜度和對現實世界的衝擊 15
第 1 部分應用數學與機器學習基礎
第 2 章線性代數 19
2.1 標量、向量、矩陣和張量 19
2.2 矩陣和向量相乘 21
2.3 單位矩陣和逆矩陣 22
2.4 線性相關和生成子空間 23
2.5 範數 24
2.6 特殊類型的矩陣和向量 25
2.7 特徵分解 26
2.8 奇異值分解 28
2.9 Moore-Penrose 偽逆 28
2.10 跡運算 29
2.11 行列式 30
2.12 實例:主成分分析 30
第3 章概率與信息論 34
3.1 為什麼要使用概率 34
3.2 隨機變量 35
3.3 概率分佈 36
3.3.1 離散型變量和概率質量函數 36
3.3.2 連續型變量和概率密度函數 36
3.4 邊緣概率 37
3.5 條件概率 37
3.6 條件概率的鏈式法則 38
3.7 獨立性和條件獨立性 38
3.8 期望、方差和協方差 38
3.9 常用概率分佈 39
3.9.1 Bernoulli 分佈 40
3.9.2 Multinoulli 分佈 40
3.9.3 高斯分佈 40
3.9.4 指數分佈和Laplace 分佈 41
3.9.5 Dirac 分佈和經驗分佈 42
3.9.6 分佈的混合 42
3.10 常用函數的有用性質 43
3.11 貝葉斯規則 45
3.12 連續型變量的技術細節 45
3.13 信息論 47
3.14 結構化概率模型 49
第4 章數值計算 52
4.1 上溢和下溢 52
4.2 病態條件 53
4.3 基於梯度的優化方法 53
4.4 約束優化 60
4.5 實例:線性小二乘 61
第5 章機器學習基礎 63
5.1 學習算法 63
5.1.1 任務T 63
5.1.2 性能度量P 66
5.1.3 經驗E 66
5.1.4 示例:線性迴歸 68
5.2 容量、過擬合和欠擬合 70
5.2.1 沒有免費午餐定理 73
5.2.2 正則化 74
5.3 超參數和驗證集 76
5.4 估計、偏差和方差 77
5.4.1 點估計 77
5.4.2 偏差 78
5.4.3 方差和標準差 80
5.4.4 權衡偏差和方差以小化均方誤差 81
5.4.5 一致性 82
5.5 似然估計 82
5.5.1 條件對數似然和均方誤差 84
5.5.2 似然的性質 84
5.6 貝葉斯統計 85
5.7 監督學習算法 88
5.7.1 概率監督學習 88
5.7.2 支持向量機 88
5.7.3 其他簡單的監督學習算法 90
5.8 無監督學習算法 91
5.8.1 主成分分析 92
5.8.2 k- 均值聚類 94
5.9 隨機梯度下降 94
5.10 構建機器學習算法 96
5.11 促使深度學習發展的挑戰 96
5.11.1 維數災難 97
5.11.2 局部不變性和平滑正則化 97
5.11.3 流形學習 99
第 2 部分深度網絡:現代實踐
第6 章深度前饋網絡 105
6.1 實例:學習XOR 107
6.2 基於梯度的學習 110
6.2.1 代價函數 111
6.2.2 輸出單元 113
6.3 隱藏單元 119
6.3.1 整流線性單元及其擴展 120
6.3.2 logistic sigmoid 與雙曲正切函數 121
6.3.3 其他隱藏單元 122
6.4 架構設計 123
6.4.1 近似性質和深度 123
6.4.2 其他架構上的考慮 125
6.5 反向傳播和其他的微分算法 126
6.5.1 計算圖 127
6.5.2 微積分中的鏈式法則 127
6.5.3 遞歸地使用鏈式法則來實現反向傳播 128
6.5.4 全連接MLP 中的反向傳播計算 131
6.5.5 符號到符號的導數 131
6.5.6 一般化的反向傳播 133
6.5.7 實例:用於MLP 訓練的反向傳播 135
6.5.8 複雜化 137
6.5.9 深度學習界以外的微分 137
6.5.10 高階微分 138
6.6 歷史小記 139
第7 章深度學習中的正則化 141
7.1 參數範數懲罰 142
7.1.1 L2 參數正則化 142
7.1.2 L1 正則化 144
7.2 作為約束的範數懲罰 146
7.3 正則化和欠約束問題 147
7.4 數據集增強 148
7.5 噪聲魯棒性 149
7.6 半監督學習 150
7.7 多任務學習 150
7.8 提前終止 151
7.9 參數綁定和參數共享 156
7.10 稀疏表示 157
7.11 Bagging 和其他集成方法 158
7.12 Dropout 159
7.13 對抗訓練 165
7.14 切面距離、正切傳播和流形正切分類器 167
第8 章深度模型中的優化 169
8.1 學習和純優化有什麼不同 169
8.1.1 經驗風險小化 169
8.1.2 代理損失函數和提前終止 170
8.1.3 批量算法和小批量算法 170
8.2 神經網絡優化中的挑戰 173
8.2.1 病態 173
8.2.2 局部極小值 174
8.2.3 高原、鞍點和其他平坦區域 175
8.2.4 懸崖和梯度爆炸 177
8.2.5 長期依賴 177
8.2.6 非精確梯度 178
8.2.7 局部和全局結構間的弱對應 178
8.2.8 優化的理論限制 179
8.3 基本算法 180
8.3.1 隨機梯度下降 180
8.3.2 動量 181
8.3.3 Nesterov 動量 183
8.4 參數初始化策略 184
8.5 自適應學習率算法 187
8.5.1 AdaGrad 187
8.5.2 RMSProp 188
8.5.3 Adam 189
8.5.4 選擇正確的優化算法 190
8.6 二階近似方法 190
8.6.1 牛頓法 190
8.6.2 共軛梯度 191
8.6.3 BFGS 193
8.7 優化策略和元算法 194
8.7.1 批標準化 194
8.7.2 座標下降 196
8.7.3 Polyak 平均 197
8.7.4 監督預訓練 197
8.7.5 設計有助於優化的模型 199
8.7.6 延拓法和課程學習 199
第9 章卷積網絡 201
9.1 卷積運算 201
9.2 動機 203
9.3 池化 207
9.4 卷積與池化作為一種無限強的先驗 210
9.5 基本卷積函數的變體 211
9.6 結構化輸出 218
9.7 數據類型 219
9.8 高效的卷積算法 220
9.9 隨機或無監督的特徵 220
9.10 卷積網絡的神經科學基礎 221
9.11 卷積網絡與深度學習的歷史 226
第 10 章序列建模:循環和遞歸網絡 227
10.1 展開計算圖 228
10.2 循環神經網絡 230
10.2.1 導師驅動過程和輸出循環網絡 232
10.2.2 計算循環神經網絡的梯度 233
10.2.3 作為有向圖模型的循環網絡 235
10.2.4 基於上下文的RNN 序列建模 237
10.3 雙向RNN 239
10.4 基於編碼解碼的序列到序列架構 240
10.5 深度循環網絡 242
10.6 遞歸神經網絡 243
10.7 長期依賴的挑戰 244
10.8 回聲狀態網絡 245
10.9 滲漏單元和其他多時間尺度的策略 247
10.9.1 時間維度的跳躍連接 247
10.9.2 滲漏單元和一系列不同時間尺度 247
10.9.3 刪除連接 248
10.10 長短期記憶和其他門控RNN 248
10.10.1 LSTM 248
10.10.2 其他門控RNN 250
10.11 優化長期依賴 251
10.11.1 截斷梯度 251
10.11.2 引導信息流的正則化 252
10.12 外顯記憶 253
第 11 章實踐方法論 256
11.1 性能度量 256
11.2 默認的基準模型 258
11.3 決定是否收集更多數據 259
11.4 選擇超參數 259
11.4.1 手動調整超參數 259
11.4.2 自動超參數優化算法 262
11.4.3 網格搜索 262
11.4.4 隨機搜索 263
11.4.5 基於模型的超參數優化 264
11.5 調試策略 264
11.6 示例:多位數字識別 267
第 12 章應用 269
12.1 大規模深度學習 269
12.1.1 快速的CPU 實現 269
12.1.2 GPU 實現 269
12.1.3 大規模的分佈式實現 271
12.1.4 模型壓縮 271
12.1.5 動態結構 272
12.1.6 深度網絡的專用硬件實現 273
12.2 計算機視覺 274
12.2.1 預處理 275
12.2.2 數據集增強 277
12.3 語音識別 278
12.4 自然語言處理 279
12.4.1 n-gram 280
12.4.2 神經語言模型 281
12.4.3 高維輸出 282
12.4.4 結合n-gram 和神經語言模型 286
12.4.5 神經機器翻譯 287
12.4.6 歷史展望 289
12.5 其他應用 290
12.5.1 推薦系統 290
12.5.2 知識表示、推理和回答 292
第3 部分深度學習研究
第 13 章線性因子模型 297
13.1 概率PCA 和因子分析 297
13.2 獨立成分分析 298
13.3 慢特徵分析 300
13.4 稀疏編碼 301
13.5 PCA 的流形解釋 304
第 14 章自編碼器 306
14.1 欠完備自編碼器 306
14.2 正則自編碼器 307
14.2.1 稀疏自編碼器 307
14.2.2 去噪自編碼器 309
14.2.3 懲罰導數作為正則 309
14.3 表示能力、層的大小和深度 310
14.4 隨機編碼器和解碼器 310
14.5 去噪自編碼器詳解 311
14.5.1 得分估計 312
14.5.2 歷史展望 314
14.6 使用自編碼器學習流形 314
14.7 收縮自編碼器 317
14.8 預測稀疏分解 319
14.9 自編碼器的應用 319
第 15 章表示學習 321
15.1 貪心逐層無監督預訓練 322
15.2 遷移學習和領域自適應 326
15.3 半監督解釋因果關係 329
15.4 分佈式表示 332
15.5 得益於深度的指數增益 336
15.6 提供發現潛在原因的線索 337
第 16 章深度學習中的結構化概率模型 339
16.1 非結構化建模的挑戰 339
16.2 使用圖描述模型結構 342
16.2.1 有向模型 342
16.2.2 無向模型 344
16.2.3 配分函數 345
16.2.4 基於能量的模型 346
16.2.5 分離和d-分離 347
16.2.6 在有向模型和無向模型中轉換 350
16.2.7 因子圖 352
16.3 從圖模型中採樣 353
16.4 結構化建模的優勢 353
16.5 學習依賴關係 354
16.6 推斷和近似推斷 354
16.7 結構化概率模型的深度學習方法 355第 17 章蒙特卡羅方法 359
17.1 採樣和蒙特卡羅方法 359
17.1.1 為什麼需要採樣 359
17.1.2 蒙特卡羅採樣的基礎 359
17.2 重要採樣 360
17.3 馬爾可夫鏈蒙特卡羅方法 362
17.4 Gibbs 採樣 365
17.5 不同的峯值之間的混合挑戰 365
17.5.1 不同峯值之間通過回火來混合 367
17.5.2 深度也許會有助於混合 368
第 18 章直面配分函數 369
18.1 對數似然梯度 369
18.2 隨機似然和對比散度 370
18.3 偽似然 375
18.4 得分匹配和比率匹配 376
18.5 去噪得分匹配 378
18.6 噪聲對比估計 378
18.7 估計配分函數 380
18.7.1 退火重要採樣 382
18.7.2 橋式採樣 384
第 19 章近似推斷 385
19.1 把推斷視作優化問題 385
19.2 期望化 386
19.3 後驗推斷和稀疏編碼 387
19.4 變分推斷和變分學習 389
19.4.1 離散型潛變量 390
19.4.2 變分法 394
19.4.3 連續型潛變量 396
19.4.4 學習和推斷之間的相互作用 397
19.5 學成近似推斷 397
19.5.1 醒眠算法 398
19.5.2 學成推斷的其他形式 398
第 20 章深度生成模型 399
20.1 玻爾茲曼機 399
20.2 受限玻爾茲曼機 400
20.2.1 條件分佈 401
20.2.2 訓練受限玻爾茲曼機 402
20.3 深度信念網絡 402
20.4 深度玻爾茲曼機 404
20.4.1 有趣的性質 406
20.4.2 DBM 均勻場推斷 406
20.4.3 DBM 的參數學習 408
20.4.4 逐層預訓練 408
20.4.5 聯合訓練深度玻爾茲曼機 410
20.5 實值數據上的玻爾茲曼機 413
20.5.1 Gaussian-Bernoulli RBM 413
20.5.2 條件協方差的無向模型 414
20.6 卷積玻爾茲曼機 417
20.7 用於結構化或序列輸出的玻爾茲曼機 418
20.8 其他玻爾茲曼機 419
20.9 通過隨機操作的反向傳播 419
20.10 有向生成網絡 422
20.10.1 sigmoid 信念網絡 422
20.10.2 可微生成器網絡 423
20.10.3 變分自編碼器 425
20.10.4 生成式對抗網絡 426
20.10.5 生成矩匹配網絡 429
20.10.6 卷積生成網絡 430
20.10.7 自迴歸網絡 430
20.10.8 線性自迴歸網絡 430
20.10.9 神經自迴歸網絡 431
20.10.10 NADE 432
20.11 從自編碼器採樣 433
20.11.1 與任意去噪自編碼器相關的馬爾可夫鏈 . 434
20.11.2 夾合與條件採樣 434
20.11.3 回退訓練過程 435
20.12 生成隨機網絡 435
20.13 其他生成方案 436
20.14 評估生成模型 437
20.15 結論 438
參考文獻 439
索引 486
參考資料