反饋

預訓練語言模型

鎖定

《預訓練語言模型》^[1] 是電子工業出版社出版圖書，作者是邵浩，劉一烽。預訓練語言模型開啓自然語言處理新時代，剖析具有代表性的預訓練語言模型的實現細節|配代碼講解

中文名: 預訓練語言模型
作者: 邵浩
劉一烽
出版社: 電子工業出版社

出版時間: 2021年5月
頁數: 216 頁
定價: 109 元
開本: 16 開
ISBN: 9787121409998

預訓練語言模型內容簡介

詳細梳理了預訓練語言模型的基本概念和理論基礎，並通過實際代碼的講解，闡述了具有代表性的預訓練語言模型的實現細節

預訓練語言模型圖書目錄

第 1 章預訓練語言模型簡介 1

1.1自然語言處理研究進展 1

1.2預訓練語言模型：為什麼要預訓練 4

1.2.1預訓練 4

1.2.2自然語言表示 5

1.2.3預訓練語言模型發展史及分類 8

第 2 章預訓練語言模型基礎知識 13

2.1統計語言模型 14

2.2神經網絡語言模型 17

2.3詞向量：解決相似單詞的距離問題 19

2.4RNN 和 LSTM 基礎 25

2.5基於 RNN 的語言模型 29

2.6ELMo：解決多義詞的表示問題 32

第 3 章 Transformer 與 Attention 37

3.1Transformer 的結構 37

3.2Self-Attention：從全局中找到重點 43

3.3位置編碼：為什麼有效 54

3.4單向掩碼：另一種掩碼機制 58

3.5代碼解讀：模型訓練技巧 61

3.5.1訓練技巧 1：歸一化層前置 62

3.5.2訓練技巧 2：梯度累積 64

第 4 章 GPT 系列模型 69

4.1GPT 的結構：基於 Transformer Decoder 69

4.2GPT 任務改寫：如何在不同任務中使用 GPT 71

4.3GPT 核心代碼解讀 74

4.4GPT-2：Zero-shot Learning 的潛力 79

4.4.1N-shot Learning 79

4.4.2核心思想 80

4.4.3模型結構 81

4.5GPT-3：Few-shot Learning 的優秀表現 82

4.5.1看詞造句 84

4.5.2語法糾錯 84

4.5.3GPT-3 的爭議 85

第 5 章 BERT 模型 87

5.1BERT：公認的里程碑 87

5.2BERT 的結構：強大的特徵提取能力 88

5.3無監督訓練：掩碼語言模型和下句預測 91

5.3.1MLM 91

5.3.2NSP 93

5.3.3輸入表示 94

5.4微調訓練：適應下游任務 95

5.4.1句對分類 95

5.4.2單句分類 96

5.4.3文本問答 97

5.4.4單句標註 99

5.5核心代碼解讀：預訓練和微調 100

5.5.1BERT 預訓練模型 101

5.5.2BERT 微調模型 110

5.6BERT 總結 117

第 6 章後 BERT 時代的模型 119

6.1XLM：跨語言模型 119

6.1.1優化方向 119

6.1.2算法細節 120

6.1.3 小結 121

6.2MT-DNN：多任務融合 121

6.2.1優化方向 121

6.2.2算法細節 122

6.2.3 小結 124

6.3UniLM：獲得文本生成能力 124

6.3.1優化方向 124

6.3.2算法細節 125

6.3.3 小結 127

6.4SpanBERT：擴大掩碼範圍 127

6.4.1優化方向 127

6.4.2算法細節 128

6.4.3 小結 129

6.5XLNet：置換自迴歸 130

6.5.1優化方向 130

6.5.2算法細節 130

6.5.3 小結 135

6.6ERNIE：知識圖譜 136

6.6.1優化方向 136

6.6.2算法細節 136

6.6.3 小結 139

6.7VideoBERT：多模態融合 139

6.7.1優化方向 139

6.7.2算法細節 140

6.7.3 小結 141

6.8ALBERT：參數共享 142

6.8.1優化方向 142

6.8.2算法細節 143

6.8.3 小結 145

6.9RoBERTa：更大的模型 145

6.9.1優化方向 145

6.9.2算法細節 146

6.9.3 小結 146

6.10BART：編解碼結構 146

6.10.1優化方向 146

6.10.2算法細節 147

6.10.3 小結 149

6.11T5：大一統模型 149

6.11.1優化方向 149

6.11.2算法細節 150

6.11.3 小結 153

6.12 總結 154

第 7 章評測和應用 157

7.1評測任務 157

7.1.1通用評測任務 157

7.1.2領域評測任務 162

7.1.3其他評測任務 167

7.2模型應用：Transformers 代碼實戰 168

7.2.1 安裝 168

7.2.2快速上手指南 170

7.2.3微調訓練 172

7.2.4BERT 應用 175

7.3模型壓縮：量化、剪枝和蒸餾 179

7.3.1BERT 模型分析 179

7.3.2 量化 181

7.3.3 剪枝 181

7.3.4 蒸餾 182

7.3.5 結構無損壓縮 187

7.4模型擴展：多模態預訓練 188

7.4.1單流模型 189

7.4.2雙流模型 191

第 8 章總結和展望 195

8.1預訓練語言模型的發展現狀 195

8.2預訓練語言模型的未來展望 199

參考文獻 203

預訓練語言模型作者簡介

邵　浩

日本國立九州大學工學博士，現就職於vivo。曾任狗尾草智能科技AI研究院院長，帶領團隊打造了AI虛擬生命產品的交互引擎。曾是上海對外經貿大學副教授，碩士生導師。任中國中文信息學會青年工作委員會委員，語言與知識計算專委會委員，中國計算機學會語音對話與聽覺專委會委員，自然語言處理專委會委員。發表論文50餘篇，獲專利10餘項，主持多項國家級及省部級課題，曾在聯合國、世界貿易組織、亞利桑那州立大學、香港城市大學等機構任訪問學者。

劉一烽

全國中學生物理競賽保送生，清華大學電子系碩士，曾獲學習成績優異獎學金。現就職於阿里巴巴淘系技術部，曾任vivo人工智能研究院AI算法工程師，主要研究方向為強化學習、自然語言處理和視頻內容理解。

參考資料

1. 預訓練語言模型 (豆瓣) ．豆瓣[引用日期2021-05-12]

預訓練語言模型的概述圖（1張）

詞條統計

瀏覽次數：次
編輯次數：4次歷史版本
最近更新：一碗加糖饭（2023-06-25）

1 內容簡介
2 圖書目錄
3 作者簡介