反饋

大數據：互聯網大規模數據挖掘與分佈式處理

《大數據：互聯網大規模數據挖掘與分佈式處理》是2012年人民郵電出版社出版的圖書。^[1]

中文名: 大數據：互聯網大規模數據挖掘與分佈式處理
作者: [美] Anand Rajaraman，[美] Jeffrey David Ullman
譯者: 王斌
出版時間: 2012年09月01日
出版社: 人民郵電出版社

頁數: 258 頁
ISBN: 9787115291318
原作品: Mining of Massive Datasets
定價: 59 元
開本: 16 開
裝幀: 平裝

大數據：互聯網大規模數據挖掘與分佈式處理內容簡介

《大數據：互聯網大規模數據挖掘與分佈式處理》由2012年人民郵電出版社出版的圖書。斯坦福大學的“Web 挖掘”課程的內容總結而成，主要關注極大規模數據的挖掘。主要內容包括分佈式文件系統、相似性搜索、搜索引擎技術、頻繁項集挖掘、聚類算法、廣告管理及推薦系統。其中相關章節有對應的習題，以鞏固所講解的內容。讀者更可以從網上獲取相關拓展材料。《大數據：互聯網大規模數據挖掘與分佈式處理》適合本科生、研究生及對數據挖掘感興趣的讀者閲讀。^[1]

大數據：互聯網大規模數據挖掘與分佈式處理圖書目錄

第1章　數據挖掘基本概念　1

1.1　數據挖掘的定義　1

1.1.1　統計建模　1

1.1.2　機器學習　1

1.1.3　建模的計算方法　2

1.1.4　數據彙總　2

1.1.5　特徵抽取　3

1.2　數據挖掘的統計限制　4

1.2.1　整體情報預警　4

1.2.2　邦弗朗尼原理　4

1.2.3　邦弗朗尼原理的一個例子　5

1.2.4　習題　6

1.3　相關知識　6

1.3.1　詞語在文檔中的重要性　6

1.3.2　哈希函數　7

1.3.3　索引　8

1.3.4　二級存儲器　10

1.3.5　自然對數的底e　10

1.3.6　冪定律　11

1.3.7　習題　12

1.4　本書概要　13

1.5　小結　14

1.6　參考文獻　14

第2章　大規模文件系統及Map-Reduce　16

2.1　分佈式文件系統　16

2.1.1　計算節點的物理結構　17

2.1.2　大規模文件系統的結構　18

2.2　Map-Reduce　18

2.2.1　Map任務　19

2.2.2　分組和聚合　20

2.2.3　Reduce任務　20

2.2.4　組合器　21

2.2.5　Map-Reduce的執行細節　21

2.2.6　節點失效的處理　22

2.3　使用Map-Reduce的算法　22

2.3.1　基於Map-Reduce的矩陣—向量乘法實現　23

2.3.2　向量v無法放入內存時的處理　23

2.3.3　關係代數運算　24

2.3.4　基於Map-Reduce的選擇運算　26

2.3.5　基於Map-Reduce的投影運算　26

2.3.6　基於Map-Reduce的並、交和差運算　27

2.3.7　基於Map-Reduce的自然連接運算　27

2.3.8　一般性的連接算法　28

2.3.9　基於Map-Reduce的分組和聚合運算　28

2.3.10　矩陣乘法　29

2.3.11　基於單步Map-Reduce的矩陣乘法　29

2.3.12　習題　30

2.4　Map-Reduce的擴展　31

2.4.1　工作流系統　31

2.4.2　Map-Reduce的遞歸擴展版本　32

2.4.3　Pregel系統　34

2.4.4　習題　35

2.5　集羣計算算法的效率問題　35

2.5.1　集羣計算的通信開銷模型　35

2.5.2　實耗通信開銷　36

2.5.3　多路連接　37

2.5.4　習題　40

2.6　小結　40

2.7　參考文獻　42

第3章　相似項發現　44

3.1　近鄰搜索的應用　44

3.1.1　集合的Jaccard相似度　44

3.1.2　文檔的相似度　45

3.1.3　協同過濾——一個集合相似問題　46

3.1.4　習題　47

3.2　文檔的Shingling　47

3.2.1　k-Shingle　47

3.2.2　shingle大小的選擇　48

3.2.3　對shingle進行哈希　48

3.2.4　基於詞的shingle　49

3.2.5　習題　49

3.3　保持相似度的集合摘要表示　49

3.3.1　集合的矩陣表示　50

3.3.2　最小哈希　50

3.3.3　最小哈希及Jaccard相似度　51

3.3.4　最小哈希簽名　52

3.3.5　最小哈希簽名的計算　52

3.3.6　習題　54

3.4　文檔的局部敏感哈希算法　55

3.4.1　面向最小哈希簽名的LSH　56

3.4.2　行條化策略的分析　57

3.4.3　上述技術的綜合　58

3.4.4　習題　59

3.5　距離測度　59

3.5.1　距離測度的定義　59

3.5.2　歐氏距離　60

3.5.3　Jaccard距離　60

3.5.4　餘弦距離　61

3.5.5　編輯距離　62

3.5.6　海明距離　63

3.5.7　習題　63

3.6　局部敏感函數理論　64

3.6.1　局部敏感函數　65

3.6.2　面向Jaccard距離的局部敏感函數族　66

3.6.3　局部敏感函數族的放大處理　66

3.6.4　習題　68

3.7　面向其他距離測度的LSH函數族　68

3.7.1　面向海明距離的LSH函數族　69

3.7.2　隨機超平面和餘弦距離　69

3.7.3　梗概　70

3.7.4　面向歐氏距離的LSH函數族　71

3.7.5　面向歐氏空間的更多LSH函數族　72

3.7.6　習題　72

3.8　LSH函數的應用　73

3.8.1　實體關聯　73

3.8.2　一個實體關聯的例子　74

3.8.3　記錄匹配的驗證　74

3.8.4　指紋匹配　75

3.8.5　適用於指紋匹配的LSH函數族　76

3.8.6　相似新聞報道檢測　77

3.8.7　習題　78

3.9　面向高相似度的方法　79

3.9.1　相等項發現　79

3.9.2　集合的字符串表示方法　79

3.9.3　基於長度的過濾　80

3.9.4　前綴索引　81

3.9.5　位置信息的使用　82

3.9.6　使用位置和長度信息的索引　83

3.9.7　習題　85

3.10　小結　85

3.11　參考文獻　87

第4章　數據流挖掘　89

4.1　流數據模型　89

4.1.1　一個數據流管理系統　89

4.1.2　流數據源的例子　90

4.1.3　流查詢　91

4.1.4　流處理中的若干問題　92

4.2　流當中的數據抽樣　92

4.2.1　一個富於啓發性的例子　93

4.2.2　代表性樣本的獲取　93

4.2.3　一般的抽樣問題　94

4.2.4　樣本規模的變化　94

4.2.5　習題　95

4.3　流過濾　95

4.3.1　一個例子　95

4.3.2　布隆過濾器　96

4.3.3　布隆過濾方法的分析　96

4.3.4　習題　97

4.4　流中獨立元素的數目統計　98

4.4.1　獨立元素計數問題　98

4.4.2　FM算法　98

4.4.3　組合估計　99

4.4.4　空間需求　100

4.4.5　習題　100

4.5　矩估計　100

4.5.1　矩定義　100

4.5.2　二階矩估計的AMS算法　101

4.5.3　AMS算法有效的原因　102

4.5.4　更高階矩的估計　103

4.5.5　無限流的處理　103

4.5.6　習題　104

4.6　窗口內的計數問題　105

4.6.1　精確計數的開銷　105

4.6.2　DGIM算法　105

4.6.3　DGIM算法的存儲需求　107

4.6.4　DGIM算法中的查詢應答　107

4.6.5　DGIM條件的保持　108

4.6.6　降低錯誤率　109

4.6.7　窗口內計數問題的擴展　109

4.6.8　習題　110

4.7　衰減窗口　110

4.7.1　最常見元素問題　110

4.7.2　衰減窗口的定義　111

4.7.3　最流行元素的發現　111

4.8　小結　112

4.9　參考文獻　113

第5章　鏈接分析　115

5.1　PageRank　115

5.1.1　早期的搜索引擎及詞項作弊　115

5.1.2　PageRank的定義　117

5.1.3　Web結構　119

5.1.4　避免終止點　121

5.1.5　採集器陷阱及“抽税”法　123

5.1.6　PageRank在搜索引擎中的使用　125

5.1.7　習題　125

5.2　PageRank的快速計算　126

5.2.1　轉移矩陣的表示　127

5.2.2　基於Map-Reduce的PageRank迭代計算　128

5.2.3　結果向量合併時的組合器使用　128

5.2.4　轉移矩陣中塊的表示　129

5.2.5　其他高效的PageRank迭代方法　130

5.2.6　習題　131

5.3　面向主題的PageRank　131

5.3.1　動機　131

5.3.2　有偏的隨機遊走模型　132

5.3.3　面向主題的PageRank的使用　133

5.3.4　基於詞彙的主題推斷　134

5.3.5　習題　134

5.4　鏈接作弊　135

5.4.1　垃圾農場的架構　135

5.4.2　垃圾農場的分析　136

5.4.3　與鏈接作弊的鬥爭　137

5.4.4　TrustRank　137

5.4.5　垃圾質量　137

5.4.6　習題　138

5.5　導航頁和權威頁　139

5.5.1　HITS的直觀意義　139

5.5.2　導航度和權威度的形式化　139

5.5.3　習題　142

5.6　小結　143

5.7　參考文獻　145

第6章　頻繁項集　146

6.1　購物籃模型　146

6.1.1　頻繁項集的定義　146

6.1.2　頻繁項集的應用　148

6.1.3　關聯規則　149

6.1.4　高可信度關聯規則的發現　150

6.1.5　習題　151

6.2　購物籃及A-Priori算法　152

6.2.1　購物籃數據的表示　152

6.2.2　項集計數中的內存使用　153

6.2.3　項集的單調性　154

6.2.4　二元組計數　155

6.2.5　A-Priori算法　155

6.2.6　所有頻繁項集上的A-Priori算法　157

6.2.7　習題　158

6.3　更大數據集在內存中的處理　159

6.3.1　PCY算法　160

6.3.2　多階段算法　161

6.3.3　多哈希算法　163

6.3.4　習題　164

6.4　有限掃描算法　166

6.4.1　簡單的隨機化算法　166

6.4.2　抽樣算法中的錯誤規避　167

6.4.3　SON算法　168

6.4.4　SON算法和Map-Reduce　168

6.4.5　Toivonen算法　169

6.4.6　Toivonen算法的有效性分析　170

6.4.7　習題　170

6.5　流中的頻繁項計數　171

6.5.1　流的抽樣方法　171

6.5.2　衰減窗口中的頻繁項集　172

6.5.3　混合方法　172

6.5.4　習題　173

6.6　小結　173

6.7　參考文獻　175

第7章　聚類　176

7.1　聚類技術介紹　176

7.1.1　點、空間和距離　176

7.1.2　聚類策略　177

7.1.3　維數災難　178

7.1.4　習題　179

7.2　層次聚類　179

7.2.1　歐氏空間下的層次聚類　180

7.2.2　層次聚類算法的效率　183

7.2.3　控制層次聚類的其他規則　183

7.2.4　非歐空間下的層次聚類　185

7.2.5　習題　186

7.3　k-均值算法　187

7.3.1　k-均值算法基本知識　187

7.3.2　k-均值算法的簇初始化　187

7.3.3　選擇k的正確值　188

7.3.4　BFR算法　189

7.3.5　BFR算法中的數據處理　191

7.3.6　習題　192

7.4　CURE算法　193

7.4.1　CURE算法的初始化　194

7.4.2　CURE算法的完成　195

7.4.3　習題　195

7.5　非歐空間下的聚類　196

7.5.1　GRGPF算法中的簇表示　196

7.5.2　簇表示樹的初始化　196

7.5.3　GRGPF算法中的點加入　197

7.5.4　簇的分裂及合併　198

7.5.5　習題　199

7.6　流聚類及並行化　199

7.6.1　流計算模型　199

7.6.2　一個流聚類算法　200

7.6.3　桶的初始化　200

7.6.4　桶合併　200

7.6.5　查詢應答　202

7.6.6　並行環境下的聚類　202

7.6.7　習題　203

7.7　小結　203

7.8　參考文獻　205

第8章　Web廣告　207

8.1　在線廣告相關問題　207

8.1.1　廣告機會　207

8.1.2　直投廣告　208

8.1.3　展示廣告的相關問題　208

8.2　在線算法　209

8.2.1　在線和離線算法　209

8.2.2　貪心算法　210

8.2.3　競爭率　211

8.2.4　習題　211

8.3　廣告匹配問題　212

8.3.1　匹配及完美匹配　212

8.3.2　最大匹配貪心算法　213

8.3.3　貪心匹配算法的競爭率　213

8.3.4　習題　214

8.4　Adwords問題　214

8.4.1　搜索廣告的歷史　215

8.4.2　Adwords問題的定義　215

8.4.3　Adwords問題的貪心方法　216

8.4.4　Balance算法　217

8.4.5　Balance算法競爭率的一個下界　217

8.4.6　多投標者的Balance算法　219

8.4.7　一般性的Balance算法　220

8.4.8　Adwords問題的最後論述　221

8.4.9　習題　221

8.5　Adwords的實現　221

8.5.1　投標和搜索查詢的匹配　222

8.5.2　更復雜的匹配問題　222

8.5.3　文檔和投標之間的匹配算法　223

8.6　小結　224

8.7　參考文獻　226

第9章　推薦系統　227

9.1　一個推薦系統的模型　227

9.1.1　效用矩陣　227

9.1.2　長尾現象　228

9.1.3　推薦系統的應用　230

9.1.4　效用矩陣的填充　230

9.2　基於內容的推薦　231

9.2.1　項模型　231

9.2.2　文檔的特徵發現　231

9.2.3　基於Tag的項特徵獲取　232

9.2.4　項模型的表示　233

9.2.5　用户模型　234

9.2.6　基於內容的項推薦　235

9.2.7　分類算法　235

9.2.8　習題　237

9.3　協同過濾　238

9.3.1　相似度計算　238

9.3.2　相似度對偶性　241

9.3.3　用户聚類和項聚類　242

9.3.4　習題　243

9.4　降維處理　243

9.4.1　UV分解　244

9.4.2　RMSE　244

9.4.3　UV分解的增量式計算　245

9.4.4　對任一元素的優化　247

9.4.5　一個完整UV分解算法的構建　248

9.4.6　習題　250

9.5　NetFlix競賽　250

9.6　小結　251

9.7　參考文獻　253

索引　254^[1]

參考資料

1. 大數據：互聯網大規模數據挖掘與分佈式處理．人民郵電出版社[引用日期2015-05-10]

大數據：互聯網大規模數據挖掘與分佈式處理的概述圖（1張）

詞條統計

瀏覽次數：次
編輯次數：11次歷史版本
最近更新：思安单（2024-01-31）

1 內容簡介
2 圖書目錄