複製鏈接
請複製以下鏈接發送給好友

數據清洗

(2018年清華大學出版社出版的圖書)

鎖定
《數據清洗》是2018年6月清華大學出版社出版的圖書,作者是劉鵬、張燕、李法平、陳瀟瀟。 [1] 
書    名
數據清洗
作    者
劉鵬
張燕
李法平
作    者
陳瀟瀟
出版社
清華大學出版社
出版時間
2018年06月01日
ISBN
9787302493273

數據清洗內容簡介

數據清洗是大數據領域不可缺少的環節,用來發現並糾正數據中可能存在的錯誤,針對數據審查過程中發現的錯誤值、缺失值、異常值、可疑數據,選用適當方法進行“清理”,使“髒”數據變為“乾淨”數據。 本書共分為8章:第1章主要介紹數據清洗的概念、任務和流程,數據標準化概念及數據倉庫技術等;第2章主要介紹Windows和類UNIX操作系統下的數據常規格式、數據編碼及數據類型轉換等;第3章介紹ETL概念、數據清洗的技術路線、ETL工具及ETL子系統等;第4章介紹Excel、Kettle、OpenRefine、DataWrangler和Hawk的安裝及使用等;第5章介紹Kettle下文本文件抽取、Web數據抽取、數據庫數據抽取及增量數據抽取等;第6章介紹數據清洗步驟、數據檢驗、數據錯誤處理、數據質量評估及數據加載;第7章介紹網頁結構,利用網絡爬蟲技術進行數據採集,利用JavaScript技術進行行為日誌數據採集等;第8章介紹RDBMS的數據清洗方法和數據脱敏處理技術等。
本書系統地講解了數據清洗理論和實際應用,適用於高職高專院校和應用型本科的大數據課程教學,也適用於希望瞭解數據清洗的廣大讀者。 [1] 

數據清洗作者簡介

李法平- 副教授/系統分析師,碩士,重慶電子工程職業學院軟件學院移動應用開發教研室主任,主要從事高職軟件類專業教學研究、教育信息化系統和企業信息化系統等應用技術研究。 [1] 

數據清洗目錄

第1章數據清洗概述1
1.1數據清洗簡介1
1.1.1數據科學過程1
1.1.2數據清洗定義2
1.1.3數據清洗任務3
1.1.4數據清洗流程4
1.1.5數據清洗環境5
1.1.6數據清洗實例説明6
1.2數據標準化7
1.2.1數據標準化概念7
1.2.2數據標準化常用方法8
1.3數據倉庫簡介9
1.3.1數據倉庫定義9
1.3.2數據倉庫組成要素10
1.3.3數據倉庫分類11
1.3.4數據倉庫相關技術12
1.3.5常用工具簡介13
1.4習題14
第2章數據格式與編碼16
2.1文件文本格式16
2.1.1常見文本格式17
2.1.2xls及xlsx文件格式18
2.1.3JSON文本格式19
2.1.4HTML和XML文本格式19
2.2數據編碼20
2.2.1數據類型21
2.2.2數據類型間轉換25
2.2.3 字符編碼26
2.2.4空值和亂碼28
2.3數據轉換28
2.3.1電子表格轉換29
2.3.2RDBMS數據轉換30
2.4習題30
第3章基本技術方法31
3.1ETL入門31
3.1.1ETL解決方案31
3.1.2ETL基本構成33
3.1.3ETL技術選型35
3.2技術路線35
3.2.1文本清洗路線35
3.2.2RDBMS清洗路線36
3.2.3Web內容清洗路線36
3.3ETL工具37
3.3.1ETL功能37
3.3.2開源ETL工具38
3.4ETL子系統39
3.4.1抽取39
3.4.2清洗和更正數據39
3.4.3數據發佈40
3.4.4管理ETL41
3.5習題41 [2] 
第4章數據清洗常用工具及基本操作42
4.1MicrosoftExcel數據清洗基本操作42
4.1.1Excel數據清洗概述42
4.1.2Excel數據清洗53
4.2Kettle簡介及基本操作57
4.2.1Kettle軟件概述57
4.2.2Kettle基本操作60
4.2.3Kettle數據清洗實例操作64
4.3OpenRefine簡介及基本操作68
4.3.1OpenRefine軟件概述69
4.3.2OpenRefine基本操作70
4.3.3OpenRefine數據清洗實例操作73
4.4DataWrangler簡介及基本操作80
4.4.1DataWrangler軟件概述80
4.4.2DataWrangler基本操作81
4.4.3DataWrangler數據清洗實例操作82
4.5Hawk簡介及基本操作86
4.5.1Hawk軟件概述86
4.5.2Hawk基本操作88
4.5.3Hawk數據清洗實例操作91
4.6上機練習與實訓98
4.7習題103
第5章數據抽取104
5.1文本文件抽取104
5.1.1製表符文本抽取107
5.1.2CSV文件抽取111
5.2Web數據抽取114
5.2.1HTML文件抽取114
5.2.2JSON數據抽取116
5.2.3XML數據抽取120
5.3數據庫數據抽取123
5.3.1數據導入導出123
5.3.2ETL工具抽取124
5.3.3SQL到NoSQL抽取127
5.4上機練習與實訓135
5.5習題143
第6章數據轉換與加載144
6.1數據清洗轉換144
6.1.1數據清洗145
6.1.2數據檢驗151
6.1.3錯誤處理156
6.2數據質量評估161
6.2.1數據評估指標161
6.2.2審計數據163
6.3數據加載164
6.3.1數據加載的概念164
6.3.2數據加載的方式164
6.3.3批量數據加載165
6.3.4數據加載異常處理165
6.4上機練習與實訓166
6.5習題173
第7章採集Web數據實例175
7.1網頁結構175
7.1.1DOM模型175
7.1.2正則表達式178
7.2網絡爬蟲181
7.2.1網絡爬蟲簡介181
7.2.2網絡爬蟲異常處理189
7.3行為日誌採集190
7.3.1用户實時行為數據採集190
7.3.2用户實時行為數據分析193
7.4上機練習與實訓195
7.5習題198
第8章清洗RDBMS數據實例199
8.1準備工作199
8.1.1準備待清洗的數據集200
8.1.2搭建操作環境200
8.1.3數據導入MySQL201
8.2數據庫數據清洗205
8.2.1缺失值清洗205
8.2.2格式內容清洗209
8.2.3邏輯錯誤清洗214
8.2.4非需求數據清洗217
8.3數據脱敏處理218
8.4習題222
參考文獻223
附錄A大數據和人工智能實驗環境224
附錄BHadoop環境要求234
附錄C名詞解釋236 [1-2] 
參考資料