複製鏈接
請複製以下鏈接發送給好友

數據分析

(統計分析方法)

鎖定
數據分析是指用適當的統計分析方法對收集來的大量數據進行分析,將它們加以彙總和理解並消化,以求最大化地開發數據的功能,發揮數據的作用。數據分析是為了提取有用信息和形成結論而對數據加以詳細研究和概括總結的過程。 [1] 
數據分析的數學基礎在20世紀早期就已確立,但直到計算機的出現才使得實際操作成為可能,並使得數據分析得以推廣。數據分析是數學與計算機科學相結合的產物。 [2] 
中文名
數據分析
外文名
Data Analysis
別    名
數據挖掘
目    的
最大化地開發數據的功能
數據也稱
觀測值,實驗、測量、觀察結果

數據分析數據

數據也稱為觀測值,是實驗、測量、觀察、調查等的結果。數據分析中所處理的數據分為定性數據和定量數據。只能歸入某一類而不能用數值進行測度的數據稱為定性數據。定性數據中表現為類別,但不區分順序的,是定類數據,如性別、品牌等;定性數據中表現為類別,但區分順序的,是定序數據,如學歷、商品的質量等級等。 [1] 

數據分析目的

數據分析的目的是把隱藏在一大批看來雜亂無章的數據中的信息集中和提煉出來,從而找出所研究對象的內在規律。在實際應用中,數據分析可幫助人們做出判斷,以便採取適當行動。數據分析是有組織有目的地收集數據、分析數據,使之成為信息的過程。這一過程是質量管理體系支持過程。在產品的整個壽命週期,包括從市場調研到售後服務和最終處置的各個過程都需要適當運用數據分析過程,以提升有效性。例如設計人員在開始一個新的設計以前,要通過廣泛的設計調查,分析所得數據以判定設計方向,因此數據分析在工業設計中具有極其重要的地位。 [3] 

數據分析類型

在統計學領域,有些人將數據分析劃分為描述性統計分析、探索性數據分析以及驗證性數據分析;其中,探索性數據分析側重於在數據之中發現新的特徵,而驗證性數據分析則側重於已有假設的證實或證偽。 [1] 
探索性數據分析
探索性數據分析是指為了形成值得假設的檢驗而對數據進行分析的一種方法,是對傳統統計學假設檢驗手段的補充。該方法由美國著名統計學家約翰·圖基(John Tukey)命名。 [1] 
定性數據分析
定性數據分析又稱為“定性資料分析”、“定性研究”或者“質性研究資料分析”,是指對諸如詞語、照片、觀察結果之類的非數值型數據(或者説資料)的分析。 [1] 
離線數據分析
離線數據分析用於較複雜和耗時的數據分析和處理,一般通常構建在雲計算平台之上,如開源的HDFS文件系統MapReduce運算框架。Hadoop機羣包含數百台乃至數千台服務器,存儲了數PB乃至數十PB的數據,每天運行着成千上萬的離線數據分析作業,每個作業處理幾百MB到幾百TB甚至更多的數據,運行時間為幾分鐘、幾小時、幾天甚至更長。 [1] 
在線數據分析
在線數據分析也稱為聯機分析處理,用來處理用户的在線請求,它對響應時間的要求比較高(通常不超過若干秒)。與離線數據分析相比,在線數據分析能夠實時處理用户的請求,允許用户隨時更改分析的約束和限制條件。與離線數據分析相比,在線數據分析能夠處理的數據量要小得多,但隨着技術的發展,當前的在線分析系統已經能夠實時地處理數千萬條甚至數億條記錄。傳統的在線數據分析系統構建在以關係數據庫為核心的數據倉庫之上,而在線大數據分析系統構建在雲計算平台的NoSQL系統上。如果沒有大數據的在線分析和處理,則無法存儲和索引數量龐大的互聯網網頁,就不會有當今的高效搜索引擎,也不會有構建在大數據處理基礎上的微博、博客、社交網絡等的蓬勃發展。 [4] 

數據分析分析方法

將數據按一定規律用列表方式表達出來,是記錄和處理最常用的方法。表格的設計要求對應關係清楚,簡單明瞭,有利於發現相關量之間的相關關係;此外還要求在標題欄中註明各個量的名稱、符號、數量級和單位等:根據需要還可以列出除原始數據以外的計算欄目和統計欄目等。 [3] 
作圖法可以最醒目地表達各個物理量間的變化關係。從圖線上可以簡便求出實驗需要的某些結果,還可以把某些複雜的函數關係,通過一定的變換用圖形表示出來。 [3] 
圖表和圖形的生成方式主要有兩種:手動製表和用程序自動生成,其中用程序製表是通過相應的軟件,例如SPSS、Excel、MATLAB等。將調查的數據輸入程序中,通過對這些軟件進行操作,得出最後結果,結果可以用圖表或者圖形的方式表現出來。圖形和圖表可以直接反映出調研結果,這樣大大節省了設計師的時間,幫助設計者們更好地分析和預測市場所需要的產品,為進一步的設計做鋪墊。同時這些分析形式也運用在產品銷售統計中,這樣可以直觀地給出最近的產品銷售情況,並可以及時地分析和預測未來的市場銷售情況等。所以數據分析法在工業設計中運用非常廣泛,而且是極為重要的。 [3] 

數據分析分析工具

使用Excel自帶的數據分析功能可以完成很多專業軟件才有的數據統計、分析,其中包括:直方圖相關係數協方差、各種概率分佈、抽樣與動態模擬、總體均值判斷,均值推斷、線性、非線性迴歸多元迴歸分析移動平均等內容。在商業智能領域CognosStyle Intelligence、Microstrategy、Brio、BOOracle以及國內產品如Yonghong Z-Suite BI套件等。 [5] 

數據分析分析步驟

數據分析有極廣泛的應用範圍。典型的數據分析可能包含以下三個步驟: [6] 
1、探索性數據分析:當數據剛取得時,可能雜亂無章,看不出規律,通過作圖、造表、用各種形式的方程擬合,計算某些特徵量等手段探索規律性的可能形式,即往什麼方向和用何種方式去尋找和揭示隱含在數據中的規律性。 [6] 
2、模型選定分析,在探索性分析的基礎上提出一類或幾類可能的模型,然後通過進一步的分析從中挑選一定的模型。 [6] 
3、推斷分析:通常使用數理統計方法對所定模型或估計的可靠程度和精確程度作出推斷。 [6] 

數據分析數據分析過程

數據分析過程的主要活動由識別信息需求、收集數據、分析數據、評價並改進數據分析的有效性組成。 [6] 
識別信息需求是確保數據分析過程有效性的首要條件,可以為收集數據、分析數據提供清晰的目標。識別信息需求是管理者的職責管理者應根據決策和過程控制的需求,提出對信息的需求。就過程控制而言,管理者應識別需求要利用那些信息支持評審過程輸入、過程輸出、資源配置合理性、過程活動的優化方案和過程異常變異的發現。 [6] 
收集數據
數據分析示意圖 數據分析示意圖
有目的的收集數據,是確保數據分析過程有效的基礎。組織需要對收集數據的內容、渠道、方法進行策劃。策劃時應考慮: [6] 
①將識別的需求轉化為具體的要求,如評價供方時,需要收集的數據可能包括其過程能力測量系統不確定度等相關數據; [6] 
②明確由誰在何時何處,通過何種渠道和方法收集數據; [6] 
記錄表應便於使用; ④採取有效措施,防止數據丟失和虛假數據對系統的干擾。 [6] 
分析數據
分析數據是將收集的數據通過加工、整理和分析、使其轉化為信息,通常用方法有: [6] 
老七種工具,即排列圖因果圖分層法、調查表、散佈圖直方圖控制圖 [6] 
數據分析是質量管理體系的基礎。組織的管理者應在適當時,通過對以下問題的分析,評估其有效性: [6] 
①提供決策的信息是否充分、可信,是否存在因信息不足、失準、滯後而導致決策失誤的問題; [6] 
②信息對持續改進質量管理體系、過程、產品所發揮的作用是否與期望值一致,是否在產品實現過程中有效運用數據分析; [6] 
③收集數據的目的是否明確,收集的數據是否真實和充分,信息渠道是否暢通; [6] 
④數據分析方法是否合理,是否將風險控制在可接受的範圍; [6] 
⑤數據分析所需資源是否得到保障。 [6] 

數據分析案例分析

1、沃爾瑪經典營銷案例:啤酒與尿布
“啤酒與尿布”的故事產生於20世紀90年代的美國沃爾瑪超市中,沃爾瑪的超市管理人員分析銷售數據時發現了一個令人難於理解的現象:在某些特定的情況下,“啤酒”與“尿布”兩件看上去毫無關係的商品會經常出現同一個購物籃中,這種獨特的銷售現象引起了管理人員的注意,經過後續調查發現,這種現象出現年輕的父親身上。 [7] 
在美國有嬰兒的家庭中,一般是母親在家中照看嬰兒,年輕的父親前去超市購買尿布。父親在購買尿布的同時,往往會順便為自己購買啤酒,這樣就會出現啤酒與尿布這兩件看上去不相干的商品經常會出現同一個購物籃的現象。如果這個年輕的父親在賣場只能買到兩件商品之一,則他很有可能會放棄購物而到另一家商店, 直到可以一次同時買到啤酒與尿布為止。沃爾瑪發現了這一獨特的現象,開始在賣場嘗試將啤酒與尿布擺放在相同的區域,讓年輕的父親可以同時找到這兩件商品,並很快地完成購物;而沃爾瑪超市也可以讓這些客户一次購買兩件商品、而不是一件,從而獲得了很好的商品銷售收入,這就是“啤酒與尿布” 故事的由來。 [7] 
當然“啤酒與尿布”的故事必須具有技術方面的支持。1993年美國學者Agrawal提出通過分析購物籃中的商品集合,從而找出商品之間關聯關係的關聯算法,並根據商品之間的關係,找出客户的購買行為。艾格拉沃從數學及計算機算法角度提 出了商品關聯關係的計算方法——Aprior算法。沃爾瑪從上個世紀 90 年代嘗試將 Aprior 算 法引入到 POS機數據分析中,並獲得了成功,於是產生了“啤酒與尿布”的故事。 [7] 
2、Suncorp-Metway使用數據分析實現智慧營銷
Suncorp-Metway是澳大利亞一家提供普通保險、銀行業、壽險和理財服務的多元化金融服務集團, 旗下擁有5個業務部門,管理着14類商品,由公司及共享服務部門提供支持,其在澳大利亞和新西蘭的運營業務與900多萬名客户有合作關係。 [8] 
該公司過去十年間的合併與收購,使客户羣增長了200%,這極大增加了客户羣數據管理的複雜性,如果解決不好,必將對公司利潤產生負面影響.為此,IBM公司為其提供了一套解決方案,組件包括:IBM Cognos 8 BI、IBMInitiate Master Data Service與IBM Unica。 [8] 
採用該方案後,Suncorp-Metway公司至少在以下三項業務方面取得顯著成效: [8] 
1、顯著增加了市場份額,但沒有增加營銷開支; [8] 
2、每年大約能夠節省1000萬美元的集成與相關成本 [8] 
3、避免向同一户家庭重複郵寄相同信函並且消除冗餘系統,從而同時降低直接郵寄與運營成本 [8] 
由此可見,Suncorp-Metway公司通過該方案將此前多個孤立來源的數據集成起來,實現智慧營銷,對控制成本,增加利潤起到非常積極的作用。 [8] 
參考資料
  • 1.    陶皖主編.雲計算與大數據:西安電子科技大學出版社,2017.01:第44頁
  • 2.    顧君忠,楊靜主編.英漢多媒體技術辭典:上海交通大學出版社,2016.09:第154頁
  • 3.    李娟莉主編;趙靜,王學文,張琳副主編.設計調查:國防工業出版社,2015.01:第176頁
  • 4.    邊馥苓主編;孟小帝,崔曉暉副主編.時空大數據的技術與方法:測繪出版社,2016.05:第24頁
  • 5.    張軍翔,吳祖珍,汪洋慧編著.EXCEL 2013實戰應用:中國鐵道出版社,2015.06:第212頁
  • 6.    趙凱,李瑋瑤著.大數據與雲計算技術漫談:光明日報出版社,2016.10:第18頁
  • 7.    楊旭 湯海京.數據科學導論:北京理工大學出版社,2014:17-18
  • 8.    趙守香,唐胡鑫,熊海濤著.大數據分析與應用:航空工業出版社,2015.12:第95頁