複製鏈接
請複製以下鏈接發送給好友

主成分分析

鎖定
主成分分析(Principal Component Analysis,PCA), 是一種統計方法。通過正交變換將一組可能存在相關性的變量轉換為一組線性不相關的變量,轉換後的這組變量叫主成分。
在實際課題中,為了全面分析問題,往往提出很多與此有關的變量(或因素),因為每個變量都在不同程度上反映這個課題的某些信息。
主成分分析首先是由K.皮爾森(Karl Pearson)對非隨機變量引入的,而後H.霍特林將此方法推廣到隨機向量的情形。信息的大小通常用離差平方和方差來衡量。
中文名
主成分
外文名
Principal Component Analysis
簡    稱
PCA
又    稱
主分量分析
應    用
人口統計學數量地理學
學    科
數學
作    用
降維 [1] 

目錄

主成分分析歷史

1846年,Bracais提出的旋轉多元正態橢球到“主座標”上,使得新變量之間相互獨立。 [2]  皮爾遜(Pearson)(1901)、霍特林(Hotelling)(1933)都對主成分的發展做出了貢獻,霍特林的推導模式被視為主成分模型的成熟標誌。 [2]  主成分分析被廣泛應用於區域經濟發展評價,服裝標準制定,滿意度測評模式識別圖像壓縮等許多領域。 [2] 

主成分分析原理

在用統計分析方法研究多變量的課題時,變量個數太多就會增加課題的複雜性。人們自然希望變量個數較少而得到的信息較多。在很多情形,變量之間是有一定的相關關係的,當兩個變量之間有一定相關關係時,可以解釋為這兩個變量反映此課題的信息有一定的重疊。主成分分析是對於原先提出的所有變量,將重複的變量(關係緊密的變量)刪去多餘,建立儘可能少的新變量,使得這些新變量是兩兩不相關的,而且這些新變量在反映課題的信息方面儘可能保持原有的信息。
設法將原來變量重新組合成一組新的互相無關的幾個綜合變量,同時根據實際需要從中可以取出幾個較少的綜合變量儘可能多地反映原來變量的信息的統計方法叫做主成分分析或稱主分量分析,也是數學上用來降維的一種方法。 [3] 

主成分分析應用學科

主成分分析作為基礎的數學分析方法,其實際應用十分廣泛,比如人口統計學數量地理學分子動力學模擬、數學建模、數理分析等學科中均有應用,是一種常用的多變量分析方法。 [4] 

主成分分析內容

基本思想
主成分分析是設法將原來眾多具有一定相關性(比如P個指標),重新組合成一組新的互相無關的綜合指標來代替原來的指標。
主成分分析,是考察多個變量間相關性一種多元統計方法,研究如何通過少數幾個主成分來揭示多個變量間的內部結構,即從原始變量中導出少數幾個主成分,使它們儘可能多地保留原始變量的信息,且彼此間互不相關.通常數學上的處理就是將原來P個指標作線性組合,作為新的綜合指標。
最經典的做法就是用F1(選取的第一個線性組合,即第一個綜合指標)的方差來表達,即Var(F1)越大,表示F1包含的信息越多。因此在所有的線性組合中選取的F1應該是方差最大的,故稱F1為第一主成分。如果第一主成分不足以代表原來P個指標的信息,再考慮選取F2即選第二個線性組合,為了有效地反映原來信息,F1已有的信息就不需要再出現在F2中,用數學語言表達就是要求Cov(F1, F2)=0,則稱F2為第二主成分,依此類推可以構造出第三、第四,……,第P個主成分。 [4] 
步驟
Fp = a1i*ZX1 + a2i*ZX2 + …… + api*ZXp
其中a1i, a2i, ……,api(i=1,……,m)為X的協方差陣Σ的特徵值所對應的特徵向量,ZX1, ZX2, ……, ZXp是原始變量經過標準化處理的值,因為在實際應用中,往往存在指標的量綱不同,所以在計算之前須先消除量綱的影響,而將原始數據標準化,本文所採用的數據就存在量綱影響[注:本文指的數據標準化是指Z標準化]。
A = (aij)p×m = (a1,a2,…am),Rai = λiai,R為相關係數矩陣,λi、ai是相應的特徵值和單位特徵向量,λ1 ≥ λ2 ≥ …≥ λp ≥ 0 。
進行主成分分析主要步驟如下:
1. 指標數據標準化SPSS軟件自動執行);
2. 指標之間的相關性判定;
3. 確定主成分個數m;
4. 主成分Fi表達式;
5. 主成分Fi命名。 [4] 
主成分分析法的計算步驟 主成分分析法的計算步驟
主成分分析法的基本原理
主成分分析法是一種降維的統計方法,它藉助於一個正交變換,將其分量相關的原隨機向量轉化成其分量不相關的新隨機向量,這在代數上表現為將原隨機向量的協方差陣變換成對角形陣,在幾何上表現為將原座標系變換成新的正交座標系,使之指向樣本點散佈最開的p 個正交方向,然後對多維變量系統進行降維處理,使之能以一個較高的精度轉換成低維變量系統,再通過構造適當的價值函數,進一步把低維繫統轉化成一維繫統。
主成分分析的原理是設法將原來變量重新組合成一組新的相互無關的幾個綜合變量,同時根據實際需要從中可以取出幾個較少的總和變量儘可能多地反映原來變量的信息的統計方法叫做主成分分析或稱主分量分析,也是數學上處理降維的一種方法。主成分分析是設法將原來眾多具有一定相關性(比如P個指標),重新組合成一組新的互相無關的綜合指標來代替原來的指標。通常數學上的處理就是將原來P個指標作線性組合,作為新的綜合指標。最經典的做法就是用F1(選取的第一個線性組合,即第一個綜合指標)的方差來表達,即Va(rF1)越大,表示F1包含的信息越多。因此在所有的線性組合中選取的F1應該是方差最大的,故稱F1為第一主成分。如果第一主成分不足以代表原來P個指標的信息,再考慮選取F2即選第二個線性組合,為了有效地反映原來信息,F1已有的信息就不需要再出現再F2中,用數學語言表達就是要求Cov(F1,F2)=0,則稱F2為第二主成分,依此類推可以構造出第三、第四,……,第P個主成分。 [4] 
主成分分析的主要作用
概括起來説,主成分分析主要有以下幾個方面的作用。
1.主成分分析能降低所研究的數據空間的維數。即用研究m維的Y空間代替p維的X空間(m<p),而低維的Y空間代替高維的x空間所損失的信息很少。即:使只有一個主成分Yl(即 m=1)時,這個Yl仍是使用全部X變量(p個)得到的。例如要計算Yl的均值也得使用全部x的均值。在所選的前m個主成分中,如果某個Xi的係數全部近似於零的話,就可以把這個Xi刪除,這也是一種刪除多餘變量的方法。
2.有時可通過因子負荷aij的結論,弄清X變量間的某些關係。
3.多維數據的一種圖形表示方法。我們知道當維數大於3時便不能畫出幾何圖形,多元統計研究的問題大都多於3個變量。要把研究的問題用圖形表示出來是不可能的。然而,經過主成分分析後,我們可以選取前兩個主成分或其中某兩個主成分,根據主成分的得分,畫出n個樣品在二維平面上的分佈況,由圖形可直觀地看出各樣品在主分量中的地位,進而還可以對樣本進行分類處理,可以由圖形發現遠離大多數樣本點的離羣點。
4.由主成分分析法構造迴歸模型。即把各主成分作為新自變量代替原來自變量x做迴歸分析
5.用主成分分析篩選迴歸變量。迴歸變量的選擇有着重的實際意義,為了使模型本身易於做結構分析、控制和預報,好從原始變量所構成的子集合中選擇最佳變量,構成最佳變量集合。用主成分分析篩選變量,可以用較少的計算量來選擇量,獲得選擇最佳變量子集合的效果。 [3] 
參考資料
  • 1.    周志華.機器學習.北京:清華大學出版社,2016:229
  • 2.    杜子芳.多元統計分析.北京:清華大學出版社,2016:240-241
  • 3.    韓小孩,張耀輝,孫福軍,王少華. 基於主成分分析的指標權重確定方法[J]. 四川兵工學報,2012,33(10):124-126.
  • 4.    林海明,杜子芳. 主成分分析綜合評價應該注意的問題[J]. 統計研究,2013,30(08):25-31