複製鏈接
請複製以下鏈接發送給好友

皮爾遜相關係數

鎖定
統計學中,皮爾遜相關係數( Pearson correlation coefficient),又稱皮爾遜積矩相關係數(Pearson product-moment correlation coefficient,簡稱 PPMCCPCCs),是用於度量兩個變量X和Y之間的相關(線性相關),其值介於-1與1之間。
中文名
皮爾遜相關係數
外文名
Pearson correlation coefficient
別    名
皮爾遜積矩相關係數
相關人物
卡爾·皮爾遜;弗朗西斯·高爾頓
學    科
統計學

皮爾遜相關係數函數介紹

在自然科學領域中,皮爾遜相關係數廣泛用於度量兩個變量之間的相關程度,其值介於-1與1之間。它是由卡爾·皮爾遜弗朗西斯·高爾頓在19世紀80年代提出的一個相似卻又稍有不同的想法演變而來的。這個相關係數也稱作“皮爾遜積矩相關係數”。
圖1. 皮爾遜相關係數舉例 圖1. 皮爾遜相關係數舉例
圖1展示了幾組
的點集,以及各個點集中
之間的相關係數。我們可以發現相關係數反映的是變量之間的線性關係和相關性的方向(第一排),而不是相關性的斜率(中間),也不是各種非線性關係(第三排)。請注意:中間的圖中斜率為0,但相關係數是沒有意義的,因為此時變量
是0。

皮爾遜相關係數定義

兩個變量之間的皮爾遜相關係數定義為兩個變量之間的協方差標準差的商:
上式定義了總體相關係數,常用希臘小寫字母
作為代表符號。估算樣本的協方差和標準差,可得到皮爾遜相關係數,常用英文小寫字母
代表:
亦可由
樣本點的標準分數均值估計,得到與上式等價的表達式:
其中
分別是對
樣本的標準分數、樣本平均值和樣本標準差

皮爾遜相關係數數學特性

總體和樣本皮爾遜係數的絕對值小於或等於1。如果樣本數據點精確的落在直線上(計算樣本皮爾遜係數的情況),或者雙變量分佈完全在直線上(計算總體皮爾遜係數的情況),則相關係數等於1或-1。皮爾遜係數是對稱的:
皮爾遜相關係數有一個重要的數學特性是,因兩個變量的位置和尺度的變化並不會引起該係數的改變,即它該變化的不變量(由符號確定)。也就是説,我們如果把
移動到
和把Y移動到
,並不會改變兩個變量的相關係數(該結論在總體和樣本皮爾遜相關係數中都成立),其中a、b、c和d是常數。我們發現更一般的線性變換則會改變相關係數:
由於
,則
同理;
故相關係數也可以表示成
對於樣本皮爾遜相關係數:
以上方程給出了計算樣本皮爾遜相關係數簡單的單流程算法,但是其依賴於涉及到的數據,有時它可能是數值不穩定的。

皮爾遜相關係數解釋

皮爾遜相關係數的變化範圍為-1到1。 係數的值為1意味着XY可以很好的由直線方程來描述,所有的數據點都很好的落在一條直線上,且
隨着
的增加而增加。係數的值為−1意味着所有的數據點都落在直線上,且
隨着
的增加而減少。係數的值為0意味着兩個變量之間沒有線性關係。
更一般的, 我們發現,當且僅當
均落在他們各自的均值的同一側, 則
的值為正。 也就是説,如果
同時趨向於大於或小於其各自的均值,則相關係數為正。 如果
趨向於落在其均值的相反一側,則相關係數為負。
1.幾何學的解釋
對於沒有中心化的數據, 相關係數與兩條可能的迴歸線
(紅)和
(藍)夾角的餘弦值一致。
對於中心化過的數據 (也就是説, 數據移動一個樣本平均值以使其均值為0), 相關係數也可以被視作由兩個隨機變量向量夾角
的餘弦值。
圖2. 皮爾遜相關係數的幾何解釋 圖2. 皮爾遜相關係數的幾何解釋
一般傾向於使用非中心化的相關係數, 比較如下:
例如,有5個國家的國民生產總值分別為10,20,30,50和80億美元。假設這5個國家 (順序相同) 的貧困百分比分別為11%,12%,13%,15%和18%。令xy分別為包含上述5個數據的向量:x = (1, 2, 3, 5, 8) 和y ,= (0.11, 0.12, 0.13, 0.15, 0.18)。
利用通常的方法計算兩個向量之間的夾角
,未中心化的相關係數是:
我們發現以上的數據完全相關:
。於是,皮爾遜相關係數應該等於1。將原始的xy數據通過
中心化 (
,
),得到新的
,此時:
2.皮爾遜距離
定義式為
,其值的區間為

皮爾遜相關係數分析

樣本相關係數的平方, 亦稱作決定係數(coefficient of determination),利用簡單線性迴歸估計由
引起的
的變化。
圍繞它們平均值上的變化分解為:
其中
是作迴歸分析時的適應值。 整理後得:
等式左邊表示由非
引起的變化,右邊兩個被加數表示由
引起的
的變化。
接下來, 我們利用最小方差迴歸模型, 使
的樣本協方差為0。 於是,觀測數據和適應值的樣本相關係數可以被寫成 [1] 
於是
等式表示
的線性方程會引起
的平均變化。
參考資料
  • 1.    [1]彭海. 皮爾遜相關係數應用於醫學信號相關度測量[J]. 電子世界,2017,07:163.