-
皮爾遜相關係數
鎖定
- 中文名
- 皮爾遜相關係數
- 外文名
- Pearson correlation coefficient
- 別 名
- 皮爾遜積矩相關係數
- 相關人物
- 卡爾·皮爾遜;弗朗西斯·高爾頓
- 學 科
- 統計學
皮爾遜相關係數函數介紹
在自然科學領域中,皮爾遜相關係數廣泛用於度量兩個變量之間的相關程度,其值介於-1與1之間。它是由卡爾·皮爾遜從弗朗西斯·高爾頓在19世紀80年代提出的一個相似卻又稍有不同的想法演變而來的。這個相關係數也稱作“皮爾遜積矩相關係數”。
圖1展示了幾組
的點集,以及各個點集中
和
之間的相關係數。我們可以發現相關係數反映的是變量之間的線性關係和相關性的方向(第一排),而不是相關性的斜率(中間),也不是各種非線性關係(第三排)。請注意:中間的圖中斜率為0,但相關係數是沒有意義的,因為此時變量
是0。
皮爾遜相關係數定義
皮爾遜相關係數數學特性
總體和樣本皮爾遜係數的絕對值小於或等於1。如果樣本數據點精確的落在直線上(計算樣本皮爾遜係數的情況),或者雙變量分佈完全在直線上(計算總體皮爾遜係數的情況),則相關係數等於1或-1。皮爾遜係數是對稱的:
。
皮爾遜相關係數有一個重要的數學特性是,因兩個變量的位置和尺度的變化並不會引起該係數的改變,即它該變化的不變量(由符號確定)。也就是説,我們如果把
移動到
和把Y移動到
,並不會改變兩個變量的相關係數(該結論在總體和樣本皮爾遜相關係數中都成立),其中a、b、c和d是常數。我們發現更一般的線性變換則會改變相關係數:
由於
,則
,
同理;
故相關係數也可以表示成
對於樣本皮爾遜相關係數:
以上方程給出了計算樣本皮爾遜相關係數簡單的單流程算法,但是其依賴於涉及到的數據,有時它可能是數值不穩定的。
皮爾遜相關係數解釋
皮爾遜相關係數的變化範圍為-1到1。 係數的值為1意味着X和Y可以很好的由直線方程來描述,所有的數據點都很好的落在一條直線上,且
隨着
的增加而增加。係數的值為−1意味着所有的數據點都落在直線上,且
隨着
的增加而減少。係數的值為0意味着兩個變量之間沒有線性關係。
更一般的, 我們發現,當且僅當
和
均落在他們各自的均值的同一側, 則
的值為正。 也就是説,如果
和
同時趨向於大於或小於其各自的均值,則相關係數為正。 如果
和
趨向於落在其均值的相反一側,則相關係數為負。
1.幾何學的解釋
對於沒有中心化的數據, 相關係數與兩條可能的迴歸線
(紅)和
(藍)夾角的餘弦值一致。
一般傾向於使用非中心化的相關係數, 比較如下:
例如,有5個國家的國民生產總值分別為10,20,30,50和80億美元。假設這5個國家 (順序相同) 的貧困百分比分別為11%,12%,13%,15%和18%。令x和y分別為包含上述5個數據的向量:x = (1, 2, 3, 5, 8) 和y ,= (0.11, 0.12, 0.13, 0.15, 0.18)。
利用通常的方法計算兩個向量之間的夾角
,未中心化的相關係數是:
2.皮爾遜距離
定義式為
,其值的區間為
。
皮爾遜相關係數分析
將
圍繞它們平均值上的變化分解為:
其中
是作迴歸分析時的適應值。 整理後得:
等式左邊表示由非
引起的變化,右邊兩個被加數表示由
引起的
的變化。
於是
等式表示
的線性方程會引起
的平均變化。