-
相關係數
鎖定
相關表和相關圖可反映兩個變量之間的相互關係及其相關方向,但無法確切地表明兩個變量之間相關的程度。相關係數是用以反映變量之間相關關係密切程度的統計指標。相關係數是按積差方法計算,同樣以兩變量與各自平均值的離差為基礎,通過兩個離差相乘來反映兩變量之間相關程度;着重研究線性的單相關係數。
需要説明的是,皮爾遜相關係數並不是唯一的相關係數,但是最常見的相關係數,以下解釋都是針對皮爾遜相關係數。
- 中文名
- 相關係數
- 外文名
- Correlation coefficient
- 基本釋義
- 度量兩個變量間的線性關係
- 常 用
- 皮爾遜相關係數
- 描 述
- 線性關係
- 特 點
- 無量綱
相關係數定義
相關關係是一種非確定性的關係,相關係數是研究變量之間線性相關程度的量。由於研究對象的不同,相關係數有如下幾種定義方式。
簡單相關係數:又叫相關係數或線性相關係數,一般用字母r表示,用來度量兩個變量間的線性關係。
典型相關係數:是先對原來各組變量進行主成分分析,得到新的線性關係的綜合指標,再通過綜合指標之間的線性相關係數來研究原各組變量間相關關係。
相關係數性質
這裏,
,
是一個可以表徵
和
之間線性關係緊密程度的量。它具有兩個性質:
(1)
(2)
的充要條件是,存在常數a,b,使得
由性質衍生:
a. 相關係數定量地刻畫了 X 和 Y的相關程度,即
越大,相關程度越大;
對應相關程度最低;
b. X 和Y 完全相關的含義是在概率為1的意義下存在線性關係,於是
是一個可以表徵X 和Y 之間線性關係緊密程度的量。當
較大時,通常説X 和Y相關程度較好;當
較小時,通常説X和Y相關程度較差;當X和Y不相關,通常認為X和Y之間不存在線性關係,但並不能排除X和Y之間可能存在其他關係。
[2]
相關係數不相關和獨立
若X和Y不相關,
,通常認為X和Y之間不存在線性關係,但並不能排除X和Y之間可能存在其他關係;若
,則X和Y不相關。
若X和Y獨立,則必有
,因而X和Y不相關;若X和Y不相關,則僅僅是不存在線性關係,可能存在其他關係,如
,X和Y不獨立。
相關係數生活示例
軟件公司在全國有許多代理商,為研究它的財務軟件產品的廣告投入與銷售額的關係,統計人員隨機選擇10家代理商進行觀察,蒐集到年廣告投入費和月平均銷售額的數據,並編製成相關表,見表1:
年廣告費投入 | 12.5 | 15.3 | 23.2 | 26.4 | 33.5 | 34.4 | 39.4 | 45.2 | 55.4 | 60.9 |
---|---|---|---|---|---|---|---|---|---|---|
月均銷售額 | 21.2 | 23.9 | 32.9 | 34.1 | 42.5 | 43.2 | 49.0 | 52.8 | 59.4 | 63.5 |
參照表1,可計算相關係數如表2:
序號 | 廣告投入(萬元) x | 月均銷售額(萬元) y | |||
---|---|---|---|---|---|
1 2 3 4 5 6 7 8 9 10 | 12.5 15.3 23.2 26.4 33.5 34.4 39.4 45.2 55.4 60.9 | 21.2 23.9 32.9 34.1 42.5 43.2 49.0 52.8 59.4 63.5 | 156.25 234.09 538.24 696.96 1122.25 1183.36 1552.36 2043.04 3069.16 3708.81 | 449.44 571.21 1082.41 1162.81 1806.25 1866.24 2401.00 2787.84 3528.36 4032.25 | 265.00 365.67 763.28 900.24 1423.75 1486.08 1930.60 2386.56 3290.76 3867.15 |
合計 | 346.2 | 422.5 | 14304.52 | 19687.81 | 16679.09 |
相關係數為0.9942,説明廣告投入費與月平均銷售額之間有高度的線性正相關關係。
相關係數應用
相關係數概率論
【例】若將一枚硬幣拋n次,X表示n次試驗中出現正面的次數,Y表示n次試驗中出現反面的次數。計算ρXY。
解:由於X+Y=n,則Y=-X+n,根據相關係數的性質推論,得ρXY = − 1。
相關係數企業物流
【例】一種新產品上市。在上市之前,公司的物流部需把新產品合理分配到全國的10個倉庫,新品上市一個月後,要評估實際分配方案與之前考慮的其他分配方案中,是實際分配方案好還是其中尚未使用的分配方案更好,通過這樣的評估,可以在下一次的新產品上市使用更準確的產品分配方案,以避免由於分配而產生的積壓和斷貨。表1是根據實際數據所列的數表。
通過計算,很容易得出這3個分配方案中,B的相關係數是最大的,這樣就評估到B的分配方案比實際分配方案A更好,在下一次的新產品上市分配計劃中,就可以考慮用B這種分配方法來計算實際分配方案。
相關係數聚類分析
【例】如果有若干個樣品,每個樣品有n個特徵,則相關係數可以表示兩個樣品間的相似程度。藉此,可以對樣品的親疏遠近進行距離聚類。例如9個小麥品種(分別用A1,A2,...,A9表示)的6個性狀資料見表2,作相關係數計算並檢驗。
由相關係數計算公式可計算出6個性狀間的相關係數,分析及檢驗結果見表3。由表3可以看出,冬季分櫱與每穗粒數之間呈現負相關(ρ = − 0.8982),即麥冬季分櫱越多,那麼每穗的小麥粒數越少,其他性狀之間的關係不顯著。
相關係數缺點
需要指出的是,相關係數有一個明顯的缺點,即它接近於1的程度與數據組數n相關,這容易給人一種假象。因為,當n較小時,相關係數的波動較大,對有些樣本相關係數的絕對值易接近於1;當n較大時,相關係數的絕對值容易偏小。特別是當n=2時,相關係數的絕對值總為1。因此在樣本容量n較小時,我們僅憑相關係數較大就判定變量x與y之間有密切的線性關係是不妥當的。