-
相關分析
鎖定
- 中文名
- 相關分析
- 外文名
- correlation analysis
- 分 類
- 數學
- 特 點
- 非確定關係
- 相 關
- 散點圖
相關分析簡介
相關分析就是對總體中確實具有聯繫的標誌進行分析,其主體是對總體中具有因果關係標誌的分析。它是描述客觀事物相互間關係的密切程度並用適當的統計指標表示出來的過程。在一段時期內出生率隨經濟水平上升而上升,這説明兩指標間是正相關關係;而在另一時期,隨着經濟水平進一步發展,出現出生率下降的現象,兩指標間就是負相關關係。
為了確定相關變量之間的關係,首先應該收集一些數據,這些數據應該是成對的。例如,每人的身高和體重。然後在直角座標系上描述這些點,這一組點集稱為“散點圖”。
根據散點圖,當自變量取某一值時,因變量對應為一概率分佈,如果對於所有的自變量取值的概率分佈都相同,則説明因變量和自變量是沒有相關關係的。反之,如果,自變量的取值不同,因變量的分佈也不同,則説明兩者是存在相關關係的。
兩個變量之間的相關程度通過相關係數r來表示。相關係數r的值在-1和1之間,但可以是此範圍內的任何值。正相關時,r值在0和1之間,散點圖是斜向上的,這時一個變量增加,另一個變量也增加;負相關時,r值在-1和0之間,散點圖是斜向下的,此時一個變量增加,另一個變量將減少。r的絕對值越接近1,兩變量的關聯程度越強,r的絕對值越接近0,兩變量的關聯程度越弱。
相關分析分類
1、按相關的程度分為完全相關、不完全相關和不相關
1)兩種依存關係的標誌,其中一個標誌的數量變化由另一個標誌的數量變化所確定,則稱完全相關,也稱函數關係。
2)兩個標誌彼此互不影響,其數量變化各自獨立,稱為不相關。
3)兩個現象之間的關係,介乎完全相關與不相關之間稱不完全相關。
2、按相關的方向分為正相關和負相關
1)正相關指相關關係表現為因素標誌和結果標誌的數量變動方向一致。
2)負相關指相關關係表現為因素標誌和結果標誌的數量變動方向是相反的。
3、按相關的形式分為線性相關和非線性相關
一種現象的一個數值和另一現象相應的數值在直角座標系中確定為一個點,稱為線性相關。
4、按影響因素的多少分為單相關和複相關
1)如果研究的是一個結果標誌同某一因素標誌相關,就稱單相關。
2)如果分析若干因素標誌對結果標誌的影響,稱為複相關或多元相關。
相關分析相關關係
相關分析與迴歸分析在實際應用中有密切關係。然而在迴歸分析中,所關心的是一個隨機變量Y對另一個(或一組)隨機變量X的依賴關係的函數形式。而在相關分析中 ,所討論的變量的地位一樣,分析側重於隨機變量之間的種種相關特徵。例如,以X、Y分別記小學生的數學與語文成績,感興趣的是二者的關係如何,而不在於由X去預測Y。
確定相關關係的存在,相關關係呈現的形態和方向,相關關係的密切程度。其主要方法是繪製相關圖表和計算相關係數。
1)相關表
編制相關表前首先要通過實際調查取得一系列成對的標誌值資料作為相關分析的原始數據。
相關表的分類:簡單相關表和分組相關表。單變量分組相關表:自變量分組並計算次數,而對應的因變量不分組,只計算其平均值;該表特點:使冗長的資料簡化,能夠更清晰地反映出兩變量之間相關關係。雙變量分組相關表:自變量和因變量都進行分組而製成的相關表,這種表形似棋盤,故又稱棋盤式相關表。
2)相關圖
利用直角座標系第一象限,把自變量置於橫軸上,因變量置於縱軸上,而將兩變量相對應的變量值用座標點形式描繪出來,用以表明相關點分佈狀況的圖形。相關圖被形象地稱為相關散點圖。因素標誌分了組,結果標誌表現為組平均數,所繪製的相關圖就是一條折線,這種折線又叫相關曲線。
3)相關係數
2、確定相關關係的數學表達式。
3、確定因變量估計值誤差的程度。
相關分析複相關
研究一個變量 x0與另一組變量 (x1,x2,…,xn)之間的相關程度。例如,職業聲望同時受到一系列因素(收入、文化、權力……)的影響,那麼這一系列因素的總和與職業聲望之間的關係,就是複相關。複相關係數R0.12…n的測定,可先求出 x0對一組變量x1,x2,…,xn的迴歸直線,再計算x0與用迴歸直線估計值憫之間的簡單直線迴歸。複相關係數為
R0.12…n的取值範圍為0≤R0.12…n≤1。複相關係數值愈大,變量間的關係愈密切。
相關分析偏相關
研究在多變量的情況下,當控制其他變量影響後,兩個變量間的直線相關程度。又稱淨相關或部分相關。例如,偏相關係數 r13.2表示控制變量x2的影響之後,變量 x1和變量x3之間的直線相關。偏相關係數較簡單直線相關係數更能真實反映兩變量間的聯繫。
偏相關係數、複相關係數、簡單直線相關係數之間存在着一定的關係。以3個變量x1,x2,x3為例,它們有如下的關係:
相關分析定序變量
討論兩個定序變量間的相關的程度與方向。又稱等級相關。例如,研究夫婦雙方文化程度的相關等。等級相關係數有R係數和γ係數。
X,Y分別為x,y的測量值的等級。
英國統計學家 C.E.斯皮爾曼從R係數中推導出簡捷式,稱斯皮爾曼等級相關係數:
γ係數 適用於資料次數N 很大的情況。
同序對錶示兩個個案(xi,yi)和(xj,yj)相比時,具有xi>xj,則yi>yj的性質;反之,若xi>xj,但yi<yj,則稱作一個異序對。
γ係數的取值範圍在〔-1,+1〕之間。γ的絕對值愈大,變量間的等級相關程度愈大
[2]
。
- 參考資料
-
- 1. 陸雄文.管理學大辭典:上海辭書出版社,2013年
- 2. 梁吉業,馮晨嬌,宋鵬等.大數據相關分析綜述[J].計算機學報,2016,(1):1-18. .萬方數據庫[引用日期2017-09-13]