-
可決係數
鎖定
可決係數,亦稱測定係數、決定係數、可決指數。與複相關係數類似的,表示一個隨機變量與多個隨機變量關係的數字特徵,用來反映迴歸模式説明因變量變化可靠程度的一個統計指標,一般用符號“R”表示,可定義為已被模式中全部自變量説明的自變量的變差對自變量總變差的比值。
- 中文名
- 可決係數
- 外文名
- coefficient of determination
- 別 名
-
測定係數
決定係數
- 別 名
- 可決指數
- 所屬領域
- 概率論
- 表示符號
- R2
- 定 義
- 一個隨機變量與多個隨機變量關係的數字特徵
目錄
- 1 總變異的分割
- 2 樣本可決係數
- 3 相關係數與可決係數的關係
- 4 總體可決係數
可決係數總變異的分割
一個特定數值對於其平均值的偏離,稱為離差,而一變量的各數值對於其平均值的偏離,稱為變異。通常用離差平方和來描述變異程度。離差平方和又簡稱平方和(Sum of square)。在研究單變量的離中趨勢描述時,我們已經接觸了離差平方和的概念,樣本標準差
的定義公式中就直接使用了上述概念。平方和被相應的自由度去除,得到平均平方,簡稱為均方(Mean square)。樣本標準差就是被自由度(n-1)所平均的x對於
離差均方的算術平方根。下面我們將應用平方的概念去開發測度一個迴歸方程擬合協變關係效果的量數。
先結合圖1分析一下在因變量y倚自變量x迴歸前提下y值的離差。y值對其平均數
的離差可以看作是由兩部分合成的,一是y的迴歸擬合值對平均數的離差(
),另一是y值對於擬合值的離差(
)。前者呈線性變化,在
時,
=0,x取值越偏離
,這一離差就越大,存在着這樣的函數關係:
這一離差完全是由y倚x的迴歸關係決定的,因而稱為已解釋離差(Explained deviation)。後者呈隨機變化,與y倚x的迴歸關係無關,因而稱為未解釋離差(Unexplained deviation)。總離差與已解釋離差、未解釋離差的關係寫成公式是:
。
總離差的平方和,簡稱總平方和,用SST表示,又稱作總變差(Total variation)。已解釋離差的平方和,簡稱迴歸平方和,用SSR表示,又稱作已解釋變差(Explained variation)。未解釋離差的平方和,簡稱誤差平方和,用SSE表示,又稱作未解釋變差(Unexplained variation)。可以證明,由總離差的分解公式能推出總變差的分解公式:
,或:SST=SSR+SSE。將上式兩邊都除以
,得:已解釋變差/總變量 +未解釋變差/總變差=1,即
可決係數樣本可決係數
從公式(1)看到,若以總變差為基數,相對數
表示的是迴歸關係已經解釋的y值變異在其總變異中所佔的比率,而相對數
則表示迴歸關係不能解釋的y值變異在總變異中所佔的比率。前者正是我們要尋求的測度迴歸方程擬合y對x的協變關係效果的量數,稱為可決係數(Coefficient of determination)。產生於樣本數據的可決係數是樣本可決係數,用r2表示。在總體迴歸分析中,相對於樣本可決係數的是總體可決係數,用
表示。因此,樣本可決係數的定義公式是
[1]
:
可決係數相關係數與可決係數的關係
由
可以推導到
所以存在着這樣的關係:可決係數是相關係數的二次冪。因此,也可以在求得可決係數的基礎上計算相關係數,方法是將可決係數開平方,至於平方根的符號,則取與迴歸方程斜率b相同的符號。正是因為存在這樣的關係,我們用r2作為可決係數的符號,而沒有另用別的字母。
即然r和r2兩者問存有這樣的聯繫,那麼它們的描述分析作用是否相同呢?我們認為,儘管兩者對變量間協變關係的解釋有相通的一面,但是兩者間的區別也是不容忽視的。
首先,可決係數是在擬合迴歸方程後進一步評價它的解釋作用,而回歸分析有其具體目的和假定前提。相關係數直接用於相關分析,它只描述變量間協變關係的密切程度,而不問哪個是自變量,哪個是因變量,相關分析也有3條假設前提:
(1) X和Y均為隨機變量。
(2) X和Y均服從正態分佈,兩者不必相互獨立。
(3) 對於X所有取值,Y值的標準差都相等;對於Y所有取值,X值的標準差也都相等。
這樣看來,可決係數和相關係數所描述的問題性質不盡相同。
其次,可決係數取已解釋變差對總變差的比率形式,在運算上有直接的解釋意義。相關係數是沿交叉乘積和——協方差——相關係數的思想開發出來的,其最終公式形式不好作直接的解釋。儘管如此,在許多應用中,如果兩者都可以出現,我們還是更多地注意到r值
[1]
。
可決係數總體可決係數
總體可決係數是在總體中關於Y總變異中總體迴歸方程
已經解釋的變異所佔比重的描述量數。它用下式表示
不難發現,公式(2)與公式(4)略有不同,前者採用的是平方和比率的形式,而後者採用的是均方和比率的形式。