複製鏈接
請複製以下鏈接發送給好友

多重線性迴歸

鎖定
多重線性迴歸(multiple linear regression) 是簡單直線迴歸的推廣,研究一個因變量與多個自變量之間的數量依存關係。多重線性迴歸用迴歸方程描述一個因變量與多個自變量的依存關係,簡稱多重回歸
中文名
多重線性迴歸
外文名
multiple linear regression
簡    稱
多重回歸
所屬學科
數學
相關概念
偏回歸係數,殘差,多重共線性等

多重線性迴歸基本信息

多重線性迴歸的數學模型為:
式中,
為因變量,是隨機定量的觀察值;
個自變量;
為常數項,
稱為偏回歸係數(partial regression cofficient) 。
表示在其他自變量固定不變的情況下,自變量
每改變一個單位時,其單獨引起因變量y的平均改變量。
為隨機誤差,又稱為殘差(residual),它是y的變化中不能用自變量解釋的部分,服從
分佈。
由樣本估計的多重線性迴歸方程為:
式中,
為在各x取一組定值時,因變量y的平均估計值或平均預測值。
的樣本估計值。
不能直接用各自變量的普通偏回歸係數的數值大小來比較方程中它們對因變量y的貢獻大小,因為p個自變量的計量單位及變異度不同。可將原始數據進行標準化,即
然後用標準化的數據進行迴歸模型擬合,此時獲得的迴歸係數記為
,稱為標準化偏回歸係數(standardized partial regression coefficient ),又稱為通徑係數(pathcoefficient)。標準化偏回歸係數
絕對值較大的自變量對因變量y的貢獻大 [1] 

多重線性迴歸參數估計

多重線性迴歸分析中迴歸係數的估計也是通過最小二乘法(method of least square),即尋找適宜的係數
使得因變量殘差平方和達到最小。其基本原理是: 利用觀察或收集到的因變量和自變量的一組數據建立一個線性函數模型,使得這個模型的理論值與觀察值之間的離均差平方和最小。

多重線性迴歸假設檢驗

建立的迴歸方程是否符合資料特點,以及能否恰當地反映因變量y與p個自變量的數量依存關係,就必須對該模型進行檢驗。
1.迴歸方程的檢驗與評價。無效假設
;備擇假設
不全為0。檢驗統計量為F,計算公式為:
其中:
表示S
表示S殘。
2.自變量的假設檢驗。
(1) 偏回歸平方和檢驗。迴歸方程中某一自變量
的偏迴歸平方和(sum of squaresfor partial regression),表示從模型中剔除
後引起的迴歸平方和的減少量。偏回歸平方和用SS迴歸
表示,其大小説明相應自變量的重要性。
檢驗統計量F的計算公式為:
(2) 偏回歸係數的
檢驗。偏回歸係數的t檢驗是在迴歸方程具有統計學意義的情況下,檢驗某個總體偏回歸係數是否等於0的假設檢驗,以判斷相應的自變量是否對因變量y的變異確有貢獻。
檢驗統計量t的計算公式為:
式中,
為第
偏回歸係數的標準誤 [1] 

多重線性迴歸自變量的選擇

在許多多重線性迴歸中,模型中包含的自變量沒有辦法事先確定,如果把一些不重要的或者對因變量影響很弱的變量引人模型,則會降低模型的精度。所以自變量的選擇是必要的,其基本思路是: 儘可能將對因變量影響大的自變量選入迴歸方程中,並儘可能將對因變量影響小的自變量排除在外,即建立所謂的“最優”方程。
1.篩選標準與原則。對於自變量各種不同組合建立的迴歸模型,使用全局擇優法選擇“最優”的迴歸模型。
(1) 殘差平方和縮小與決定係數增大。如果引人一個自變量後模型的殘差平方和減少很多,那麼説明該自變量對因變量y貢獻大,將其引入模型;反之,説明該自變量對因變量y貢獻小,不應將其引入模型。另一方面,如果某一變量剔除後模型的殘差平方和增加很多,則説明該自變量對因變量y貢獻大,不應被剔除;反之,説明該自變量對因變量y貢獻小,應被剔除。決定係數增大與殘差平方和縮小完全等價。
(2) 殘差均方縮小與調整決定係數增大。殘差均方縮小的準則是在殘差平方和縮小準則基礎上增加了
因子,它隨模型中自變量p的增加而增加,體現出對模型中自變量個數增加所實施的懲罰。調整決定係數增大與殘差均方縮小完全等價。
(3)
統計量。由C.L.Mallows提出,其定義為:
式中,
為全模型的殘差均方估計; q為所選模型中(包括常數項) 的自變量個數。如果含q個自變量的模型是合適的,則其殘差平方和的期望
。假定全模型的殘差均方估計的期望
真,則
近似等於
,因此
的期望近似等於模型中參數的個數,即
。用
值對參數個數q繪製散點圖,將顯示“合適模型”的散點在直線
附近,擬合不佳的模型遠離此線。
2.自變量篩選常用方法。常用方法如下:
(1) 前進法(forward selection)。事先定一個選人自變量的標準。開始時,方程中只含常數項,按自變量對y的貢獻大小由大到小依次選入方程。每選入一個自變量,則要重新計算方程外各自變量(剔除已選人變量的影響後) 對y的貢獻,直到方程外變量均達不到選入標準為止。變量一旦進人模型,就不會被剔除。
(2) 後退法(backward selection)。事先定一個剔除自變量的標準。開始時,方程中包含全部自變量,按自變量y對的貢獻大小由小到大依次剔除。每剔除一個變量,則重新計算未被剔除的各變量對y的貢獻大小,直到方程中所有變量均不符合剔除標準,沒有變量可被剔除為止。自變量一旦被剔除,則不考慮進入模型。
(3) 逐步迴歸法(stepwise selection)。本法區別於前進法的根本之處是每引人一個自變量,都會對已在方程中的變量進行檢驗,對符合剔除標準的變量要逐一剔除 [1] 

多重線性迴歸解決方案

多重共線性(multi-colinearity) 是進行多重回歸分析時存在的一個普遍問題。多重共線性是指自變量之間存在近似的線性關係,即某個自變量能近似地用其他自變量的線性函數來表示。在實際迴歸分析應用中,自變量間完全獨立很難,所以共線性的問題並不少見。自變量一般程度上的相關不會對迴歸結果造成嚴重的影響,然而,當共線性趨勢非常明顯時,它就會對模型的擬合帶來嚴重影響。
(1) 偏回歸係數的估計值大小甚至是方向明顯與常識不相符。
(2) 從專業角度看對因變量有影響的因素,卻不能選入方程中。
(3) 去掉一兩個記錄或變量,方程的迴歸係數值發生劇烈的變化,非常不穩定。
(4) 整個模型的檢驗有統計學意義,而模型包含的所有自變量均無統計學意義。
當出現以上情況時,就需要考慮是不是變量之間存在多重共線性
多重共線性的診斷
在做多重回歸分析的共線性診斷時,首先要對所有變量進行標準化處理。SPSS中可以通過以下指標來輔助判斷有無多重共線性存在。
(1) 相關係數。通過做自變量間的散點圖觀察或者計算相關係數判斷,看是否有一些自變量間的相關係數很高。一般來説,2個自變量的相關係數超過0.9,對模型的影響很大,將會出現共線性引起的問題。這隻能做初步的判斷,並不全面。
(2) 容忍度(tolerance)。以每個自變量作為因變量對其他自變量進行迴歸分析時得到的殘差比例,大小用1減去決定係數來表示。該指標值越小,則説明被其他自變量預測的精度越高,共線性可能越嚴重。
(3) 方差膨脹因子(variance inflation factor,VIF)。方差膨脹因子是容忍度的倒數,VIF越大,顯示共線性越嚴重。VIF>10時,提示有嚴重的多重共線性存在。
(4) 特徵根(eigenvalue)。實際上是對自變量進行主成分分析,如果特徵根為0,則提示有嚴重的共線性。
(5) 條件指數(condition index)。當某些維度的該指標大於30時,則提示存在共線性。
共線性解決方案
自變量間確實存在多重共線性,直接採用多重回歸得到的模型肯定是不可信的,此時可以用下面的辦法解決。
(1) 增大樣本含量,能部分解決多重共線性問題。
(2) 把多種自變量篩選的方法結合起來擬合模型。建立一個“最優”的逐步迴歸方程,但同時丟失一部分可利用的信息。
(3) 從專業知識出發進行判斷,去除專業上認為次要的,或者是缺失值比較多、測量誤差較大的共線性因子。
(4) 進行主成分分析,提取公因子代替原變量進行迴歸分析。
(5) 進行嶺迴歸分析,可以有效解決多重共線性問題。
(6) 進行通徑分析(path analysis),可以對應自變量間的複雜關係精細刻畫 [1] 
參考資料
  • 1.    孫向東,劉擁軍,王幼明.動物疫病風險分析:中國農業出版社,2015.12