複製鏈接
請複製以下鏈接發送給好友

逐步迴歸

鎖定
逐步迴歸分析方法的基本思路是自動從大量可供選擇的變量中選取最重要的變量,建立迴歸分析的預測或者解釋模型。其基本思想是:將自變量逐個引入,引入的條件是其偏回歸平方和經檢驗後是顯著的。同時,每引入一個新的自變量後,要對舊的自變量逐個檢驗,剔除偏回歸平方和不顯著的自變量。這樣一直邊引入邊剔除,直到既無新變量引入也無舊變量刪除為止。它的實質是建立“最優”的多元線性迴歸方程。 [2] 
依據上述思想,可利用逐步迴歸篩選並剔除引起多重共線性的變量,其具體步驟如下:先用被解釋變量對每一個所考慮的解釋變量做簡單迴歸,然後以對被解釋變量貢獻最大的解釋變量所對應的迴歸方程為基礎,再逐步引入其餘解釋變量。經過逐步迴歸,使得最後保留在模型中的解釋變量既是重要的,又沒有嚴重多重共線性
中文名
逐步迴歸
外文名
stepwise regression
效應不顯著
停止引入新自變量
需    要
進行F檢驗

逐步迴歸簡介

逐步迴歸是一種線性迴歸模型自變量選擇方法,其基本思想是將變量一個一個引入,引入的條件是其偏回歸平方和經驗是顯著的。同時,每引入一個新變量後,對已入選迴歸模型的老變量逐個進行檢驗,將經檢驗認為不顯著的變量刪除,以保證所得自變量子集中每一個變量都是顯著的。此過程經過若干步直到不能再引入新變量為止。這時迴歸模型中所有變量對因變量都是顯著的。

逐步迴歸逐步型選元法

逐步迴歸法選擇變量的過程包含兩個基本步驟:一是從迴歸模型中剔出經檢驗不顯著的變量,二是引入新變量到迴歸模型中,常用的逐步型選元法有向前法和向後法。
向前法:向前法的思想是變量由少到多,每次增加一個,直至沒有可引入的變量為止。具體步驟如下。
步驟1:對 p 個迴歸自變量
分別同因變量 Y 建立一元迴歸模型
計算變量
,相應的迴歸係數的 F 檢驗統計量的值,記為
,取其中的最大值
,即
對給定的顯著性水平
,記相應的臨界值為
,則將
引入迴歸模型,記
為選入變量指標集合。
步驟2:建立因變量 Y 與自變量子集
的二元迴歸模型(即此迴歸模型的迴歸元為二元的),共有
個。計算變量的迴歸係數 F 檢驗的統計量值,記為
,選其中最大者,記為
,對應自變量腳標記為
,即
對給定的顯著性水平
,記相應的臨界值為
則變量
引入迴歸模型。否則,終止變量引入過程。
步驟3:考慮因變量對變量子集
的迴歸重複步驟2。
依此方法重複進行,每次從未引入迴歸模型的自變量中選取一個,直到經檢驗沒有變量引入為止。
向後法與向前法正好相反,它事先將全部自變量選入迴歸模型,然後逐個剔除對殘差平方和貢獻較小的自變量。 [1] 
後退法:與前進法相反,開始時先擬合包含所有自變量的迴歸方程,並預先指定留在迴歸方程中而不被剔除的自變量的假設檢驗標準。然後按自變量對應變量Y的貢獻大小從小到大進行檢驗,對無統計學意義的自變量依次剔除。每剔除一個自變量,都要重新計算並檢驗尚未被剔除自變量對應變量Y的貢獻並決定是否剔除對模型貢獻最小的自變量。重複上述過程,直到迴歸方程中的自變量均符合留在方程中的給定標準,沒有自變量可被剔除為止。在整個過程中只考慮剔除自變量,自變量一旦被剔除,則不再考慮引入迴歸方程。 [3] 

逐步迴歸實施過程

逐步迴歸分析的實施過程是每一步都要對已引入迴歸方程的變量計算其偏迴歸平方和(即貢獻),然後選一個偏回歸平方和最小的變量,在預先給定的水平下進行顯著性檢驗,若顯著則該變量不必從迴歸方程中剔除,這時方程中其他幾個變量也都不需要剔除(因為其他幾個變量的偏回歸平方和都大於最小的一個更不需要剔除)。相反,如果不顯著,則該變量需要剔除,然後按偏回歸平方和由小到大地依次對方程中其他變量進行檢驗。將對影響不顯著的變量全部剔除,保留的都是顯著的。接着再對未引入迴歸方程中的變量分別計算其偏回歸平方和,並選其中偏回歸方程和最大的一個變量,同樣在給定水平下作顯著性檢驗,如果顯著則將該變量引入迴歸方程,這一過程一直持續下去,直到在迴歸方程中的變量都不能剔除而又無新變量可以引入時為止,這時逐步迴歸過程結束。
參考資料
  • 1.    王元,文蘭,陳木法.數學大辭典:科學出版社,2010
  • 2.    餘繼峯,張濤,宋召軍主編. 高等教育“十三五”規劃教材 數學地質方法與應用[M]. 徐州:中國礦業大學出版社, 2019.02.53頁
  • 3.    張明芝,李紅美,呂大兵主編;湯在祥,裴育芳副主編. 實用醫學統計學與SAS應用[M]. 蘇州:蘇州大學出版社, 2015.09.331頁