複製鏈接
請複製以下鏈接發送給好友

迴歸診斷

鎖定
迴歸診斷是對迴歸分析中的假設以及數據的檢驗與分析。通常包含兩方面的內容:(1)檢驗迴歸分析中的假設是否合理。如在線性迴歸模型中,通常假設隨機誤差之間獨立,期望為零以及方差相同,或者進一步假設它們服從正態分佈,迴歸診斷所要解決的問題之一是檢驗這些假設是否合理,如果這些假設不合理,對數據作怎樣的修正後,能使它們滿足或近似滿足這些假設。(2)對數據的診斷,檢驗觀測值中是否有異常數據,在有異常數據時如何處置。 [1] 
中文名
迴歸診斷
外文名
regression diagnostics
所屬領域
數理科學
應    用
迴歸分析
定    義
對迴歸分析中的假設以及數據的檢驗與分析

迴歸診斷概念

迴歸診斷主要用於檢驗關於迴歸假設是否成立,以及檢驗模型形式是否錯誤,否則我們通過最小二乘法求得的迴歸方程就缺乏理論依據。這些檢驗主要探究的問題為:
1) 殘差是否為隨機性、是否為正態性、是否不為異方差;
2)高度相關的自變量是否引起了共線性
3)模型的函數形式是否錯誤或在模型中是否缺少重要的自變量;
4)樣本數據中是否存在異常值。

迴歸診斷發展歷程

隨着高速電子計算機的日益廣泛應用,迴歸分析愈來愈成為各個領域科技工作者分析數據的一種常用工具。但是,在長期地廣泛實際應用中,人們逐漸地發現經典的最小二乘估計的結果並不總是令人滿意,於是統計學家們從多方面進行努力試圖改進最小二乘估計,例如,為了克服設計陣的病態性,提出了以嶺估計為代表的多種有偏估計。為了解決自變量個數較多的大型迴歸模型的變量取捨問題,提出了眾多的迴歸自變量選擇準則和算法。為了克服最小二乘估計對異常值的敏感性,提出了各種穩健迴歸。為了考察模型假設條件的合理性及數據對統計推斷影響大小,逐漸發展起來了“迴歸診斷”這一新的研究領域。以上諸方面的新結果構成了迴歸分析近期發展的主體。

迴歸診斷分類

從總體上講,迴歸診斷尚屬較新的研究分支,因此關於它的研究範圍及採用的術語,在各家筆下也不盡相同。這裏,把殘差分析、數據變換和影響分析等統統包羅在迴歸診斷這個總題目下。這是因為殘差分析和數據變換可以看作模型的診斷,而影響分析則看作數據的診斷 [2] 

迴歸診斷1.殘差分析

迴歸診斷中要解決的第一個基本問題——模型假設的合理性,不少文獻概括為殘差分析。這是因為這個問題的解決在很大程度是靠對殘差作種種統計分析來實現。
在迴歸診斷中,殘差分析的發展雖然相對説來比較早,但也只是廿年前的事.究其原因主要是這類問題計算量都很大,只有現代電子計算技術得到廣泛應用之後,它的研究和應用才能成為可能。
殘差是最重要的一種迴歸診斷量,它藴含了有關模型基本假設的許多重要信息。殘差分折就是對殘差進行統計處理,從中提煉出這些信息的方法.基於不同的考慮和模型的不同用處,人們定義了許多種殘差——普通殘差,學生化殘差,遞歸殘差、偏殘差等。
殘差圖是殘差分析的一個重要工具.它通過簡單的圖示直觀地顯示出殘差的各種趨勢,以更方便診斷出模型假設的某些不合理性。

迴歸診斷2.數據變換

當對數據作了殘差分析,,發現模型的某些假設不滿足或不能近似滿足時,我們需要對數據作適當變換。在這裏,最重要的變換類是Box-Cox的冪變換,它已得到廣泛應用。
這方面的近期研究多集中在如下三方面:
1.針對特殊分佈類的Box-Cox變換的修正;
2.變換參數的估計;
3.數據對變換參數的影響。

迴歸診斷3.影響分析

迴歸診斷所要研究的另一個重要問題是,探查對統計推斷(如估計或預測)有較大影響的試驗數據。説話方便起見,我們沿用一些文獻的術語,稱其為影響分析(Influence Analysis)。
與殘差分析相比,影響分析的發展比較晚,大致是十年前的事。但近年來發展比較快,雖然研究還侷限於一組數據或多組數據的影響問題,但研究的領域已經遠遠超出了線性迴歸的範圍,在非線性迴歸,1091就回歸,時間序列分析以及主成分分析等方面已經出現了一些工作。
一般説來,我們期望每組數據
對統計推斷都有一定影響,但這種影響又不要過大,不然的話,如果某組數據的影響過大,那末包含這組數據的經驗迴歸方程與不包含這組數據的經驗迴歸方程差異很大,於是經驗迴歸方程關於數據就不具有“穩定”性。
在這裏,需要研究兩個基本問題:一是模型擾動的方式;二是度量擾動對統計推斷影響大小的標準。
對前一問題,研究所採用的擾動方式多為每次剔除一組或多組數據.這似乎沒有更多討論的餘地.而對後一個問題,人們從各種不同的角度出發,提出了許多度量影響的標準。如Cook距離、AP-統計量、似然距離等 [3] 

迴歸診斷未來發展

迴歸診斷已經有了一定的發展,但現有的結果還遠遠不能滿足應用實踐的需要。為了不同的目的,還需要引進一些新的診斷量。此外,診斷方法一般計算量都很大,因此建立節省的算法也是很迫切的。面對着這些情況,對迴歸診斷的研究提出了一些原則 [4]  ,歸納起來主要有
1.診斷方法在正確模型和某些條件不滿足的模型下的統計性質應該是已知的或近似已知;
2.診斷量應當儘可能從模型參數化來導出,這樣就把模型診斷問題歸結為參數推斷;
3.好的診斷量應當有有效的圖法;
4.診斷方法本身應該建議數據的“治療”方案。
參考資料
  • 1.    陸雄文.管理學大辭典:上海辭書出版社,2013年
  • 2.    [1]王松桂. 迴歸診斷髮展綜述[J]. 應用概率統計,1988,03:310-321.
  • 3.    [2]王斌會,徐勇勇. 迴歸診斷中幾種影響診斷量的比較[J]. 數理統計與應用概率,1995,01:1-6.
  • 4.    [3]胡章剛. 線性迴歸診斷若干問題研究[D].武漢科技大學,2010.