複製鏈接
請複製以下鏈接發送給好友

cook距離

鎖定
Cook距離是統計分析中一種常見的距離,用於診斷各種迴歸分析中是否存在異常數據。較大的Cook距離表明從迴歸統計量和計算中排除個案之後,係數會發生根本變化 [1] 
中文名
Cook距離
外文名
Cook distance
學    科
統計學

目錄

cook距離含義

在迴歸分析或方差分析模型中,測量某個觀測值對一組迴歸係數的影響。有影響的觀測值對模型具有不成比的影響,會產生誤導性結果。例如,一個顯著係數看上去可能並不顯著。有影響的觀測值可以是槓桿率點、異常值或這兩者。Cook 距離在確定對迴歸係數的影響時會同時考慮每個觀測值的槓桿率值和標準化殘差 [2] 

cook距離應用

一般來講,檢查 D 大於 F(0.5, p, n-p) 的觀測值是一個很好的方法,後者是 F 分佈的中位數,其中 p 是模型項數(包括常量),n 是觀測值數。另一種檢驗 D 值的方法是以圖形方式將它們與另一個值相比較(使用線條圖)。相對於其他觀測值,具有較大 D 值的觀測值可能是有影響的觀測值。
要確定影響程度,可以包含和不包含該影響觀測值來擬合模型,並比較係數、p 值、R2 和其他模型參數。如果在排除有影響的觀測值後模型有顯著變化,首先確定該觀測值是否是數據輸入或測量錯誤。如果都不是,則進一步檢查模型以確定是否忽略了重要項(例如,交互作用項)或變量,或者指定了錯誤的模型。您可能需要收集更多數據以解決此問題。
參考資料
  • 1.    廣義cook距離  .中國知網[引用日期2016-01-06]
  • 2.    王銘. 一般形式下的協方差分析模型的影響分析[D]. 雲南大學, 2004.