複製鏈接
請複製以下鏈接發送給好友

Mallows's Cp

鎖定
在統計學中,馬洛斯(Colin Lingwood Mallows)提出運用Cp [1-2]  去評估一個以普通最小二乘法(Ordinary Least Square或OLS)為假設的線性迴歸模型的優良性,從而用於模型選取(Model Selection)。當模型中含有多個自變量(Independent Variables或Explanatory Variables),使用Mallows’s Cp 可以為模型精選出自變量子集。Cp數值越小模型準確性越高。對於高斯線性模型(Gaussian Linear Regression),馬洛斯的Cp值被證明與赤池信息準則(Akaike Information Criterion或AIC)等效。 [3] 
其他模型選取方法還有貝葉斯信息準則(Bayesian Information Criterion 或BIC)以及調整後的R方(Adjusted R-Squared)。
中文名
馬洛斯Cp
外文名
Mallows's Cp
用    途
模型選取,優選自變量子集
學    科
統計

Mallows's Cp原理

模型選擇統計量如殘差平方和(Residual Sum of Squares)隨着模型包含的自變量數量增多而減少,由此可導致過度擬合(Overfitting)的問題,即自變量數量過多導致模型預測能力下降。藉助Mallows’s Cp 篩選自變量子集可以有效控制參數數量,從而達到優化模型的目的。Cp統計量的計算基於一個數據樣本,用於估計均方預測誤差(Mean Squared Prediction Error 或MSPE)作為總體目標值:
指代在j情形下回歸模型中的擬合值(fitted Value)
指代在j情形下回歸模型中的期望值(Expected Value)
指代誤差方差,假設在各情形下保持不變
MSPE不一定隨着自變量數量的增加而減少。最優模型條件由樣本大小(Sample Size),自變量數量及組合以及其間的多元共線性(Collinearity)共同決定。

Mallows's Cp假設及定義

Mallows's Cp假設

假設線性原迴歸模型(Full Model):
模型自變量係數為
; 模型誤差為
如果K>p, 從K個自變量中篩選p個迴歸自變量,子迴歸模型(Reduced Model):
模型自變量係數為
;模型誤差為

Mallows's Cp定義

原迴歸模型為基礎,其可能的一個子迴歸模型
統計值定義
其中, n是樣本大小,MSE是均方誤差(Mean Square Error),SSE是誤差平方和(Sum of Square Error)
,指代原迴歸模型中的誤差平方和
,指代在含K個自變量的線性迴歸模型中對第i個y樣本數據的擬合值
,指代原迴歸模型中的均方誤差
,指代子迴歸模型中的誤差平方和
,指代在含p個自變量的線性迴歸模型中對第i個y樣本數據的擬合值
,指代子迴歸模型中的均方誤差
指代y因變量的第i個樣本數據的真實值;
根據線性迴歸模型的假設,其中包括對普通最小二乘法以及對模型誤差分佈的假設,
的估計值;
的估計值。

Mallows's Cp侷限性

1. 需要大的樣本以提高
準確性
2. 在特徵選擇(Feature Selection)中不能處理複雜模型組合情況

Mallows's Cp實用性

通常,當
接近或小於p時,可停止篩選並採用該自變量子集為最佳組合,即
,也就是採用數量較少的自變量組合來簡化模型的同時,也能保持模型的均方誤差不變或減小。同時緩解了過度擬合問題以及提升了模型的預測能力。
參考資料