-
Mallows's Cp
鎖定
在統計學中,馬洛斯(Colin Lingwood Mallows)提出運用Cp
[1-2]
去評估一個以普通最小二乘法(Ordinary Least Square或OLS)為假設的線性迴歸模型的優良性,從而用於模型選取(Model Selection)。當模型中含有多個自變量(Independent Variables或Explanatory Variables),使用Mallows’s Cp 可以為模型精選出自變量子集。Cp數值越小模型準確性越高。對於高斯線性模型(Gaussian Linear Regression),馬洛斯的Cp值被證明與赤池信息準則(Akaike Information Criterion或AIC)等效。
[3]
其他模型選取方法還有貝葉斯信息準則(Bayesian Information Criterion 或BIC)以及調整後的R方(Adjusted R-Squared)。
- 中文名
- 馬洛斯Cp
- 外文名
- Mallows's Cp
- 用 途
- 模型選取,優選自變量子集
- 學 科
- 統計
Mallows's Cp原理
模型選擇統計量如殘差平方和(Residual Sum of Squares)隨着模型包含的自變量數量增多而減少,由此可導致過度擬合(Overfitting)的問題,即自變量數量過多導致模型預測能力下降。藉助Mallows’s Cp 篩選自變量子集可以有效控制參數數量,從而達到優化模型的目的。Cp統計量的計算基於一個數據樣本,用於估計均方預測誤差(Mean Squared Prediction Error 或MSPE)作為總體目標值:
指代在j情形下回歸模型中的期望值(Expected Value)
MSPE不一定隨着自變量數量的增加而減少。最優模型條件由樣本大小(Sample Size),自變量數量及組合以及其間的多元共線性(Collinearity)共同決定。
Mallows's Cp假設及定義
Mallows's Cp假設
假設線性原迴歸模型(Full Model):
模型自變量係數為
; 模型誤差為
如果K>p, 從K個自變量中篩選p個迴歸自變量,子迴歸模型(Reduced Model):
模型自變量係數為
;模型誤差為
Mallows's Cp定義
以原迴歸模型為基礎,其可能的一個子迴歸模型的
統計值定義為
其中, n是樣本大小,MSE是均方誤差(Mean Square Error),SSE是誤差平方和(Sum of Square Error)
根據線性迴歸模型的假設,其中包括對普通最小二乘法以及對模型誤差分佈的假設,
是
的估計值;
是
的估計值。
Mallows's Cp侷限性
1. 需要大的樣本以提高
準確性
2. 在特徵選擇(Feature Selection)中不能處理複雜模型組合情況
Mallows's Cp實用性
通常,當
接近或小於p時,可停止篩選並採用該自變量子集為最佳組合,即
,也就是採用數量較少的自變量組合來簡化模型的同時,也能保持模型的均方誤差不變或減小。同時緩解了過度擬合問題以及提升了模型的預測能力。
- 參考資料
-
- 1. Some Comments on CP .JSTOR.1973-11-01[引用日期2017-08-12]
- 2. The interpretation of Mallows's Cp Statistic .JSTOR.1994-10-01[引用日期2017-08-12]
- 3. AIC, Cp and estimators of loss for elliptically symmetric distributions .Cornell University Library.2014-05-27[引用日期2017-08-12]