反饋

Mallows's Cp

在統計學中，馬洛斯(Colin Lingwood Mallows)提出運用Cp^[1-2] 去評估一個以普通最小二乘法(Ordinary Least Square或OLS)為假設的線性迴歸模型的優良性，從而用於模型選取(Model Selection)。當模型中含有多個自變量(Independent Variables或Explanatory Variables)，使用Mallows’s Cp 可以為模型精選出自變量子集。Cp數值越小模型準確性越高。對於高斯線性模型(Gaussian Linear Regression)，馬洛斯的Cp值被證明與赤池信息準則(Akaike Information Criterion或AIC)等效。^[3]

其他模型選取方法還有貝葉斯信息準則(Bayesian Information Criterion 或BIC)以及調整後的R方(Adjusted R-Squared)。

中文名: 馬洛斯Cp
外文名: Mallows's Cp

用途: 模型選取，優選自變量子集
學科: 統計

目錄

Mallows's Cp原理

模型選擇統計量如殘差平方和(Residual Sum of Squares)隨着模型包含的自變量數量增多而減少，由此可導致過度擬合(Overfitting)的問題，即自變量數量過多導致模型預測能力下降。藉助Mallows’s Cp 篩選自變量子集可以有效控制參數數量，從而達到優化模型的目的。Cp統計量的計算基於一個數據樣本，用於估計均方預測誤差(Mean Squared Prediction Error 或MSPE)作為總體目標值:

指代在j情形下回歸模型中的擬合值(fitted Value)

指代在j情形下回歸模型中的期望值(Expected Value)

指代誤差方差，假設在各情形下保持不變

MSPE不一定隨着自變量數量的增加而減少。最優模型條件由樣本大小(Sample Size)，自變量數量及組合以及其間的多元共線性(Collinearity)共同決定。

Mallows's Cp假設及定義

Mallows's Cp假設

假設線性原迴歸模型(Full Model)：

模型自變量係數為

; 模型誤差為

如果K＞p, 從K個自變量中篩選p個迴歸自變量，子迴歸模型(Reduced Model)：

模型自變量係數為

;模型誤差為

Mallows's Cp定義

以原迴歸模型為基礎，其可能的一個子迴歸模型的

統計值定義為

，

其中, n是樣本大小，MSE是均方誤差（Mean Square Error），SSE是誤差平方和(Sum of Square Error)

，指代原迴歸模型中的誤差平方和

，指代在含K個自變量的線性迴歸模型中對第i個y樣本數據的擬合值

，指代原迴歸模型中的均方誤差

，指代子迴歸模型中的誤差平方和

，指代在含p個自變量的線性迴歸模型中對第i個y樣本數據的擬合值

，指代子迴歸模型中的均方誤差

指代y因變量的第i個樣本數據的真實值；

根據線性迴歸模型的假設，其中包括對普通最小二乘法以及對模型誤差分佈的假設，

是

的估計值；

是

的估計值。

Mallows's Cp侷限性

1. 需要大的樣本以提高

準確性

2. 在特徵選擇(Feature Selection)中不能處理複雜模型組合情況

Mallows's Cp實用性

通常，當

接近或小於p時，可停止篩選並採用該自變量子集為最佳組合，即

，也就是採用數量較少的自變量組合來簡化模型的同時，也能保持模型的均方誤差不變或減小。同時緩解了過度擬合問題以及提升了模型的預測能力。

參考資料

1. Some Comments on CP ．JSTOR．1973-11-01[引用日期2017-08-12]
2. The interpretation of Mallows's Cp Statistic ．JSTOR．1994-10-01[引用日期2017-08-12]
3. AIC, Cp and estimators of loss for elliptically symmetric distributions ．Cornell University Library．2014-05-27[引用日期2017-08-12]

Mallows's Cp的概述圖

Mallows's Cp的概述圖（1張）

詞條統計

瀏覽次數：次
編輯次數：10次歷史版本
最近更新： thereforenay （2023-10-08）

1 原理
2 假設及定義: 2.1 假設; 2.2 定義
3 侷限性
4 實用性

百科協議隱私協議意見反饋

清除歷史記錄關閉