-
過適
鎖定
- 中文名
- 過適
- 外文名
- Overfitting
- 學 科
- 統計學
- 方 法
- 調適一個統計模型
過適簡介
對比於可獲取的數據總量來説,一個荒謬的模型只要足夠複雜,是可以完美地適應數據。過擬合一般可以視為違反奧卡姆剃刀原則。
當可選擇的參數的自由度超過數據所包含信息內容時,這會導致最後(擬合後)模型使用任意的參數,這會減少或破壞模型一般化的能力更甚於適應數據。過擬合的可能性不只取決於參數個數和數據,也跟模型架構與數據的一致性有關。此外對比於數據中預期的噪聲或錯誤數量,跟模型錯誤的數量也有關。
過擬合現象的觀念對機器學習也是很重要的。通常一個學習算法是藉由訓練示例來訓練的。亦即預期結果的示例是可知的。而學習者則被認為須達到可以預測出其它示例的正確的結果,因此,應適用於一般化的情況而非只是訓練時所使用的現有數據(根據它的歸納偏向)。然而,學習者卻會去適應訓練數據中太特化但又隨機的特徵,特別是在當學習過程太久或示例太少時。在過擬合的過程中,當預測訓練示例結果的表現增加時,應用在未知數據的表現則變更差。
在統計和機器學習中,為了避免過擬合現象,須要使用額外的技巧(如交叉驗證、提早停止、貝斯信息量準則、赤池信息量準則或模型比較),以指出何時會有更多訓練而沒有導致更好的一般化。人工神經網上的過擬合過程亦被認知為過度訓練(英語:overtraining)。在treatmeant learning中,使用最小最佳支持值(英語:minimum best support value)來避免過擬合。
過適參見
- 數據疏通