複製鏈接
請複製以下鏈接發送給好友

誤差平方和

鎖定
誤差平方和又稱殘差平方和、組內平方和等,根據n個觀察值擬合適當的模型後,餘下未能擬合部份(ei=yi一y平均)稱為殘差,其中y平均表示n個觀察值的平均值,所有n個殘差平方之和稱誤差平方和。在迴歸分析中通常用SSE表示,其大小用來表明函數擬合的好壞。將殘差平方和除以自由度n-p-1(其中p為自變量個數)可以作為誤差方差σ2無偏估計,通常用來檢驗擬合的模型是否顯著 [1] 
中文名
誤差平方和
外文名
Sum of the Squared Errors
所屬學科
數學(統計學)
別    名
殘差平方和
組內平方和
相關概念
偏差平方和,殘差等

誤差平方和基本介紹

誤差平方和總偏差平方和

單因素方差分析(見下文)中,為了使造成各隨機變量Xij之間的差異的大小能定量表示出來,引入:
記在水平Ai下樣本和為
,其樣本均值
因素A下的所有水平的樣本總均值為
為了通過分析對比產生樣本
之間差異性的原因,從而確定因素A的影響是否顯著,我們引入偏差平方和來度量各個體間的差異程度
因ST能反映全部試驗數據之間的差異,所以又稱為總偏差平方和

誤差平方和誤差平方和與組間平方和

如果H0成立,則r個總體間無顯著差異,也就是説因素A對指標沒有顯著影響,所有的Xij可以認為來自同一個總體
,各個Xij間的差異只是由隨機因素引起的,若H0不成立,則在總偏差中,除隨機因素引起的差異外,還包括由因素A的不同水平的作用而產生的差異,如果不同水平作用產生的差異比隨機因素引起的差異大得多,就認為因素A對指標有顯著影響,否則,認為無顯著影響。為此,可將總偏差中的這兩種差異分開,然後進行比較。
則有下面的定理:
定理1(平方和分解定理)
,有
SE表示在水平Ai樣本值樣本均值之間的差異,它是由隨機誤差引起的,稱為誤差平方和或組內平方和。SA反映在每個水平下的樣本均值與樣本總均值的差異,它是由因素A取不同水平引起的,稱為因素A的效應平方和組間平方和,ST=SE+SA式就是我們所需要的平方和分解式。

誤差平方和SE與SA的統計特性

如果H0成立,則所有的Xij都服從正態分佈
,且相互獨立,則有:
定理2
(1)
,且
,所以
為σ2的無偏估計;
(2)
,且
,因此
為σ2的無偏估計;
(3)SE與SA相互獨立;
(4)

誤差平方和單因素方差分析

誤差平方和基本概念

方差分析中,我們將要考察的對象的某種特徵稱為試驗指標,影響試驗指標的條件稱為因素,因素可分為兩類,一類是人們可以控制的(如原材料、設備、學歷、專業等因素);另一類人們無法摔制的(如員工素質與機遇等因素)。下面所討論的因素都是指可控制因素。每個因素又有若干個狀態可供選擇,因素可供選擇的每個狀態稱為該因素的水平。如果在一項試驗中只有一個因素在改變,則稱為單因素試驗;如果多於一個因素在改變,則稱為多因素試驗。因素常用大寫字母A,B,C,…來表示,因素A的水平用
來表示,下面對單因素試驗進行討論 [2] 

誤差平方和假設前提

設單因素A具有r個水平,分別記為
,在每個水平
下,要考察的指標可以看成一個總體,故有r個總體,並假設:
(1)每個總體均服從正態分佈,即
(2)每個總體的方差σ2相同;
(3)從每個總體中抽取的樣本
相互獨立,i=1,2,…,r。
此處的
均未知,將假設及相關符號列表,如表1所示 [1] 
表1 單因素試驗參數
水平
樣本

樣本和
樣本均值
總體
總體均值
那麼,要比較各個總體的均值是否一致,就是要檢驗各個總體的均值是否相等,設第i個總體的均值為μi,則
備擇假設為
不全相等。
在水平
下,進行
獨立試驗,得到試驗數據
,記數據的總個數為
由假設有
(
未知),即有
,故
可視為隨機誤差。記
,從而得到如下數學模型
,各個
相互獨立,μi
未知。
方差分析的任務:
(1)檢驗該模型中r個總體
的均值是否相等;
(2)作為未知參數
的估計。
為了更仔細地描述數據,常在方差分析中引入總平均和效應的概念,將
各均值的加權平均值
記為μ,即
其中
再引入
δi表示在水平Ai下總體的均值μi與總平均μ的差異,稱其為因子A的第i個水平Ai的效應。易見,效應間有如下關係式
利用上述記號,前述數學模型可改寫為
,各個
相互獨立,μi
未知。
而前述檢驗假設則等價於
不全為零.
這是因為當且僅當
時,
,即
參考資料
  • 1.    鄭家亨.統計大辭典:中國統計出版社,1995年03月第1版
  • 2.    安宏偉,孟昕娜,貢麗霞主編;張愛民,張麗娟,鄭莉芳,張國強副主編.概率論與數理統計(獨立院校用):中國鐵道出版社,2016.01