複製鏈接
請複製以下鏈接發送給好友

方差

鎖定
方差是在概率論和統計方差衡量隨機變量或一組數據時離散程度的度量。概率論中方差用來度量隨機變量和其數學期望(即均值)之間的偏離程度。統計中的方差(樣本方差)是每個樣本值與全體樣本值的平均數之差的平方值的平均數。在許多實際問題中,研究方差即偏離程度有着重要意義。
方差是衡量源數據和期望值相差的度量值。
中文名
方差
外文名
variance/deviation Var
類    型
D(X) 數學(統計學)
研究者
羅納德·費雪(Ronald Fisher)
定    義
數據與平均數之差平方和的平均數
種    類
離散型方差,連續型方差

方差歷史

“方差”(variance)這一詞語率先由羅納德·費雪(Ronald Fisher)在其論文The Correlation Between Relatives on the Supposition of Mendelian Inheritance [1]  中提出。

方差定義

方差在統計描述和概率分佈中各有不同的定義,並有不同的公式。
在統計描述中,方差用來計算每一個變量(觀察值)與總體均數之間的差異。為避免出現離均差總和為零,離均差平方和受樣本含量的影響,統計學採用平均離均差平方和來描述變量的變異程度。總體方差計算公式
為總體方差,
為變量,
為總體均值,
為總體例數。
實際工作中,總體均數難以得到時,應用樣本統計量代替總體參數,經校正後,樣本方差計算公式:
[2] 
為樣本方差,
為變量,
為樣本均值,
為樣本例數。
在概率分佈中,設
是一個離散型隨機變量,若E((X-E(X))2)存在,則稱E((X-E(X))2)為
的方差,記為
,其中
的期望值,
是變量值 [1]  ,公式中的
是期望值expected value的縮寫,意為“隨機變量值與其期望值之差的平方”的期望值。 [2]  離散型隨機變量方差計算公式:
稱為變量
的方差,而
稱為標準差(或均方差)。它與
有相同的量綱。標準差是用來衡量一組數據的離散程度的統計量 [3] 
對於連續型隨機變量
,若其定義域為
概率密度函數
,連續型隨機變量X方差計算公式 [2] 
方差刻畫了隨機變量的取值對於其數學期望的離散程度。(標準差、方差越大,離散程度越大)
若X的取值比較集中,則方差
較小,若X的取值比較分散,則方差
較大。
因此,
是刻畫
取值分散程度的一個量,它是衡量取值分散程度的一個尺度。

方差性質

1、設
常數,則
2、設
隨機變量
是常數,則有
3、設
是兩個隨機變量,則
其中協方差
特別的,當X,Y是兩個不相關的隨機變量則
此性質可以推廣到有限多個兩兩不相關的隨機變量之和的情況。
4、
充分必要條件
以概率1取常數
,即
(當且僅當X取常數值
時的概率為1時,
。)
注:不能得出
恆等於常數,當
是連續的時候X可以在任意有限個點取不等於常數
的值。
5、
證明
1、
2、
3、
上式右端第三項為。
若X,Y相互獨立,由數學期望的性質知道上式為0。
4、充分性:
,則有
必要性:用反證法 ,概率不會大於1,只需考慮是否等於1或小於1。
假設
,則對於某一個數
但是由切比雪夫不等式,當
,滿足
與上式矛盾。
於是
[4] 

方差種類及計算

方差離散型方差

離散型方差的計算式為:
,其中
而將上式展開後可得:

方差連續型方差

連續型方差的計算式為:
,其中
將上式展開後可得:
以上兩式是一樣的,只是寫法不同。
證明:由數學期望的性質得

方差期望和方差

方差離散型

X服從兩點分佈,則
X服從超幾何分佈,即
,則
X服從二項分佈,即
,則
X服從泊松分佈,即
,則

方差連續型

X服從均勻分佈,即
,則
X服從指數分佈,即
, 則
X 服從正態分佈,即
, 則
X 服從標準正態分佈,即
, 則
求正態分佈的數學期望&&方差
,求
.
,由於
,所以
,已知
,從而

方差示例

已知某零件的真實長度為a,現用甲、乙兩台儀器各測量10次,將測量結果X用座標上的點表示如圖1:
甲儀器測量結果:
乙儀器測量結果:全是a
兩台儀器的測量結果的均值都是 a 。但是用上述結果評價一下兩台儀器的優劣,很明顯,我們會認為乙儀器的性能更好,因為乙儀器的測量結果集中在均值附近。
由此可見,研究隨機變量與其均值的偏離程度是十分必要的。那麼,用怎樣的量去度量這個偏離程度呢?容易看到E[|X-E[X]|]能度量隨機變量與其均值E(X)的偏離程度。但由於上式帶有絕對值,運算不方便,通常用量E[(X-E[X])2] 這一數字特徵就是方差。
圖1 測量結果 圖1 測量結果

方差公式

方差是實際值與期望值之差平方平均值,而標準差是方差算術平方根 [5]  在實際計算中,我們用以下公式計算方差。
方差是各個數據與平均數之差的平方的和的平均數,即
,其中,x表示樣本的平均數,n表示樣本的數量,xi表示個體,而s2就表示方差。
而當用
作為樣本X的方差的估計時,發現其數學期望並不是X的方差,而是X方差的
倍,
的數學期望才是X的方差,用它作為X的方差的估計具有“無偏性”,所以我們總是用
來估計X的方差,並且把它叫做“樣本方差”。
方差是和中心偏離的程度,用來衡量一批數據的波動大小(即這批數據偏離平均數的大小)並把它叫做這組數據的方差,記作S2。 在樣本容量相同的情況下,方差越大,説明數據的波動越大,越不穩定。
公式可以進一步推導為:
。其中x為這組數據中的數據,n為大於0的整數。
方差 方差

方差統計學意義

當數據分佈比較分散(即數據在平均數附近波動較大)時,各個數據與平均數的差的平方和較大,方差就較大;當數據分佈比較集中時,各個數據與平均數的差的平方和較小。因此方差越大,數據的波動越大;方差越小,數據的波動就越小。 [6] 
樣本中各數據與樣本平均數的差的平方和的平均數叫做樣本方差;樣本方差的算術平方根叫做樣本標準差。樣本方差和樣本標準差都是衡量一個樣本波動大小的量,樣本方差或樣本標準差越大,樣本數據的波動就越大。
方差和標準差是測算離散趨勢最重要、最常用的指標。方差是各變量值與其均值離差平方的平均數,它是測算數值型數據離散程度的最重要的方法。標準差為方差的算術平方根,用S表示。方差相應的計算公式為:
標準差與方差不同的是,標準差和變量的計算單位相同,比方差清楚,因此很多時候我們分析的時候更多的使用的是標準差。

方差最近進展

方差不僅僅表達了樣本偏離均值的程度,更是揭示了樣本內部彼此波動的程度,也可以理解為方差代表了樣本彼此波動的期望。當然,這個結論是在二階統計矩下成立。 [7] 
參考資料
  • 1.    Ronald Fisher.The correlation between relatives on the supposition of Mendelian Inheritance:Royal Society of Edinburgh,1918
  • 2.    段廣才.臨牀流行病學與統計學.鄭州:鄭州大學出版社,2002:332-62
  • 3.    盛驟,謝式千等.概率論與數理統計及其應用:高等教育出版社,2004年七月
  • 4.    盛驟 謝式千 潘承毅..概率論與數理統計(第四版):高等教育出版社,2008:103,106
  • 5.    陳曉龍等.概率論與數理統計:東南大學出版社,2011
  • 6.    課程教材研究所中學數學課程教材研究開發中心.《數學八年級下冊》:人民教育出版社,2008:139~140
  • 7.    Yuli Zhang,Huaiyu Wu,Lei Cheng.Some new deformation formulas about variance and covariance:ICMIC,2012