複製鏈接
請複製以下鏈接發送給好友

非參數統計

(數學概念)

鎖定
非參數統計(nonparametric statistics),數理統計學重要內容。研究非參數問題,探究非參數方法。非參數問題是指統計總體分佈形式未知或雖已知卻不能用有限個參數刻畫的統計問題。在多數場合下,與參數問題界線清楚,只在少數情況下會因為各人出發點不同而有不同看法。非參數方法有擬合優度檢驗次序統計量U統計量、秩統計量與秩方法、置換檢驗、非參數迴歸與判別等等。非參數方法並非絕對只能解決非參數問題,有些也可用於典型的參數統計問題。非參數統計方法無法依賴總體的具體分佈形式,構造的統計量常與具體分佈無關,故又稱非參數方法為自由分佈方法。這樣,非參數方法的性能對分佈的實際形式如何並不敏感,即非參數方法常具較好的穩健性。非參數方法需要考慮在約束條件十分寬鬆的情況下使用,有可能導致效率的下降。非參數統計難以建立小樣本理論,基本屬於大樣本理論的內容。非參數統計形成於20世紀40年代,已成為一個體系龐大、理論精深且富有實用價值的統計分支。 [1] 
中文名
非參數統計
外文名
Nonparametric Statistics
類    別
專有名詞
類    型
統計
分    支
數理統計學

非參數統計參數簡介

非參數統計是統計學的一個重要分支,它在實踐中有着廣泛的應用。所謂統計推斷,就是由樣本觀察值去了解總體,它是統計學的基本任務之一。若根據經驗或某種理論我們能在推斷之前就對總體作一些假設,則這些假設無疑有助於提高統計推斷的效率。這種情況下的統計方法稱為“參數統計”。如果我們所知很少,以致於在推斷之前不能對總體作任何假設,或僅能作一些非常一般性(例如連續分佈、對稱分佈等)的假設,這時如果仍然使用參數統計方法,其統計推斷的結果顯然是不可信的,甚至有可能是錯的。在對總體的分佈不作假設或僅作非常一般性假設條件下的統計方法稱為“非參數統計”。
由於非參數統計方法與總體究竟是什麼分佈幾乎沒有什麼關係,所以它的應用範圍很廣,它在社會學、醫學、生物學、心理學、教育學等領域都有着廣泛的應用。由於有關於總體的假設,所以參數統計的推斷方法是針對這個假設的。相對而言,非參數統計的推斷方法是很一般的,它僅應用樣本觀察值中一些非常直觀(例如次序)的信息。所以非參數統計分析含有豐富的統計思想。

非參數統計舉例説明

例如,檢驗“兩個總體有相同分佈”這個假設,若假定兩總體的分佈分別為正態分佈N(μ1,σ2)和N(μ2,σ2),則問題只涉及三個實參數μ1,μ2,σ2,這是參數統計問題。若只假定兩總體的分佈為連續,此外一無所知,問題涉及的分佈不能用有限個實參數刻畫,則這是非參數統計問題。又如,估計總體分佈的期望μ,若假定總體分佈為正態 N(μ,σ2),則問題是參數性的;若只假定總體分佈的期望值存在,則問題是非參數性的。不過參數統計與非參數統計之間並沒有涇渭分明的界線。

非參數統計例外

有的統計問題,從不同的角度,可以理解為參數性的,也可以理解為非參數性的。例如線性迴歸(見迴歸分析)問題,若關心的是估計迴歸係數,它只是有限個實參數,因而可以看成是參數性的。但是,如果對隨機誤差的分佈類型沒有作任何假定,則從問題的總體分佈這個角度看,也可以看成是非參數性的。

非參數統計統計方法

重要的非參數統計方法秩方法是基於秩統計量(見統計量)的一類重要的非參數統計方法。設有樣本X1,X2,…,Xn,把它們由小到大排列,若Xi在這個次序中佔第Ri個位置(最小的佔第1個位置),則稱Xi的秩為Ri(i=1,2,…,n)。1945年F.威爾科克森提出的"兩樣本秩和檢驗"是一個有代表性的例子。設X1,X2,…,Xm和Y1,Y2,…,Yn分別是從分佈為 F(x)和 F(x-θ)的總體中抽出的樣本,F連續但未知,θ也未知,檢驗假設 H:θ=0,備擇假設為θ>0(見假設檢驗)。記Yi在混合樣本(X1,X2,…,Xm,Y1,Y2,…,Yn)中的秩為Ri,且為諸秩的和,當W >C時,否定假設H,這裏C決定於檢驗的水平。這是一個性能良好的檢驗。秩方法的一個早期結果是C.斯皮爾曼於1904年提出的秩相關係數。設(X1,Y1),(X2,Y2),…,(Xn,Yn)是從二維總體(X,Y)中抽出的樣本,Ri為Xi在(X1,X2,…,Xn)中的秩,Qi為Yi在(Y1,Y2,…,Yn)中的秩,定義秩相關係數為(Ri,Qi)(i=1,2,…n)的通常的相關係數(見相關分析)。它可以作為X、Y之間相關程度的度量,也可用於檢驗關於X、Y獨立性的假設。
次序統計量和U 統計量在非參數統計中也有重要應用。前者可用於估計總體分佈的分位數(見概率分佈)、檢驗兩總體有相同的分佈及構造連續總體分佈的容忍限和容忍區間(見區間估計)等。後者主要用於構造總體分佈的數字特徵的一致最小方差無偏估計(見點估計)及基於這種估計的假設檢驗
蘇聯數學家Α.Η.柯爾莫哥洛夫和Β.И.斯米爾諾夫在20世紀30年代的工作開闢了非參數統計的一個方面,他們的方法基於樣本X1,X2,…,Xn的經驗分佈函數Fn(x)(見樣本)。柯爾莫哥洛夫考察 Fn(x)與理論分佈F(x)的最大偏差墹n,當墹n超過一定限度時,否定這個理論分佈F(x)。這就是柯爾莫哥洛夫檢驗。斯米爾諾夫則考察由兩個分佈為F(x)和g(x)的總體中抽出的樣本X1,X2,…,Xm和Y1,Y2,…,Yn計算其經驗分佈Fm(x)和gn(x)的最大偏差墹mn,當墹mn超過一定限度時,否定“F與g相等”這個假設。這就是斯米爾諾夫檢驗。
在非參數性估計方面,有關於估計分佈的對稱中心、概率密度函數和迴歸函數等比較重要的成果 [2] 

非參數統計基本特點

非參數統計問題中對總體分佈的假定要求的條件很寬,因而針對這種問題而構造的非參數統計方法,不致因為對總體分佈的假定不當而導致重大錯誤,所以它往往有較好的穩健性(見穩健統計),這是一個重要特點。但因為非參數統計方法需要照顧範圍很廣的分佈,在某些情況下會導致其效率的降低。不過,近代理論證明了:一些重要的非參數統計方法,當與相應的參數方法比較時,即使在最有利於後者的情況下,效率上的損失也很小。
由於非參數統計中對分佈假定要求的條件寬,因而大樣本理論(見大樣本統計)佔據了主導地位。第二次世界大戰前,非參數統計的大樣本理論已有了一些結果,從20世紀50年代直到現代,更有了顯著的進展,尤其是關於秩統計量與U 統計量的大樣本理論,及基於這種理論的大樣本非參數方法,研究成果很多。

非參數統計適用範圍

非參數統計最常用於具備下述特徵的情況:
1、待分析數據不滿足參數檢驗所要求的假定,因而無法應用參數檢驗。例如,我們曾遇到過的非正態總體小樣本,在t-檢驗法也不適用時,作為替代方法,就可以採用非參數檢驗
2、僅由一些等級構成的數據,不能應用參數檢驗。例如,消費者可能被問及對幾種不同商標的飲料的喜歡程度,雖然,他們不能對每種商標都指定一個數字來表示他們對該商標的喜歡程度,卻能將幾種商標按喜歡的順序分成等級。這種情形也宜採用非參數檢驗。
3、所提的問題中並不包含參數,也不能用參數檢驗。例如,我們想判斷一個樣本是否為隨機樣本,採用非參數檢驗法就是適當的。
4、當我們需要迅速得出結果時,也可以不用參數統計方法而用非參數統計方法來達到目的。一般説來,非參數統計方法所要求的計算與參數統計方法相比,完成起來既快且易。有些非參數統計方法的計算,就算對統計學知識不熟練的人,也能在收集數據時及時予以完成 [3] 

非參數統計相對優點

非參數統計與傳統的參數統計相比,有以下優點:
1、非參數統計方法要求的假定條件比較少,因而它的適用範圍比較廣泛。
2、多數非參數統計方法要求的運算比較簡單,可以迅速完成計算取得結果,因而比較節約時間。
3、大多數非參數統計方法在直觀上比較容易理解,不需要太多的數學基礎知識和統計學知識。
4、大多數非參數統計方法可用來分析如象由等級構成的數據資料,而對計量水準較低的數據資料,參數統計方法卻不適用。
5、當推論多達3個以上時,非參數統計方法尤具優越性。

非參數統計相對缺點

非參數統計方法也有以下缺點:
1、由於方法簡單,用的計量水準較低,因此,如果能與參數統計方法同時使用時,就不如參數統計方法敏感。若為追求簡單而使用非參數統計方法,其檢驗功效就要差些。這就是説,在給定的顯著性水平下進行檢驗時,非參數統計方法與參數統計方法相比,第Ⅱ類錯誤的概率β要大些。
2、對於大樣本,如不採用適當的近似,計算可能變得十分複雜。

非參數統計相關圖書

非參數統計圖書信息

書名:非參數統計
ISBN:9787302191674
作者:王星等
定價:37元
出版日期:2009-3-1

非參數統計圖書簡介

本書是非參數統計教材,內容從經典非參數統計推斷到現代前沿,包括R基礎、基本概念、單一樣本的推斷問題、兩獨立樣本數據的位置和尺度推斷、多組數據位置推斷、分類數據的關聯分析、秩相關和分位數迴歸、非參數密度估計、一元非參數迴歸和數據挖掘與機器學習共計10章. 本書配有大量與社會、經濟、金融、生物等專業相關的例題和習題,給出示範解答過程,方便自學.
本書可以作為高等院校統計、經濟、金融、管理專業的本科生課程的教材,也可以作為其他相關專業研究生的教材和教學參考書,另外,對廣大從事與統計相關工作的實際工作者也極具參考價值.

非參數統計目錄

第1章
基本概念和操作
環境
常量
算術運算
賦值
向量的生成和基本操作
向量的生成
向量的基本操作
向量的運算
向量的邏輯運算
高級數據結構
矩陣的操作和運算
數組
數據框
列表
數據處理
保存數據
讀入數據
數據轉換
編寫程序
循環和控制
函數
基本統計計算
抽樣
統計分佈圖形功能
函數
多圖顯示
幫助和包
習題
第2章
基本概念
非參數統計概念與產生
經驗分佈和分佈探索
經驗分佈
生存函數
檢驗的相對效率
分位數和非參數估計
秩檢驗統計量
統計量
習題
第3章
單一樣本的推斷問題
符號檢驗和分位數推斷
基本概念
大樣本計算
符號檢驗在配對樣本比較中的應用
分位數檢驗------符號檢驗的推廣趨勢存在性檢驗
隨機遊程檢驗
符號秩檢驗
基本概念
符號秩檢驗和抽樣分佈
單組數據的位置參數置信區間估計
順序統計量位置參數置信區間估計
基於方差估計法的位置參數置信區間估計
正態記分檢驗
分佈的一致性檢驗
正態分佈檢驗
單一總體漸近相對效率比較
習題
第4章
兩獨立樣本數據的位置和尺度推斷中位數檢驗
方差檢驗
方差檢驗
習題
第5章
多組數據位置推斷
試驗設計和方差分析的基本概念回顧
檢驗
隨機區組數據的調整秩和檢驗
檢驗
不完全區組分析法
習題
第6章
分類數據的關聯分析
s$列聯表和$\chi^2$獨立性檢驗
齊性檢驗
精確性檢驗檢驗
關聯規則
關聯規則基本概念
算法
檢驗法
對數線性模型
對數線性模型的基本概念
模型的設計矩陣
模型的估計和檢驗
高維對數線性模型和獨立性
習題
第7章
秩相關和分位數迴歸
秩相關檢驗
相關檢驗
多變量
協和係數檢驗
一致性檢驗
中位數迴歸係數估計法
線性分位迴歸模型
習題
第8章
非參數密度估計
直方圖密度估計
核函數的基本概念
貝葉斯決策和非參數密度估計
習題
第9章
一元非參數迴歸
核迴歸光滑模型
局部多項式迴歸
局部線性迴歸
局部多項式迴歸的基本原理
穩健迴歸
近鄰迴歸
正交序列迴歸
習題
第10章
數據挖掘與機器學習
分類一般問題
迴歸模型
迴歸模型的極大似然估計}
迴歸和線性判別函數LDA
決策樹
決策樹基本概念
決策樹的剪枝
迴歸樹
決策樹的特點
算法
最大邊距分類
支持向量機問題的求解
支持向量機的核方法
隨機森林樹
隨機森林樹算法的定義
隨機森林樹算法的性質
如何確定隨機森林樹算法中樹的節點分裂變量
隨機森林樹的迴歸算法
有關隨機森林樹算法的一些評價
多元自適應迴歸樣條的一些性質}
附錄
參考文獻
[4] 
書名:《非參數統計》(第二版)
作者:吳喜之 編著
開本:18開
字數:21萬字
出版時間:2006.10出版
定價:29.00元/冊
書號:ISBN 7-5037-4997-0/O.59
內容介紹:
在初等統計學中,最基本的概念是總體,樣本,隨機變量,分佈,估計和假設檢驗等,其很大一部分內容是和正態理論相關的。在那裏,總體的分佈形式或分佈族往往是給定的或者是假定了的。然而,在實際生活中, 那種對總體的分佈的假定並不是能隨便做出的。有時,數據並不是來自所假定分佈的總體;或者,數據根本不是來自一個總體;還有可能,數據因為種種原因被嚴重污染。這樣,在假定總體分佈的情況下進行推斷的做法就可能產生錯誤的、 甚至災難性的結論。 於是,人們希望在不假定總體分佈的情況下,儘量從數據本身來獲得所需要的信息。這就是非參數統計的宗旨。
《非參數統計》涉及瞭如下內容:單樣本、兩樣本和多樣本位置參數的推斷,兩樣本和多樣本尺度參數的推斷,相關分析和穩健迴歸分析,關於分佈的檢驗等基於秩的非參數統計的內容;還涉及了與非參數統計方法有一定關係的對數線性模型,和並不是基於秩的非參數迴歸。
它區別於國內的其他介紹非參數統計的著作的特點是:儘量用嚴謹而平實的語言和簡單的公式介紹統計方法的思想和邏輯。而且本書作者還親自編寫了實現統計方法的R程序、SAS程序和SPSS程序的操作説明。
本書適合那些有初等統計基礎,從事與應用統計相關,如醫學,管理學等領域研究或實踐的人員學習。當然本書也適合統計研究或實踐的。本書為普通高等教育“十一五”國家級規劃教材。 [5] 
參考資料