複製鏈接
請複製以下鏈接發送給好友

樣本數據

鎖定
樣本數據是針對小樣本試驗數據的概率分佈特徵有時無法確定,傳統概率統計就無法提供相應的參數估計方法的問題而提出的方法。
中文名
樣本數據
外文名
sample data
樣本眾數
數據集合中出現頻次最高的樣本值
利用軟件
SAS軟件
眾數類別
單一眾數、復眾數

樣本數據簡介

針對小樣本試驗數據的概率分佈特徵有時無法確定,傳統概率統計就無法提供相應的參數估計方法的問題。基於灰色關聯理論,首先定義了基於試驗數據之間的拓撲關係和距離關係的灰色距離測度。通過對灰色距離測度的灰色生成得到小樣本數據的參數估計值,並給出了滿足一定灰色置信度下的參數置信區間,繼而討論了概率參數估計與灰色參數估計之間的區別。最後利用計算機對小樣本試驗數據的參數估計進行了仿真舉例,示例結果表明所提方法簡單合理,能有效地解決小樣本數據參數估計的有關問題 [1] 

樣本數據樣本數據特徵的初步分析

樣本數據集合中出現頻次最高的那個樣本值,稱為樣本眾數。在一般情況下,“樣本眾數”被簡稱為“眾數”。 單一眾數是在許多情況下,一個樣本數據集合中出現頻次最高的樣本值只有一個。這時的眾數是最普通的眾數,稱為單一眾數。 而復眾數就是在一個樣本數據集合中。

樣本數據利用SAS軟件描述樣本數據

例題:計算平均數和標準差
解:在進行分析之前,最好先建立一個外部數據文件。如果不建立外部數據文件,在作業流中輸入數據也可以。一般來説,在數據量比較大,有可能重複使用時,最好建立一個數據文件。在這裏我們創建一個稱為2-1data.dat 的外部數據文件,存儲在A盤中。用MEANS過程描述數據的最基本的程序如下 [2] 
options linesize=76;
data abc;
infile ‘a:\2-1data.dat’;
input x;
run;
proc means;
run;
提交SAS運行後,所得結果如表1所示:
表1 輸出的結果
The SAS System
Analysis Variable : XN
250
Mean
63.2760000
Std Dev
3.0139941
Minimum
55.0000000
Maximum
70.0000000
打印的結果中包括:數據個數、平均數標準差最小值最大值。這是MEANS語句在缺省時得到的基本結果。若需要對數據作更詳細的描述,則要指明所需的統計量。用MEANS過程所計算的統計量,在這裏也一併列出。MEANS過程所計算的統計量是用關鍵詞表示,這些關鍵詞及其含義如下:
N:輸入的觀測值個數;
NMISS:每個變量所含缺失值的個數;
MEAN:變量的平均數;
STD:變量的標準差;
MIN:變量的最小值;
MAX:變量的最大值;
RANGE:變量的極差;
SUM:變量所有值的和;
VAR:變量的方差;
USS:每一變量原始數據的平方和(未校正平方和);
CSS:每一變量的離均差平方和(校正平方和);
CV:變異係數STDERR:每一變量的標準誤差(平均數的標準差);
T:在H0:μ= 0時的t 值;
PRT:在H0:μ= 0 的假設下,統計量t 大於t 臨界值絕對值的概率;
SKEWNESS:偏斜度
KURTOSIS:峭度
CLM:置信區間的上限和下限;
LCLM:置信區間的下限;
UCLM:置信區間的上限;
另外,在PROC MEANS語句中還有12個選項,其中幾個主要選項如下:
DATA=(SAS 數據集):指出SAS 數據集的名稱,若省略,則使用最近產生的數據集;
MAXDEC=(數字):指出所輸出的結果中,小數部分的最大位數(0-8),缺省時為8 位;
FW=(域寬):指出打印的結果中每個統計量的域寬,缺省時為12;
VARDEF=(DF / N):VARDEF=DF為缺省值,表示計算方差時,使用n-1 作分母;
VARDEF=N表示計算方差時,使用觀測值個數n 作分母;
ALPHA=(α值):指出在計算置信區間時,選用的顯著水平。
參考資料
  • 1.    劉義, 王國玉, 柯宏發. 一種基於灰色距離測度的小樣本數據區間估計方法[J]. 系統工程與電子技術, 2008, 30(1):116-119.
  • 2.    生物統計學常用sas程序  .人大經濟論壇[引用日期2018-01-23]