-
統計
(統計學術語)
鎖定
統計是漢語中的“統計”原有合計或彙總計算的意思。英語中的“統計”(Statistics)一詞來源於拉丁語status,是指各種現象的狀態或狀況。現今,統計一詞有三種含義:(1)統計資料,是反映大量現象的狀態和規律性的數字資料及有關文字説明;(2)統計工作,是關於蒐集、整理、分析統計資料並進行推論以探求事物本質和規律性的活動;(3)統計科學,是研究如何蒐集、整理和分析研究大量現象的數量資料並推論其本質和規律性的理論和方法,如社會經濟統計學、數理統計學。
[1]
- 中文名
- 統計學
- 外文名
- Statistics
- 性 質
- 重要的數學方法、獨立學科
- 相關學科
- 數學
- 產 生
- 伴隨着人類活動而產生
- 應 用
- 人類生活的方方面面
統計歷史沿革
夏禹時代(公元前22世紀)中國分為九州,有人口約1352萬,土地約2438萬公頃。《書經·禹貢篇》記述了九州的基本土地情況,被西方經濟學家推崇為“統計學最早的萌芽”。西周建立了較為系統的統計報告制度。秦時《商君書》中提出“強國知十三數,欲強國,不知國十三數,地雖利,民雖眾,國欲弱至削”,其中包括糧食儲備、各國人數、農業生產資料及自然資源等等。
公元前3050年,埃及為了建造金字塔和大型農業灌溉系統,曾進行過全國人口和財產調查。公元前15世紀,猶太人為了戰爭的需要進行了男丁的調查。
公元前約6世紀,羅馬帝國規定每5年進行一次人口、土地、牲畜和家奴的調查,並以財產總額作為劃分貧富等級和徵丁課税的依據。
其學理研究始於古希臘的亞里斯多德時代,迄今已有兩千三百多年的歷史。希臘的亞里斯多德撰寫“城邦政情”或“城邦紀要”。“城邦政情”式的統計研究延續了一兩千年。直至十七世紀中葉才逐漸被“政治算數”這個名詞所替代,並且很快被演化為“統計學”(Statistics)。統計學依然保留了城邦(state)這個詞根。
15至18世紀,歐洲出現了許多以報導國情為內容的統計著作。
德國的斯勒茲曾説過:“統計是動態的歷史,歷史是靜態的統計。”可見統計學的產生與發展是和生產的發展、社會的進步緊密相聯的。
統計學術流派
17世紀以後,隨着統計實踐的發展,客觀上要求總結豐富的實踐經驗,使之上升為理論,並進一步指導實踐。當時也出現了某些統計理論的著作。由於歷史條件、研究領域的不同,產生了不同的學派。主要的學派有:
統計政治算術學派
政治算術學派產生於17世紀中葉的資本主義英國,創始人是威廉·配第(W.Petty, 1623—1687),其代表作是他於1676年完成的《政治算術》一書。在撰寫該部代表作時,正值第三次英荷戰爭戰爭,國內經濟困難,國外面臨着荷、法兩國的威脅。配第為了讓人們知道和確信“英國的事業和各種問題,並非處於可悲的狀態”,在《政治算術》中用數字比較分析了英、荷、法三國的經濟實力和造成這種實力差異的原因,並從貿易、税制、分工、資本和利用閒散勞動力等多方面提出了英國的強盛之道。這種用數字來表述,為統計學的形成和發展奠定了方法論基礎。配弟在書中使用的數字有三類:第一類是對社會經濟現象進行統計調查和經驗觀察得到的數字。第二類是運用某種數學方法推算出來的數字。第三類是為了進行理論性推理而採用的例示性的數字。因此,馬克思説:“威廉·佩第——政治經濟學之父,在某種程度上也是統計學的創始人。”
政治算術學派的另一個代表人物是約翰·格朗特(1620—1674)。他以1604年倫敦教會每週一次發表的“死亡公報”為研究資料,在1662年發表了《關於死亡公報的自然和政治觀察》的論著。書中分析了60年來倫敦居民死亡的原因及人口變動的關係,首次提出通過大量觀察,可以發現新生兒性別比例具有穩定性和不同死因的比例等人口規律;並且第一次編制了“生命表”,對死亡率與人口壽命作了分析,從而引起了普遍的關注。
17世紀,在英格蘭居住的人們開始對“政治算術”產生興趣。1662年,John Graunt發表了《natural and politics observations upon the bills of mortality》,分析了生男孩和女孩的比例,發展了保險公司所用的那種類型的死亡率表。
但遺憾的是,該學派的學者都還沒有使用“統計學”這個名稱,他們的著作有統計學之實,卻沒有統計學之名,存在名不副實的缺陷。
統計國勢學派
國勢學派又稱記述學派,產生於17世紀的德國。由於該學派主要以文字記述國家的顯著事項,故稱記述學派。其主要代表人物是海爾曼·康令和阿亨華爾。康令(H.Conring, 1606—1681)第一個在德國黑爾姆斯太特大學以“國勢學”為題講授政治活動家應具備的知識。
主要繼承人阿亨華爾(Gottfried Achenwall, 1719—1772)在格丁根大學開設“國家學”課程,其主要著作是《近代歐洲各國國勢學綱要》。統計學的英文statistics最早是源於現代拉丁文statisticum collegium(國會)以及意大利文statista(國民或政治家)。因在外文中“國勢”與“統計”詞義相通,1749年阿亨華爾用德文Statistik正式命名為“統計學”代替“國勢學”。代表對國家的資料進行分析的學問,也就是“研究國家的科學”。在19世紀統計學在廣泛的數據以及資料中探究其意義,英文的statistic是由約翰·辛克萊(John Sinclair)由狀態(status)和德文的政治算術聯合推導,第一次出現於1797年的Encyclopaedia Britannica。(早期還有一個單詞publicitics和statistics競爭“統計”這一含義,就開始流行publicitical learning)。
但該學派在進行國勢比較分析中,偏重用文字描述事物性質的解釋,而不注重數量對比和數量計算,因而對後人所認為的統計學,存在“實不符名”的缺陷,但卻為統計學的發展奠定了經濟理論基礎。但隨着資本主義市場經濟的發展,對事物量的計算和分析顯得越來越重要,該學派後來發生了分裂,分化為圖表學派和比較學派。政治算術學派和記述學派共存了將近兩百年,兩派互相影響,互相爭論,但總的來説,政治算術學派的影響要大得多。
18世紀末至19世紀末是統計學的發展時期。在這時期,各種學派的學術觀點已經形成,並且形成了兩主要學派,即數理統計學派和社會統計學派。
統計數理統計學派
現代統計學的理論基礎概率論始於研究賭博的機遇問題,大約開始於1477年。數學家為了解釋支配機遇的一般法則進行了長期的研究,逐漸形成了概率論理論框架。在概率論進一步發展的基礎上,到19世紀初,數學家們逐漸建立了觀察誤差理論,正態分佈理論和最小平方法則。於是,現代統計方法便有了比較堅實的理論基礎。
在18世紀,由於概率理論日益成熟,為統計學的發展奠定了基礎,在統計分析中經常使用的一些基本方法和術語都始於這一個時期,例:最小平方法、正態分佈曲線、誤差計算等。數理統計學派奠基人是比利時的阿道夫·凱特勒(A.Quetelet, 1796—1874),其主要著作有:《論人類》、《概率論書簡》、《社會制度》和《社會物理學》等。
19世紀中葉,他把概率論引入統計學,使統計學在“政治算術”所建立的“算術”方法的基礎上,促進了統計的精確化。他最先提出,用數學中的大數定律——平均數定理,作為分析社會經濟現象的一種工具。他提出,社會現象的發展並非偶然,而是具有其內在規律性的。但他在解釋社會規律時,不能正確地把社會規律與自然規律區分開,提出社會規律與自然規律一樣永恆不變的錯誤觀點。凱特勒寫過不少運用概率論的著作,到19世紀60年代,他又進一步將國勢學、政治算術、概率論的科學方法結合起來,使之形成近代應用數理統計學。十九世紀末,歐洲大學開設的“國情紀要”或“政治算數”等課程名稱逐漸消失,代之而起的是“統計分析科學”課程。當時的“統計分析科學”課程的內容仍然是分析研究社會經濟問題。在1830年—1849年,出現了所謂“統計狂熱時代‘’,各國相繼成立了統計機關和統計研究。
[2]
其後,經過多方面的研究,特別是數理統計學吸取生物中的有益結果,由葛爾登、皮爾生、戈賽特和費雪等統計學家,提出並發展了迴歸和相關、假設檢驗、x2分佈和t分佈等理論,數理統計學逐漸發展成為一門完整的學科。1908年,“學生”氏(William Sleey Gosset的筆名Student)發表了關於t分佈的論文。它創立了小樣本代替大樣本的方法,開創了統計學的新紀元。
統計社會統計學派
社會統計學派產生於19世紀後半葉,創始人是德國經濟學家、統計學家克尼斯(1821—1889),主要代表人物主要有恩格爾(1821—1896)、梅爾(1841—1925)等人。他們融合了國勢學派與政治算術學派的觀點,沿着凱特勒的“基本統計理論”向前發展,但在學科性質上認為統計學是一門社會科學,是研究社會現象變動原因和規律性的實質性科學,以此同數理統計學派通用方法相對立。社會統計學派在研究對象上認為統計學是研究體而不是個別現象,而且認為由於社會現象的複雜性和整體性,必須地總體進行大量觀察和分析,研究其內在聯繫,才能揭示現象內在規律。這是社會統計學派的“實質性科學”的顯著特點。
社會經濟的發展,要求統計學提供更多的統計方法;社會科學本身也不斷地向細分化和定量化發展,也要求統計學能提供更有效的調查整理、分析資料的方法。因此,社會統計學派也日益重視方法論的研究,出現了從實質性方法論轉化的趨勢。但是,社會統計學派仍然強調在統計研究中必須以事物的質為前提和認識事物質的重要性,這同數理統計學派的計量不計質的方法論性質是有本質區別的。
在近代統計學的發展過程中,這兩學派的矛盾是比較大的。
[3]
統計近代統計學
1.由記述統計向推斷統計發展。記述統計是對所蒐集的大量數據資料進行加工整理、綜合概括,通過圖示、列表和數字,編制次數分佈表、繪製直方圖、計算各種特徵數等,對資料進行分析和描述。而推斷統計,則是在蒐集、整理觀測的樣本數據基礎上,對有關總體作出推斷。其特點是根據帶隨機性的觀測樣本數據以及問題的條件和假定(模型),而對未知事物作出的,以概率形式表述的推斷。西方國家所指的科學統計方法,主要就是指推斷統計來説的。
2.由社會、經濟統計向多分支學科發展。在20世紀以前,統計學的領域主要是人口統計、生命統計、社會統計和經濟統計。隨着社會、經濟和科學技術的發展,統計的範疇已覆蓋了社會生活的領域,成為通用的方法論科學。它被廣泛用於研究社會和自然界的各個方面,並發展成為有着許多分支學科的科學。
3.統計預測和決策科學的發展。傳統的統計是對已經發生和正在發生的事物進行統計,提供統計資料和數據。20世紀30年代以來,特別是第二次世界大戰以來,由於經濟、社會、軍事等方面的客觀需要,統計預測和統計決策科學有了進一步發展。
4.信息論、控制論、系統論與統計學的相互滲透和結合,使統計科學進一步得到發展和日趨完善。信息論、控制論、系統論在許多基本概念、基本思想、基本方法等方面有着共同之處,三者從不同角度、側面提出瞭解決共同問題的方法和原則。三論的創立和發展,改變了世界的科學圖景和科學家的思維方式,也使統計科學和統計工作出現了新的發展趨勢。
5.計算技術和一系列新技術、新方法在統計領域不斷得到開發和應用。伴隨着計算機技術的不斷髮展,使統計數據的蒐集、處理、分析、存貯、傳遞、印製等過程日益現代化,提高了統計工作的效能。計算機技術的發展,日益擴大了傳統的和先進的統計技術的應用領域,促使統計科學和統計工作發生了革命性的變化。而今,計算機科學已經成為統計科學不可分割組成部分。隨着科學技術的發展,統計理論和實踐深度和廣度方面也在不斷髮展。
統計統計學現狀
伴隨着科學技術的飛速發展,通過吸收和融合相關學科的新理論,開發應用新技術和新方法,深化和豐富統計學傳統領域的理論與方法,統計學拓展了新的領域。在國家,社會主義市場經濟體制的逐步建立,實踐發展的需要對統計學提出了新的更多要求。隨着社會主義市場經濟的成長和不斷完善,統計學的潛在功能將得到更進一步的開掘。
第一,對系統性及系統複雜性的認識為統計學的未來發展增加了新的思路。隨着科學融合趨勢的興起,統計學的研究觸角已經向新的領域延伸,開始探索性數據的統計方法的研究。研究的領域向複雜客觀現象擴展。21世紀統計學研究的重點將由確定性現象和隨機現象轉移到對複雜現象的研究,向模糊現象、突變現象及混沌現象等領域拓展。
第二,定性與定量相結合的綜合集成法將為統計分析方法的發展提供新的思想。定性與定量相結合的綜合集成方法是錢學森教授於1990年提出的。這一方法的實質就是將科學理論、經驗知識和專家判斷相結合,提出經驗性的假設,再用經驗數據和資料以及模型對它的確實性進行檢測,經過定量計算及反覆對比,最後形成結論。
第三,統計科學與其他科學滲透將為統計學的應用開闢新的領域。模糊論、突變論及其他新的邊緣學科的出現為統計學的進一步發展提供了新的科學方法和思想。將一些尖端科學成果引入統計學,使統計學與其交互發展將成為統計學發展的趨勢。已經有一些學者開始將控制論、信息論、系統論以及圖論、混沌理論、模糊理論等方法和理論引入統計學。
統計特徵
統計數量性
統計學的認識力首先表現它以精確的和無可爭辯的事實作為基礎,同時,這些事實用數字加以表現,具有簡短性和明顯性。數量性是統計學對象的重要對象特點,這一特點也可把它和其他實質性的社會科學(如政治經濟學)區別開來。
社會經濟統計的認識對象是社會經濟現象的數量方面,包括現象的數量表現、現象之間的數量關係和質量互變的數量界限。
統計總體性
統計學的認識對象是社會經濟現象的總體的數量方面。從總體上研究社會經濟現象的數量方面,是統計學區別於其他社會科學的一個主要特點。如國民經濟總體的數量方面、社會總體的數量方面、地區國民經濟和社會總體的數量方面、各企事業單位總體數量方面等等。
統計具體性
社會經濟統計的認識對象是具體事物的數量方面,而不是抽象的數量關係。這是統計與數學的區別。
統計社會性
統計職能
統計要達到認識社會的目的,不僅需要科學的方法,而且需要強有力的組織領導。因此統計兼有信息、諮詢、監督三種職能。
統計信息職能
是統計部門根據科學的統計指標體系和統計調查方法,靈敏、系統的採集、處理、傳輸、貯存和提供大量的以數據描述為基本特徵的社會經濟信息。
統計諮詢職能
指利用已經掌握的豐富的統計信息資源,運用科學的分析方法和先進的技術手段,深入開展綜合分析和專題研究,為科學決策和管理提供各種可供選擇的諮詢建議與對策方案。
統計監督職能
指根據統計調查和分析,及時、準確地從總體上反映經濟、社會和科技的運行狀態,並對其實行全面、系統的定量檢查、監測和預警,以促使國民經濟按照客觀規律的要求,持續、穩定、協調地發展。
這三種職能是相互聯繫、相輔相成的。統計信息職能是保證諮詢和監督職能有效發揮的基礎;統計諮詢職能是統計薪資職能的延續和深化;而統計監督職能則是信息、諮詢職能基礎上進一步拓展並促進統計信息和諮詢職能的優化。
[7]
統計分析
1)測量的尺度
統計學一共有四種測量的尺度或是四種測量的方式。這四種測量(名目,順序,等距,等比)在統計過程中具有不等的實用性。等比尺度(Ratio measurements)擁有零值及資料間的距離是相等被定義的,等距尺度(Interval measurements)資料間的距離是相等被定義的但是它的零值並非絕對的無而是自行定義的(智力或温度的測量)。(Ordinal measurements)順序尺度的意義並非在其值而是在其順序之上。名目尺度(Nominal measurements)的測量值則不具量的意義。
2)統計技術
以下列出一些有名的統計檢定方法以及可供驗證實驗數據的程序
費雪最小顯著差異法(Fisher's Least Significant Difference test)
學生t檢驗(Student's t-test)
曼-惠特尼 U 檢定(Mann-Whitney U)
迴歸分析(regression analysis)
相關性(correlation)
皮爾森積矩相關係數(Pearson product-moment correlation coefficient)
史匹曼等級相關係數(Spearman's rank correlation coefficient)
卡方分配(chi-square)
3)分析方法總結
1.1 連續性資料的兩組獨立樣本比較
1.1.1 資料符合正態分佈,且兩組方差齊性,直接採用t檢驗。
1.1.2 資料不符合正態分佈,(1)可進行數據轉換、對數轉換等,使之服從正態分佈,然後對轉換後的數據採用t檢驗;(2)採用非參數檢驗、Wilcoxon檢驗。
1.1.3 資料方差不齊,(1)採用Satterthwate的t’檢驗;(2)採用非參數檢驗、Wilcoxon檢驗。
1.2 兩組配對樣本的比較
1.2.1 兩組差值服從正態分佈,採用配對t檢驗。
1.2.2 兩組差值不服從正態分佈,採用wilcoxon的符號配對秩和檢驗。
1.3 多組完全隨機樣本比較
1.3.1 資料符合正態分佈,且各組方差齊性,直接採用完全隨機的方差分析。檢驗結果首先有統計學意義,進一步作兩兩比較,兩兩比較的方法有LSD檢驗、Bonferroni法、tukey法、Scheffe法、SNK法等。
1.3.2 資料不符合正態分佈,或各組方差不齊,則採用非參數檢驗的Kruscal-Wallis法。檢驗結果首先有統計學意義,採用Bonferroni法校正P,然後用成組的Wilcoxon檢驗。
1.4 多組隨機區組樣本比較
1.4.1 資料符合正態分佈,且各組方差齊性,直接採用隨機區組的方差分析。檢驗結果如果有統計學意義,進一步作兩兩那麼比較。
1.4.2 資料不符合正態分佈,或各組方差不齊,則採用非參數檢驗的Fridman檢驗法。檢驗結果為有統計學意義,那麼進一步作兩兩比較,一般採用Bonferroni法校正P值,然後用符號配對的Wilcoxon檢驗。
1.5 需要注意的問題
(2)當進行多組比較時,最容易犯的錯誤是僅比較其中的兩組,而不顧其他組,這樣作容易增大犯假陽性錯誤的概率。正確的做法應該是,先作總的各組間的比較,總的來説差別有統計學意義,然後才能作其中任意兩組的比較,這些兩兩比較有特定的統計方法,上面提到的LSD檢驗、Bonferroni法、tukey法、Scheffe法、SNK法等。絕不能對其中的兩組直接採用t檢驗,這樣即使得出結果也未必正確。
統計學科分支
一些學科大量地利用了應用統計學,以至它們自己已經各自獨立成為一門學科。
1.統計學的分支學科有:
統計學史 | 宏觀經濟統計學 | 文化與體育統計學 | 社會福利與社會保障統計學 | 環境統計學 |
理論統計學 | 微觀經濟統計學 | 衞生統計學 | 自然資源統計學 | 國際比較統計學 |
統計調查分析理論 | 管理統計學 | 司法統計學 | 國際統計學 | 國際標準分類統計學 |
統計監督理論 | 科學技術統計學 | 生活質量統計學 | 國際核算體系與方法論體系 | 國際標準分類統計學 |
統計預測理論 | 描述統計學 | 環境與生態統計學 | 社會統計學 | 生態平衡統計學 |
統計邏輯學 | 經濟統計學 | 統計學 | 教育統計學 | 工程統計學 |
水文統計學 | 水文統計學 | 社會經濟統計學 | 生物統計學 | 心理統計學 |
統計物理學 | 統計語言學 | 化學統計學 | 數理統計學 | 化學統計學 |
推斷統計學 | 農村經濟調查 | 生活質量統計學 | 商務統計學 | 檔案統計學 |
生活質量統計學 | 人口統計學 | 統計法學 |
2.延伸學科
有些科學廣泛的應用統計的方法使得他們擁有各自的統計術語,這些學科包括:
人口統計 | 資料採礦(應用統計學以及圖形從資料中獲取知識) | 電機統計 | 化學與程序分析(所有有關化學的資料分析與化工科學) |
經濟統計學 | 生物統計 | 統計物理學 | 社會統計(包括所有的社會科學﹚ |
商用統計 | 農業科學 | 心理統計學 | 文獻統計分析 |
教育統計學 | 運動統計學,特別是棒球以及曲棍球 |
統計對於商業以及工業是一個基本的關鍵,被用來了解與測量系統變異性,程序控制,對資料作出結論,並且完成資料取向的決策。
統計理論淵源
1.正態曲線
1733年,德-莫佛(De Moivre)在給友人分發的一篇文章中給出了正態曲線1783年,拉普拉斯建議正態曲線方程適合於表示誤差分佈的概率。
正態分佈在十九世紀前葉因高斯的工作而加以推廣,所以通常稱作高斯分佈。卡爾-皮爾遜指出德-莫佛是正態曲線的創始人,第一個稱它為正態分佈,但人們仍習慣稱之高斯分佈。
2.最小二乘法
1805年,Legendre提出最小二乘法,Gauss聲稱自己在1794年用過,並在1809年基於誤差的高斯分佈假設,給出了嚴格推導。
3.總體和樣本
在早期文獻中可找到由某個總體中抽樣的明確例子,然而從總體中只能取得樣本的認識常常是缺乏的。 ----K.皮爾遜時代
到十九世紀末,對樣本和總體的區別已普遍知道,然而這種區分並不一定總被堅持。----1910年Yule在自己的教科書中指出。
在 1900年代的早期,區分變的更清楚,並在1922年被Fisher特別強調。----Fisher在1922年發表的論文《On the mathematical foundation of theoretical statistics》,説明了總體和樣本的聯繫和區別,以及其他概念,奠定了“理論統計學”的基礎。
4.期望、標準差和方差
力學中的矩和統計學中的中數兩者之間的相似性已被概率領域的早期工作者注意到,而K.皮爾遜在1893年第一次在統計意義下使用“矩”。
5.卡方統計量
卡方統計量,是卡-皮爾遜提出用於檢驗已知數據是否來自某一特定的隨機模型,或已知數據是否與已給定的假設一致。卡方檢驗被譽為自1900年以來在科學技術所有分支中20個尖端發明之一,甚至敵人Fisher都對此有極高評價。
6.矩估計與最大似然
卡-皮爾遜提出了使用矩來估計參數的方法。
Fisher則在1912年到1922年間提出了最大似然估計方法,基於直覺,提出了估計的一致性、有效性和充分性的概念。
7.概率的公理化
1933年,前蘇聯數學家柯爾莫格洛夫(Kolmogorov)發表了《概率論的基本概念》,奠定了概率論的嚴格數學基礎。
8.貝葉斯定理
貝葉斯對統計學幾乎沒有什麼貢獻,然而貝葉斯的一篇文章成為貝葉斯學派統計學的思想模式的焦點,這一篇文章發表於1763年,由貝葉斯的朋友、著名人壽保險原理的開拓者Richard Price在貝葉斯死後提出來的----貝葉斯定理。
概率思想的兩種方法,(1)作為一個物理系統內在的一種物理特性,(2)對某一陳述相信程度的度量。 在1950年代後期止,多數統計學家採取第一種觀點,即概率的相對頻數解釋,這一時期貝葉斯定理僅應用在概率能在頻數框架內解釋的場合。
9.其他
在十九世紀中葉,三個不同領域產生的重要發展都是基於隨機性是自然界固有的這個前提上的。
阿道夫·凱特萊特(A. Quetlet,1869)利用概率性的概念來描述社會學和生物學現象孟德(G.Mendel,1870)通過簡單的隨機性結構公式化了他的遺傳法則。
1859 年,達爾文發表了《物種起源》,達爾文的表兄弟高爾登爵士開始利用概率工具分析生物現象,對生物計量學的基礎做出了重要貢獻(可以稱他為生物信息學之父),高爾登爵士是第一個使用相關和迴歸這兩個重要概念的人,他還是中位數和百分位數這種概念的創始人。
受高爾登工作影響,在倫敦的大學學院工作的卡爾-皮爾遜開始把數學和概率論應用於達爾文進化論,從而開創了現代統計時代,贏得了統計之父的稱號,1901年Biometrika第一期出版(卡-皮爾遜是創始人之一)。