-
統計學習理論
鎖定
統計學習理論損失函數
期望風險, 經驗風險, 結構風險。
統計學習理論VC維
統計學習理論從一些觀測(訓練)樣本出發,從而試圖得到一些不能通過原理進行分析得到的規律,並利用這些規律來分析客觀對象,從而可以利用規律來對未來的數據進行較為準確的預測。例如,對全國未來幾年人口數量進行預測,就需要先採集到過去幾年甚至幾十年的人口數據,並對其變化規律做出統計學方面的分析和歸納,從而得到一個總體的預測模型,這樣就可以對未來幾年的人口總體走勢作一個大概的估計和預測。
顯然,這裏採集到的過去人口的數據越準確,年份越長,分析歸納得到的統計規律就越準確,對未來人口預測就越接近真實水平。另外,如果只採集到了過去幾年的人口數據,那麼,這樣得到的統計模型無論如何也是不夠完美的。
統計學習理論理論研究
所以,不難發現,統計學習理論主要是研究以下三個問題:
① 學習的統計性能:通過有限樣本能否學習得到其中的一些規律?
② 學習算法的收斂性:學習過程是否收斂?收斂的速度如何?
③ 學習過程的複雜性:學習器的複雜性、樣本的複雜性、計算的複雜性如何?
如今,統計學習理論在模式分類、
[1]
迴歸分析、概率密度估計方面發揮着越來越重要的作用。
統計學習理論機器學習
統計模式識別問題可以看做基於機器學習的一個特例。而基於機器學習的方法是現代智能技術中十分重要的一個方面,主要研究如何從一些樣本出發得出不能通過原理分析得到的規律,利用這些規律去分析客觀對象,對未來數據或無法觀測的數據進行預測。
統計學中關於估計的一致性、無偏性和估計方差的界等,以及分類錯誤率等漸近性特徵是實際應用中往往無法得不到滿足,而這種問題在高維空間時尤其如此。這實際上是包含模式識別和神經網絡等在內的現有的機器學習理論和方法中的一個根本問題。Viadimir N.Vapnik等人在20世紀60年代就開始研究有限樣本情況下的機器學習問題,但由於當時這些研究尚不十分完善,在解決模式識別問題中往往區域保守,且數學上比較艱難,而直到90年代以前並沒有提出能夠將其理論付諸實現的較好方法。加之當時正處在其它學習方法飛速發展的時期,因此這些研究一直沒有得到充分的重視。
直到90年代中,有限樣本情況下的
[2]
機器學習理論研究逐漸成熟起來,形成了一個較完善的理論體系---統計學習理論。而同時,神經網絡等較新興的機器學習方法的研究則遇到了一些重要的困難,比如如何確定網絡結構的問題、過學習與欠學習的難題、局部極小點的問題等。在這種情況下,試圖從更本質上研究機器學習問題的統計學習理論逐步得到重視。
- 參考資料
-
- 1. 多元迴歸分析與Logistic迴歸分析的應用研究 .知網.2008-04-01[引用日期2017-03-10]
- 2. 機器學習研究 .知網.2003-06-25[引用日期2017-03-10]