複製鏈接
請複製以下鏈接發送給好友

高斯過程

鎖定
高斯過程(Gaussian Process, GP)是概率論數理統計隨機過程(stochastic process)的一種,是一系列服從正態分佈隨機變量(random variable)在一指數集(index set)內的組合 [1] 
高斯過程中任意隨機變量的線性組合都服從正態分佈,每個有限維分佈都是聯合正態分佈,且其本身在連續指數集上的概率密度函數即是所有隨機變量的高斯測度,因此被視為聯合正態分佈的無限維廣義延伸 [2]  。高斯過程由其數學期望協方差函數完全決定,並繼承了正態分佈的諸多性質 [1] 
高斯過程的例子包括維納過程、奧恩斯坦-烏倫貝克過程等 [3]  。對高斯過程進行建模和預測是機器學習信號處理等領域的重要內容,其中常見的模型包括高斯過程迴歸(Gaussian Process Regression, GPR)和高斯過程分類(Gaussian Process Classification, GPC) [1]  。高斯過程的命名來自德國數學家卡爾·弗里德里希·高斯(Carl Friedrich Gauss)以紀念其提出正態分佈概念。
中文名
高斯過程
外文名
Gaussian Process, GP
類    型
隨機過程
學    科
統計學
應    用
時間序列分析,機器學習

目錄

高斯過程定義

高斯過程指的是一組隨機變量的集合,這個集合裏面的任意有限個隨機變量都服從聯合正態分佈 [2]  [1]  。具體地,對概率空間
內由指數集
索引的隨機變量成員(indexed family),即隨機過程
,當
的子集
對任意
都是高斯隨機向量時,
被稱為高斯過程,且其分佈,即布雷爾測度(Borel measure)
,被稱為高斯測度(Gaussian measure) [4] 
該定義有如下引理:對高斯隨機向量
,若有指數集
,則隨機過程
是高斯過程;反之,若隨機過程
是高斯過程,則
是高斯隨機向量 [4] 
對指數集
指定的高斯過程
,其數學期望協方差函數(covariance function)有如下定義 [4] 
對高斯過程的定義中沒有包含指數集的先驗假設,這意為着指數集可以有任意的拓撲結構,高斯過程通常考慮其指數集擁有無窮個元素的情形,常見形式包括時間序列(timeseries)和空間位置。在指數集對應空間關係時,高斯過程也被稱為高斯隨機場(Gaussian random field) [5]  。高斯過程在文獻中常記為

高斯過程理論

平穩高斯過程(stationary Gaussian process)
作為隨機過程之一,高斯過程的重要成員是平穩高斯過程,其定義如下 [4] 
設高斯過程
的指數集
是一個阿貝爾羣(abelian group)且對任意
,隨機向量
具有相同的對應關係,則
被稱為平穩高斯過程 [4] 
上述定義的另一等價表述為:若高斯過程
的數學期望和協方差在指數集
內平移不變(transformation invariant),則
為平穩高斯過程。該表述的公式形式為:
平穩高斯過程的均值和變化幅度穩定,為高斯過程的建模帶來了便利,因此在高斯過程迴歸和分類問題中被廣泛使用 [1] 
核函數(kernel function)
主詞條:核函數
高斯過程的性質與其協方差函數有密切聯繫,在構造高斯過程時,一些特定形式的協方差函數被稱為核函數。核函數的選擇要求滿足Mercer定理(Mercer's theorem),即核函數在樣本空間內的任意格拉姆矩陣(Gram matrix)為半正定矩陣(semi-positive definite)。這裏對高斯過程常見的核函數類型進行總結。
1. 平穩高斯過程的核函數
構建平穩高斯過程時,常用的核函數有:
徑向基函數核(RBF kernel)
馬頓核(Matérn kernel)
指數函數核(exponential kernel)
二次有理函數核(rational quadratic kernel, RQ kernel)
式中
,馬頓核中的
為修正貝塞爾函數(modified Bessel function),
為表徵核函數的特徵長度尺度(characteristic length-scale)的超參數。上述核函數間存在聯繫,當
時,馬頓核和RQ核等價於以
為特徵尺度的RBF核,指數函數核是馬頓核在
的特殊形式。
各向同性(a)和兩類各向異性(b, c)的RBF核 各向同性(a)和兩類各向異性(b, c)的RBF核 [1]
核函數的兩個重要度量是單調性和平滑性(smoothness)。表中的核函數均是單調遞減函數,因此樣本間的相關性與樣本間距離成反比,此時特徵長度尺度越小,樣本間的相關性越高。隨機過程的平滑性由均方導數(mean squared derivative)描述,表中RBF核對應無限均方可導的平滑高斯過程;馬頓核與RQ核的均方可導性與其超參數有關,例如在
取1.5和2.5時,馬頓核是1階和2階均方可導的;指數函數核對應的高斯過程是奧恩斯坦-烏倫貝克過程(Ornstein-Uhlenbeck Process, OU),OU過程是一個具有強馬爾可夫性且均方不可導的隨機過程(參見特例部分)。
2. 各項同性(isotropy)與各向異性(anisotropy)核函數
若高斯過程為高斯隨機場,對應的指數集表示空間時,其核函數的選擇有各向同性與各向異性之分。各向同性表示樣本的協方差與其向量的方向無關,即僅與距離有關,各向異性反之。
對先前表中的平穩核函數,若定義
,則其為各向同性核函數,若定義
則其為各向異性核函數,
是表徵各向異性的矩陣函數,其對角元素表示不同維度下所取的尺度。舉例説明,對RBF核,其一般形式可表示為:
式中
的3個選擇分別對應各向同性、幾何各向異性(geometric anisotropy)和完全各向異性的RBF核。
3. 非平穩核函數
週期核(periodic kernel)與多項式函數核(polynominal kernel)是常見的非平穩核函數。對前者,平穩核函數可以用於構建週期核:
。式中
表示該核函數具有的週期,例如由RBF核得到的週期核的形式為:
。對後者,多項式函數核也被稱為內積核(dot product kernel),當多項式函數核為1階時,多項式函數核退化為線性核。多項式函數核是非平穩的,但其對以原點為中心的旋轉變換保持不變。高階內積核函數的取值在
時呈非線性增長 [2]  。內積核函數通常被應用於高維的高斯過程分類問題 [4] 

高斯過程性質

由高斯過程的定義可知,高斯過程的任意有限指數集下的隨機變量都服從聯合正態分佈,因此由正態分佈的可加性,高斯過程(和其子集)的任意線性組合也是高斯過程。此外,由聯合正態分佈性質可知,若高斯過程有互不相關的隨機變量
相互獨立
高斯過程由其數學期望和核函數完全定義,核函數賦予高斯過程平滑性(smoothness)、各向同性(isotropy)、週期性和平穩性。平穩高斯過程的數學期望是一常數,因此由核函數完全定義。 [1]  [6] 
高斯過程具有邊緣分佈性質(marginalization property),若高斯過程有服從聯合正態分佈的隨機向量
,則其該向量中的隨機變量
,且隨機變量間有條件分佈:
高斯過程的邊緣分佈性質意味着由大的隨機變量集得到的結果不會對小的隨機變量造成影響。對有限個隨機變量的高斯過程,只要協方差函數定義了協方差矩陣的所有元素,則該性質依然成立 [1] 

高斯過程特例

維納過程(Wiener process)
主詞條:維納過程
維納過程(布朗運動)實例。左側為時間序列,右側為概率密度。 維納過程(布朗運動)實例。左側為時間序列,右側為概率密度。 [7]
維納過程也被稱為布朗運動(Brownian Motion),是一個
、數學期望為0且協方差函數
的高斯過程 [3]  。維納過程是非平穩的,且其差值
服從相互獨立正態分佈,具有強馬爾可夫性,因此維納過程是一個高斯-馬爾可夫過程(Gauss-Markov process) [1]  [4] 
非整數布朗運動(Fractional Brownian Motion)
非整數布朗運動是一類特殊的高斯過程。非整數布朗運動有
、數學期望為0和如下形式的協方差函數 [8] 
在時間序列中,上式的
被稱為赫斯特指數(Hurst exponent),可以度量非整數布朗運動的記憶性 [9]  。當其大於0.5時,非整數布朗運動的差值有正相關;當其小於0.5時有負相關,當其等於0.5時,非整數布朗運動沒有記憶性,等價於一個維納過程 [8] 
奧恩斯坦-烏倫貝克過程(Ornstein-Uhlenbeck Process, OU)
OU過程是一個平穩的高斯-馬爾可夫過程,其數學期望為0且以指數函數為核函數。OU過程與維納過程存在聯繫,是隨機微分方程:
的解 [10] 
布朗橋(Brownian bridge)
布朗橋是一個平穩高斯過程,布朗橋有
,數學期望為0,協方差函數為
。在連續時間域
上,布朗橋與維納過程有關 [11] 

高斯過程推廣

高斯過程迴歸(Gaussian Process Regression, GPR)
主詞條:高斯過程迴歸
GPR實例,左圖為三個0均值先驗;右圖為後驗 GPR實例,左圖為三個0均值先驗;右圖為後驗 [1]
GPR是將回歸模型所對應的函數空間(functional space)視為高斯過程:
從而通過學習樣本估計迴歸模型參數
監督學習過程。作為一般性介紹,GPR可分為3個部分:
1. 構建高斯過程先驗:高斯過程由其數學期望和協方差函數完全決定,常見的選擇是平穩高斯過程,即數學期望為一常數,協方差函數取平穩高斯過程可用的核函數,使用最多的核函數是RBF核 [1] 
2. 求解超參數:在給定學習樣本
後GPR由貝葉斯定理(Bayes' theorem)求解超參數後驗:
式中
為超參數的似然,對正態似然的情形,GPR通常使用極大似然估計(Maximum Likelihood Estimation, MLE)按非線性優化方法求解超參數;對非正態似然的情形,可使用解析近似(analytical approximation)和蒙特卡羅方法(Monte Carlo method) [1] 
3. 對測試樣本進行預測:對測試樣本
,使用0均值高斯過程先驗的GPR可給出迴歸結果
的後驗。在正態似然的情形下,GPR的預測具有如下解析形式 [1] 
式中的核矩陣表示如下:
作為具有全貝葉斯特性(full Bayesian)的非參數模型,GPR可提供預測結果的後驗,且在似然服從正態分佈時,該後驗具有解析形式,因此其是一個具有泛用性和可解析性的概率模型。此外,在核函數和指數集滿足特定條件時,GPR是任意函數的通用近似(universal approximator)。
高斯過程分類(Gaussian Process Classification, GPC)
GPC與logistic迴歸(logistic regression)的關係可類比權重空間下GPR與貝葉斯線性迴歸的關係 [1]  。對高斯過程下的數據
和分類標籤
,依據貝葉斯定理(Bayes’ theorem)
可以表示為
。兩種表示方法定義了兩類GPC模型,即生成模型(generative model)和判別模型(discriminative model),前者對
建模,後者對
建模 [1] 
對判別模型,在二元分類(binary classification)中,給定權重矩陣和從實數域映射至
區間的響應函數(例如Sigmoid函數),可定義如下的線性分類器(linear classifier):
GPC定義潛函數(latent function)
並賦予其正態先驗
,隨後使用獨立觀測的標籤數據
計算潛函數和其經過響應函數後的輸出 [1] 
在由二元分類過渡至多元分類時,需要將響應函數替換為歸一化指數函數(softmax function) [1]  。在高斯過程中構建生成模型的常見做法是對每個分類標籤建立
並提供數學期望和核函數的先驗。使用生成模型對
建模會得到與判別模型相同的結果 [1]  。生成模型和判別模型效果相當,判別模型不考慮數據和標籤的聯合分佈直接輸出分類結果,因此有更少的變量需要學習,有利於提高學習效率和精度;生成模型由於估計了
,因此更適用於應對複雜數據,例如缺失值、極端值、無標籤值的情形 [1] 
GPC的似然是潛函數對學習樣本的因子乘積:
,考慮Sigmoid函數的表達式,該形式不是正態分佈,因此GPC的後驗沒有解析形式,要求使用非正態似然的求解方法,例如使用解析近似將非正態後驗近似表示為正態後驗。
其它
除GPR和GPC外,高斯過程建模可以有其它更復雜的形式,例如半參數高斯過程(Semi-parametric Gaussian Processes, SGP) [12]  、深度高斯過程(Deep Gaussian Process, DGP) [13]  、可加高斯過程(Additive Gaussian Process, AGP)等 [13] 

高斯過程應用

高斯過程主要應用於各領域的建模和預報,在時間序列分析中,高斯過程被用於時間序列的多步前向預報(multi-step-ahead prediction) [14]  、在信號處理中,高斯過程建模是處理非線性信號的工具 [15]  、在人工智能領域,GPR和GPC是被廣泛使用的機器學習算法 [1]  ,具有卷積結構的高斯過程(Convolutional Gaussian Processes, CGP)在圖像處理問題中表現出了良好效果 [16]  。此外一些高斯過程可以模擬特殊的科學現象,例如OU過程被用於神經活動的建模 [17]  、布朗橋被用於模擬生物的遷徙行為 [18] 
參考資料
  • 1.    Rasmussen, C.E. and Williams, C.K.I.. Gaussian processes in machine learning:MIT Press,2006:Chapter 2-5, pp.7-128, Appendix B
  • 2.    Gibbs, M.N., 1998. Bayesian Gaussian processes for regression and classification. Doctoral dissertation, University of Cambridge.
  • 3.    Brown, R. G. and Hwang, P. Y. .Introduction to random signals and applied Kalman filtering (Vol. 3).New York:Wiley,1992:Chapter 2 (72-111)
  • 4.    Khoshnevisan, D. and Alberts, T., Topics in Probability: Gaussian Analysis (Chapter 6)  .Department of Mathematics, University of Utah[引用日期2018-10-25]
  • 5.    Vanmarcke, E. .Random fields: analysis and synthesis:World Scientific,2010:13-17
  • 6.    Barber, D.Bayesian reasoning and machine learning:Cambridge University Press,2012:Chapter 19 (347-363)
  • 7.    Bokma, F., Godinot, M., Maridet, O., Ladevèze, S., Costeur, L., Solé, F., et al. (2015). Testing for Depéret's rule (body size increase) in mammals using combined extinct and extant data. Systematic biology, 65(1), 98-108.
  • 8.    Mandelbrot, B.B. and Van Ness, J.W., 1968. Fractional Brownian motions, fractional noises and applications. SIAM review, 10(4), pp.422-437.
  • 9.    Hurst, H. E., 1951. Long-term storage capacity of reservoirs. Trans. Amer. Soc. Civil Eng., 116, pp.770-799.
  • 10.    Uhlenbeck, G.E. and Ornstein, L.S., 1930. On the theory of the Brownian motion. Physical review, 36(5), p.823.
  • 11.    Mansuy, R. and Yor, M..Aspects of Brownian motion:Springer Science & Business Media.,2008:1-3
  • 12.    Wu, T. and Movellan, J., 2012. Semi-parametric Gaussian process for robot system identification. In Intelligent Robots and Systems (IROS), 2012 IEEE/RSJ International Conference on (pp. 725-731). IEEE.
  • 13.    Duvenaud, D., 2014. Automatic model construction with Gaussian processes. Doctor of Philosophy Thesis. University of Cambridge.
  • 14.    Girard, A., Rasmussen, C.E., Candela, J.Q. and Murray-Smith, R., 2003. Gaussian process priors with uncertain inputs application to multiple-step ahead time series forecasting. In Advances in neural information processing systems (pp. 545-552).
  • 15.    Pérez-Cruz, F., Van Vaerenbergh, S., Murillo-Fuentes, J.J., Lázaro-Gredilla, M. and Santamaria, I., 2013. Gaussian processes for nonlinear signal processing: An overview of recent advances. IEEE Signal Processing Magazine, 30(4), pp.40-50.
  • 16.    van der Wilk, M., Rasmussen, C.E., and Hensman, J., 2017. Convolutional Gaussian Processes. In Advances in Neural Information Processing Systems (pp. 2849-2858).
  • 17.    Ricciardi, L. M., and Sacerdote, L., 1979. The Ornstein-Uhlenbeck process as a model for neuronal activity. Biological cybernetics, 35(1), pp.1-9.
  • 18.    Horne, J.S., Garton, E.O., Krone, S.M. and Lewis, J.S., 2007. Analyzing animal movements using Brownian bridges. Ecology, 88(9), pp.2354-2363.
展開全部 收起