-
高斯過程
鎖定
高斯過程(Gaussian Process, GP)是概率論和數理統計中隨機過程(stochastic process)的一種,是一系列服從正態分佈的隨機變量(random variable)在一指數集(index set)內的組合
[1]
。
- 中文名
- 高斯過程
- 外文名
- Gaussian Process, GP
- 類 型
- 隨機過程
- 學 科
- 統計學
- 應 用
- 時間序列分析,機器學習
高斯過程定義
高斯過程指的是一組隨機變量的集合,這個集合裏面的任意有限個隨機變量都服從聯合正態分佈
[2]
[1]
。具體地,對概率空間
內由指數集
索引的隨機變量成員(indexed family),即隨機過程
,當
的子集
對任意
都是高斯隨機向量時,
被稱為高斯過程,且其分佈,即布雷爾測度(Borel measure)
,被稱為高斯測度(Gaussian measure)
[4]
。
高斯過程理論
平穩高斯過程(stationary Gaussian process)
上述定義的另一等價表述為:若高斯過程
的數學期望和協方差在指數集
內平移不變(transformation invariant),則
為平穩高斯過程。該表述的公式形式為:
核函數(kernel function)
主詞條:核函數
高斯過程的性質與其協方差函數有密切聯繫,在構造高斯過程時,一些特定形式的協方差函數被稱為核函數。核函數的選擇要求滿足Mercer定理(Mercer's theorem),即核函數在樣本空間內的任意格拉姆矩陣(Gram matrix)為半正定矩陣(semi-positive definite)。這裏對高斯過程常見的核函數類型進行總結。
1. 平穩高斯過程的核函數
構建平穩高斯過程時,常用的核函數有:
徑向基函數核(RBF kernel) | |
馬頓核(Matérn kernel) | |
指數函數核(exponential kernel) | |
二次有理函數核(rational quadratic kernel, RQ kernel) |
式中
,馬頓核中的
為修正貝塞爾函數(modified Bessel function),
為表徵核函數的特徵長度尺度(characteristic length-scale)的超參數。上述核函數間存在聯繫,當
時,馬頓核和RQ核等價於以
為特徵尺度的RBF核,指數函數核是馬頓核在
的特殊形式。
核函數的兩個重要度量是單調性和平滑性(smoothness)。表中的核函數均是單調遞減函數,因此樣本間的相關性與樣本間距離成反比,此時特徵長度尺度越小,樣本間的相關性越高。隨機過程的平滑性由均方導數(mean squared derivative)描述,表中RBF核對應無限均方可導的平滑高斯過程;馬頓核與RQ核的均方可導性與其超參數有關,例如在
取1.5和2.5時,馬頓核是1階和2階均方可導的;指數函數核對應的高斯過程是奧恩斯坦-烏倫貝克過程(Ornstein-Uhlenbeck Process, OU),OU過程是一個具有強馬爾可夫性且均方不可導的隨機過程(參見特例部分)。
2. 各項同性(isotropy)與各向異性(anisotropy)核函數
若高斯過程為高斯隨機場,對應的指數集表示空間時,其核函數的選擇有各向同性與各向異性之分。各向同性表示樣本的協方差與其向量的方向無關,即僅與距離有關,各向異性反之。
對先前表中的平穩核函數,若定義
,則其為各向同性核函數,若定義
則其為各向異性核函數,
是表徵各向異性的矩陣函數,其對角元素表示不同維度下所取的尺度。舉例説明,對RBF核,其一般形式可表示為:
3. 非平穩核函數
週期核(periodic kernel)與多項式函數核(polynominal kernel)是常見的非平穩核函數。對前者,平穩核函數可以用於構建週期核:
。式中
表示該核函數具有的週期,例如由RBF核得到的週期核的形式為:
。對後者,多項式函數核也被稱為內積核(dot product kernel),當多項式函數核為1階時,多項式函數核退化為線性核。多項式函數核是非平穩的,但其對以原點為中心的旋轉變換保持不變。高階內積核函數的取值在
時呈非線性增長
[2]
。內積核函數通常被應用於高維的高斯過程分類問題
[4]
。
高斯過程性質
由高斯過程的定義可知,高斯過程的任意有限指數集下的隨機變量都服從聯合正態分佈,因此由正態分佈的可加性,高斯過程(和其子集)的任意線性組合也是高斯過程。此外,由聯合正態分佈性質可知,若高斯過程有互不相關的隨機變量
則
相互獨立。
高斯過程由其數學期望和核函數完全定義,核函數賦予高斯過程平滑性(smoothness)、各向同性(isotropy)、週期性和平穩性。平穩高斯過程的數學期望是一常數,因此由核函數完全定義。
[1]
[6]
。
高斯過程具有邊緣分佈性質(marginalization property),若高斯過程有服從聯合正態分佈的隨機向量
,則其該向量中的隨機變量
,且隨機變量間有條件分佈:
高斯過程特例
維納過程(Wiener process)
主詞條:維納過程
非整數布朗運動(Fractional Brownian Motion)
奧恩斯坦-烏倫貝克過程(Ornstein-Uhlenbeck Process, OU)
布朗橋(Brownian bridge)
高斯過程推廣
高斯過程迴歸(Gaussian Process Regression, GPR)
主詞條:高斯過程迴歸
2. 求解超參數:在給定學習樣本
後GPR由貝葉斯定理(Bayes' theorem)求解超參數後驗:
式中
為超參數的似然,對正態似然的情形,GPR通常使用極大似然估計(Maximum Likelihood Estimation, MLE)按非線性優化方法求解超參數;對非正態似然的情形,可使用解析近似(analytical approximation)和蒙特卡羅方法(Monte Carlo method)
[1]
。
作為具有全貝葉斯特性(full Bayesian)的非參數模型,GPR可提供預測結果的後驗,且在似然服從正態分佈時,該後驗具有解析形式,因此其是一個具有泛用性和可解析性的概率模型。此外,在核函數和指數集滿足特定條件時,GPR是任意函數的通用近似(universal approximator)。
高斯過程分類(Gaussian Process Classification, GPC)
GPC與logistic迴歸(logistic regression)的關係可類比權重空間下GPR與貝葉斯線性迴歸的關係
[1]
。對高斯過程下的數據
和分類標籤
,依據貝葉斯定理(Bayes’ theorem)
可以表示為
或
。兩種表示方法定義了兩類GPC模型,即生成模型(generative model)和判別模型(discriminative model),前者對
建模,後者對
建模
[1]
。
對判別模型,在二元分類(binary classification)中,給定權重矩陣和從實數域映射至
區間的響應函數(例如Sigmoid函數),可定義如下的線性分類器(linear classifier):
GPC的似然是潛函數對學習樣本的因子乘積:
,考慮Sigmoid函數的表達式,該形式不是正態分佈,因此GPC的後驗沒有解析形式,要求使用非正態似然的求解方法,例如使用解析近似將非正態後驗近似表示為正態後驗。
其它
除GPR和GPC外,高斯過程建模可以有其它更復雜的形式,例如半參數高斯過程(Semi-parametric Gaussian Processes, SGP)
[12]
、深度高斯過程(Deep Gaussian Process, DGP)
[13]
、可加高斯過程(Additive Gaussian Process, AGP)等
[13]
。
高斯過程應用
高斯過程主要應用於各領域的建模和預報,在時間序列分析中,高斯過程被用於時間序列的多步前向預報(multi-step-ahead prediction)
[14]
、在信號處理中,高斯過程建模是處理非線性信號的工具
[15]
、在人工智能領域,GPR和GPC是被廣泛使用的機器學習算法
[1]
,具有卷積結構的高斯過程(Convolutional Gaussian Processes, CGP)在圖像處理問題中表現出了良好效果
[16]
。此外一些高斯過程可以模擬特殊的科學現象,例如OU過程被用於神經活動的建模
[17]
、布朗橋被用於模擬生物的遷徙行為
[18]
。
- 參考資料
-
- 1. Rasmussen, C.E. and Williams, C.K.I.. Gaussian processes in machine learning:MIT Press,2006:Chapter 2-5, pp.7-128, Appendix B
- 2. Gibbs, M.N., 1998. Bayesian Gaussian processes for regression and classification. Doctoral dissertation, University of Cambridge.
- 3. Brown, R. G. and Hwang, P. Y. .Introduction to random signals and applied Kalman filtering (Vol. 3).New York:Wiley,1992:Chapter 2 (72-111)
- 4. Khoshnevisan, D. and Alberts, T., Topics in Probability: Gaussian Analysis (Chapter 6) .Department of Mathematics, University of Utah[引用日期2018-10-25]
- 5. Vanmarcke, E. .Random fields: analysis and synthesis:World Scientific,2010:13-17
- 6. Barber, D.Bayesian reasoning and machine learning:Cambridge University Press,2012:Chapter 19 (347-363)
- 7. Bokma, F., Godinot, M., Maridet, O., Ladevèze, S., Costeur, L., Solé, F., et al. (2015). Testing for Depéret's rule (body size increase) in mammals using combined extinct and extant data. Systematic biology, 65(1), 98-108.
- 8. Mandelbrot, B.B. and Van Ness, J.W., 1968. Fractional Brownian motions, fractional noises and applications. SIAM review, 10(4), pp.422-437.
- 9. Hurst, H. E., 1951. Long-term storage capacity of reservoirs. Trans. Amer. Soc. Civil Eng., 116, pp.770-799.
- 10. Uhlenbeck, G.E. and Ornstein, L.S., 1930. On the theory of the Brownian motion. Physical review, 36(5), p.823.
- 11. Mansuy, R. and Yor, M..Aspects of Brownian motion:Springer Science & Business Media.,2008:1-3
- 12. Wu, T. and Movellan, J., 2012. Semi-parametric Gaussian process for robot system identification. In Intelligent Robots and Systems (IROS), 2012 IEEE/RSJ International Conference on (pp. 725-731). IEEE.
- 13. Duvenaud, D., 2014. Automatic model construction with Gaussian processes. Doctor of Philosophy Thesis. University of Cambridge.
- 14. Girard, A., Rasmussen, C.E., Candela, J.Q. and Murray-Smith, R., 2003. Gaussian process priors with uncertain inputs application to multiple-step ahead time series forecasting. In Advances in neural information processing systems (pp. 545-552).
- 15. Pérez-Cruz, F., Van Vaerenbergh, S., Murillo-Fuentes, J.J., Lázaro-Gredilla, M. and Santamaria, I., 2013. Gaussian processes for nonlinear signal processing: An overview of recent advances. IEEE Signal Processing Magazine, 30(4), pp.40-50.
- 16. van der Wilk, M., Rasmussen, C.E., and Hensman, J., 2017. Convolutional Gaussian Processes. In Advances in Neural Information Processing Systems (pp. 2849-2858).
- 17. Ricciardi, L. M., and Sacerdote, L., 1979. The Ornstein-Uhlenbeck process as a model for neuronal activity. Biological cybernetics, 35(1), pp.1-9.
- 18. Horne, J.S., Garton, E.O., Krone, S.M. and Lewis, J.S., 2007. Analyzing animal movements using Brownian bridges. Ecology, 88(9), pp.2354-2363.
- 收起