-
克里金法
鎖定
克里金法(Kriging)是依據協方差函數對隨機過程/隨機場進行空間建模和預測(插值)的迴歸算法
[1]
。在特定的隨機過程,例如固有平穩過程中,克里金法能夠給出最優線性無偏估計(Best Linear Unbiased Prediction, BLUP),因此在地統計學中也被稱為空間最優無偏估計器(spatial BLUP)
[1]
。
- 中文名稱
- 克里金法
- 英文名稱
- Kriging method
- 定 義
- 基於一般最小二乘算法的隨機插值技術,用方差圖作為權重函數;這一技術可被應用於任何需要用點數據估計其在地表上分佈的現象。
- 應用學科
- 地理學(一級學科),數量地理學(二級學科)
以上內容由全國科學技術名詞審定委員會審定公佈
- 中文名
- 克里金法
- 外文名
- Kriging
- 類 型
- 非參數算法,迴歸算法
- 提出者
- Georges Matheron
- 提出時間
- 1963年
- 學 科
- 統計學,地統計學
- 應 用
- 空間插值
克里金法歷史
克里金法的命名來自於南非金礦工程師丹尼·克里格(Danie G. Krige),以紀念其使用迴歸方法對空間場進行預測的開創性研究
[3-4]
。克里金法(普通克里金)的提出者為法國統計學家喬治斯·馬瑟倫(Georges Matheron),在其1963年發表的著作Principles of geostatistics中,馬瑟倫將克里金法定義為“對已知樣本加權平均以估計平面上的未知點,並使得估計值與真實值的數學期望相同且方差最小的地統計學過程”
[5]
(原文)“...a geostatistical procedure called "kriging" ... consists in estimating the grade of a panel by computing the weighted average of available samples,..., we attempt to evaluate the unknown grade z of the panel with a linear estimator
…
and
must have the same average value within the whole large field … the (weights) have such values that estimation variance of
by
,… should take the smallest possible value.”
馬瑟倫在提出克里金法的同時使用了BLUP理論,為克里金法的發展奠定了基礎。但在這一時期,不同領域的諸多研究都得到了等價或類似於克里金的估計方法。
在大氣科學領域,前蘇聯氣象學家列夫·舍米諾維奇·加丁(Лев Семено́вич Гандин)在其1963年發表的著作“氣象場的客觀分析(Objective analysis of meteorological field)”中開展了與馬瑟倫相同的工作。在該著作1965年的英語譯本中,簡單克里金被稱為“最優插值(optimum interpolation)”、普通克里金被稱為“歸一化權重最優插值(optimum interpolation with normalization of weighting fuctors )”、協同克里金被稱為“最優空間場匹配(optimum matching of flelds)”
[6]
。加丁在其著作中同樣發展了克里金法的BLUP理論並討論了克里金法在氣象領域的應用。
在高斯過程領域,安德雷·柯爾莫哥洛夫(Андрей Николаевич Колмогоров)
[7]
和羅伯特·維納(Robert Wiener)
[8]
在二十世紀40年代開展了包括線性預測和BLUP理論在內的工作,並將其應用於時間序列數據中,被後世稱為維納-柯爾莫哥洛夫濾波器(Wiener-Kolmogorov filter)的信號處理技術是與克里金法十分接近的求解系統
[2]
。隨後在70年代,高斯過程理論和貝葉斯推斷被逐步應用於空間場的研究,促進了克里金法的發展
[1]
[9]
。
克里金法理論
克里金法固有平穩過程
克里金法在對空間場進行預測時,將空間場視為隨機過程(stochastic process)的推廣,即隨機場(random field)。具體而言,若對指數集
有隨機過程
且
為一拓撲空間(topological space),則
被稱為隨機場
[10]
。克里金法中隨機場所對應的指數集通常為地理座標,而隨機場內每一個點的測度都是一個隨機變量,服從特定的概率分佈
[10]
。
根據地理學第一定律(the first law of geography),地理空間上的所有值都是互相聯繫的,且距離近的值具有更強的聯繫
[11]
。隨機場使用協方差函數對上述結論進行刻畫,對應高斯過程迴歸(GPR)理論中的“核函數(kernel function)”
[2]
。使用克里金法需要隨機場滿足兩個假設
[1]
:
- 隨機場的數學期望存在,且與位置無關。
- 對隨機場內任意兩點,其協方差函數僅是點間向量的函數。
滿足上述假設的隨機過程被稱為固有平穩過程(intrinsically stationary process),二階平穩過程(second-order stationary process)是其特例。平穩高斯過程不僅是嚴格的平穩過程,而且在許多問題中是一個理由充分的假設,因此克里金法有部分研究完全基於高斯隨機場展開
[12]
。
克里金法通常假設固有平穩過程是各向同性(isotropy)的,即其協方差函數僅是點間歐氏距離(Euclidean distance)的函數。各向同性隨機場可以直接使用變異函數(variogram)進行建模,簡化了克里金法的求解步驟
[1]
。此外,一些特定類型的各項異性,例如幾何各向異性(geometric anisotropy)可以通過座標變換轉化為各向同性
[1]
。
類似於高斯過程迴歸,克里金法不要求樣本服從特定的概率分佈,但實踐中當樣本沒有偏斜數據時,克里金法往往有好的效果。
克里金法BLUP
克里金法算法
克里金法普通克里金
普通克里金(Ordinary Kriging, OK)是最早被提出和系統研究的克里金法,並隨着地統計學的發展衍生出一系列變體和改進算法。普通克里金是一個線性估計系統,適用於任何滿足各向同性假設的固有平穩隨機場
[1]
。
在高斯隨機場中,普通克里金和簡單克里金的估計值有如下分佈的
置信區間:
克里金法改進算法
泛克里金(Universal Kriging, UK)
協同克里金(Co-Kriging, CK)
協同克里金是克里金法在處理多變量問題時的改進,其中需要建模的隨機場稱為主變量,參與建模的其它隨機場稱為協變量。協同克里金可以有任意個數的協變量,但主變量和協變量必須具有相關性(correlation)且均是滿足各向同性假設的固有平穩隨機場。協同克里金可以使用互變異函數(cross-covariogram)估計隨機場間的互協方差函數(cross-covariance),但要求後者是對稱的,即
。
若主變量
擁有M個協變量
且每個變量擁有
個樣本,則協同克里金的優化問題和克里金方差有如下表示:
上述算法為基於普通克里金髮展的協同克里金,泛克里金也有對應的協同算法,被稱為“泛協同克里金(universal co-Kriging)”
[1]
。協同克里金和泛協同克里金通常要求協變量擁有充足的樣本
[14]
。若協變量的樣本量不足以計算互變異函數。可計算偽互變異函數(pseudo cross-variogram)作為近似
[15-16]
。
析取克里金(Disjunctive Kriging, DK)
普通克里金是隨機場的BLUP,但在隨機場和指數集之間存在非線性關係時,線性估計結果往往不是最優的。析取克里金將普通克里金中的權重係數推廣為函數,從而實現了對隨機場的非線性估計。析取克里金可以定義為如下的優化問題
[1]
:
克里金法混合算法
迴歸克里金(regression-Kriging)
迴歸克里金是廣義線性模型 (Generalized Linear Model, GLM)和克里金法相結合的算法,也是最常見的混合算法。迴歸克里金首先使用GLM估計空間場中的系統性效應(determinstic effect),隨後使用克里金法估計由迴歸殘差構成的隨機場
[18]
:
神經網絡克里金(neural Kriging)
神經網絡克里金可見於大氣科學研究中,一些文獻也將其稱為“直接神經網絡殘差克里金(Direct Neural Network Residual Kriging, DNNRK)”
[20]
。神經網絡克里金與迴歸克里金在邏輯上類似,即首先使用各類人工神經網絡(Artificial Neural Network, ANN)算法對空間場進行建模,隨後使用克里金法估計殘差。
貝葉斯克裏金(Bayesian Kriging)
貝葉斯克裏金是使用貝葉斯推斷(Bayesian inference)的克里金法的統稱。貝葉斯克裏金使用由超參數(hyper-parameter)的先驗(prior)定義克里金系統的參數(權重係數)並估計其後驗(posterior)。貝葉斯克裏金的先驗通常為正態分佈和Gamma分佈。
常見的貝葉斯克裏金框架包括Kitanidis算法和Handcock算法
[1]
。其中Kitanidis算法要求隨機場的協方差除尺度外已知
,在實際應用中難以滿足
[1]
;Handcock算法不要求協方差函數已知,而是將其表示為馬頓核(Matérn kernel)形式的高斯過程先驗並使用極大似然估計(Maximum Likelihood Estimation, MLE)求解超參數
[21]
[1]
。兩種算法都以高斯隨機場為前提,且後者是與高斯過程迴歸等價的方法。對非高斯隨機場,Handcock算法有貝葉斯高斯變換(Bayesian Transformed Gaussian, BTG)算法
[1]
。而對更一般的各向異性隨機場,以及有同時包含空間和時間觀測樣本的情形,可以使用等級貝葉斯克裏金(hierarchical bayesian Kriging)。該方法可以對非平穩隨機場使用,其中協方差函數完全由超參數進行模擬
[1]
。
克里金法性質
克里金法是一個確切估計器(exact estimator),由克里金法的求解系統可知,其估計的隨機場在樣本點的取值與對應觀測值一致
[1]
。這一性質的優勢在於克里金法的估計總是與觀測值接近,不會與實際情況相距太遠;但估計值總是介於觀測值之間,不能模擬劇烈的的變化。
由於克里金法在應用中使用擬合經驗變異函數的方式估計隨機場的協方差,而變異函數模型除塊金(原點)外都是連續函數,因此克里金法對隨機場的估計是平滑的。這意味着在偏斜樣本中克里金法對異常值敏感,因此對偏斜樣本進行正態變換,例如Box-Cox變換是常見的做法
[22]
。
克里金法僅在隨機場為固有平穩過程時提供BLUP,因此在使用克里金法前有必要通過樣本考察隨機場的穩定性,一個常見的方法是繪製沃羅諾伊圖(Voronoi diagram),計算標準差並觀察是否有局地異常值
[23]
。
在克里金法中,所有樣本都會參與對未知點的估計,且在變異函數隨距離遞增的情形下,與未知點距離近的樣本影響更大。實際應用中為突出隨機場的局地特徵,可以人為設定點的影響範圍,不考慮範圍外樣本的影響。這一性質也意味着若隨機場某處沒有臨近的樣本,則其克里金方差會增大,因此克里金法僅適用於格點數據的內插值。普通克里金的外插結果隨點距離的增大趨近於樣本平均值;泛克里金會在外插時將漂移量無限外推
[24]
。
與高斯過程迴歸(GPR)的關係:GPR是與克里金法相近的非參數模型,常見於機器學習領域。若協方差函數的形式等價,簡單克里金和普通克里金的輸出與GPR在正態似然下輸出的數學期望相同。GPR與克里金法的不同點在於,前者假設隨機場為高斯過程並給出其對測試樣本後驗的完整分佈;後者假設隨機場為固有平穩過程並給出其對測試樣本的最優無偏估計。此外,一些貝葉斯克裏金方法,例如Handcock算法與GPR是等價的,可參見Handock and Stein (1993)
[21]
。
克里金法應用
克里金法被廣泛用於各類觀測的空間插值,例如地質學中的地下水位
[25]
和土壤濕度
[26]
的採樣;環境科學研究中的大氣污染(例如臭氧
[27]
)和土壤污染物
[28]
的研究;以及大氣科學中的近地面風場
[29]
、氣温
[30]
、降水
[31]
等的單點觀測。
克里金法在工程問題的數值試驗中可作為代理模型(surrogate model)對有限的模擬結果進行插值
[32]
。具體而言,若對問題全局使用確定性模擬方法(deterministic computer simulations),例如有限元方法會佔用大量計算資源而無法(快速)實現時,可以僅模擬局部個別點的結果並使用克里金法插值到全局
[33]
。
包含克里金法的編程模塊
作為一種典型的地統計學算法,克里金法被廣泛收錄於各類代碼庫中,以下對其進行部分歸納:
語言 | 代碼庫 | OK | UK | CK | IK/DK | 説明 |
R/S | 可用 | 可用 | 可用 | 可用 | 包含偏斜數據處理、變異函數分析、各向異性建模和交叉驗證模塊 | |
可用 | 可用 | 不可用 | 不可用 | 帶有貝葉斯參數估計 | ||
可用 | 可用 | 可用 | 不可用 | 包含自定義克里金函數接口 | ||
可用 | 可用 | 可用 | 可用 | 與R語言下的gstat類似 | ||
可用 | 可用 | 可用 | 不可用 | 帶有迴歸克里金算法,包含變異函數分析、交叉驗證、誤差診斷模塊 | ||
可用 | 可用 | 不可用 | 不可用 | 無 | ||
可用 | 可用 | 不可用 | 不可用 | 無 | ||
ArcGIS
[41]
| 可用 | 可用 | 可用 | 可用 | 商用軟件,具有圖形界面,包含所有常用模塊,帶有貝葉斯參數估計 |
- 參考資料
-
- 1. Le, N. D., Zidek, J. V..Statistical analysis of environmental space-time processes.:Springer Science & Business Media,2006 :101-134
- 2. Rasmussen, C.E. and Williams, C.K.I..Gaussian Processes for Machine Learning:MIT Press,2006:7-30
- 3. Krige, D.G., 1951. A statistical approach to some basic mine valuation problems on the Witwatersrand. Journal of the Southern African Institute of Mining and Metallurgy, 52(6), pp.119-139.
- 4. Cressie, N., 1990. The origins of kriging. Mathematical geology, 22(3), pp.239-252.
- 5. Matheron, G., 1963. Principles of geostatistics. Economic geology, 58(8), pp.1246-1266.
- 6. Gandin, L.S., 1965. Objective analysis of meteorological field. Gidrometeorol. Izd., Leningrad. [available from the U.S. Dept. of Commerce, Clearinghouse for Federal Scientific and Technical Information, Springfield, Va.]
- 7. Kolmogorov, A.N., 1941. The interpolation and extrapolation of stationary stochastic sequences. Izv. AN SSSR, Matematika, 5.
- 8. Wiener, N. and Mathématicien, C., 1949. Extrapolation, interpolation, and smoothing of stationary time series: with engineering applications.
- 9. Journel, A.G., 1977. Kriging in terms of projections. Journal of the International Association for Mathematical Geology, 9(6), pp.563-586.
- 10. Vanmarcke, E. . Random fields: analysis and synthesis:World Scientific,2010:13-17, 60-64
- 11. Tobler, W.R., 1970. A computer movie simulating urban growth in the Detroit region. Economic geography, 46(sup1), pp.234-240.
- 12. Diggle, P.J., Tawn, J.A. and Moyeed, R.A., 1998. Model‐based geostatistics. Journal of the Royal Statistical Society: Series C (Applied Statistics), 47(3), pp.299-350.
- 13. Wackernagel H..Multivariate Geostatistics. .Berlin, Heidelberg:Springer,1995:74-81
- 14. Cokriging functionality .spatial-analyst.net[引用日期2018-10-03]
- 15. gstat user's guide (page 69) .gstat.org[引用日期2018-10-03]
- 16. Papritz, A., Künsch, H.R. and Webster, R., 1993. On the pseudo cross-variogram. Mathematical Geology, 25(8), pp.1015-1026.
- 17. Ortiz, J.M., Oz, B. and Deutsch, C.V., 2005. A step by step guide to bi-Gaussian disjunctive kriging. In Geostatistics Banff 2004 (pp. 1097-1102). Springer, Dordrecht.
- 18. Hengl, T., Heuvelink, G.B. and Rossiter, D.G., 2007. About regression-kriging: from equations to case studies. Computers & geosciences, 33(10), pp.1301-1315.
- 19. Ahmed, S. and De Marsily, G., 1987. Comparison of geostatistical methods for estimating transmissivity using data on transmissivity and specific capacity. Water resources research, 23(9), pp.1717-1737.
- 20. Demyanov, V., Kanevsky, M., Chernov, S., Savelieva, E. and Timonin, V., 1998. Neural network residual kriging application for climatic data. Journal of Geographic Information and Decision Analysis, 2(2), pp.215-232.
- 21. Handcock, M.S. and Stein, M.L., 1993. A Bayesian analysis of kriging. Technometrics, 35(4), pp.403-410.
- 22. McGrath, D., Zhang, C. and Carton, O.T., 2004. Geostatistical analyses and hazard assessment on soil lead in Silvermines area, Ireland. Environmental Pollution, 127(2), pp.239-248.
- 23. Krause, E. & Krivoruchko, K. Concepts and Applications of Kriging [presentation] .ESRI[引用日期2018-10-04]
- 24. Journel, A.G. and Rossi, M.E., 1989. When do we need a trend model in kriging?. Mathematical Geology, 21(7), pp.715-739.
- 25. Rouhani, S. and Hall, T.J., 1989. Space-time kriging of groundwater data. In Geostatistics (pp. 639-650). Springer, Dordrecht.
- 26. Bárdossy, A. and Lehmann, W., 1998. Spatial distribution of soil moisture in a small catchment. Part 1: geostatistical analysis. Journal of Hydrology, 206(1-2), pp.1-15.
- 27. Lefohn, A.S., Knudsen, H.P., Logan, J.A., Simpson, J. and Bhumralkar, C., 1987. An evaluation of the kriging method to predict 7-h seasonal mean ozone concentrations for estimating crop losses. JAPCA, 37(5), pp.595-602.
- 28. Von Steiger, B., Webster, R., Schulin, R. and Lehmann, R., 1996. Mapping heavy metals in polluted soil by disjunctive kriging. Environmental pollution, 94(2), pp.205-215.
- 29. Cellura, M., Cirrincione, G., Marvuglia, A. and Miraoui, A., 2008. Wind speed spatial estimation for energy planning in Sicily: Introduction and statistical analysis. Renewable energy, 33(6), pp.1237-1250.
- 30. Koike, K., Matsuda, S. and Gu, B., 2001. Evaluation of interpolation accuracy of neural kriging with application to temperature-distribution analysis. Mathematical Geology, 33(4), pp.421-448.
- 31. Bargaoui, Z.K. and Chebbi, A., 2009. Comparison of two kriging interpolation methods applied to spatiotemporal rainfall. Journal of Hydrology, 365(1-2), pp.56-73.
- 32. Kleijnen, J.P., 2009. Kriging metamodeling in simulation: A review. European journal of operational research, 192(3), pp.707-716.
- 33. Martin, J.D. and Simpson, T.W., 2005. Use of kriging models to approximate deterministic computer models. AIAA journal, 43(4), pp.853-863.
- 34. package 'gstat' .cran r-project.org.2018-9-9[引用日期2018-10-04]
- 35. Ribeiro Jr, P.J. and Diggle, P.J., 2001. geoR: a package for geostatistical analysis. R news, 1(2), pp.14-18.
- 36. package 'RandomFields' .cran r-project.org.2017-4-18[引用日期2018-10-04]
- 37. mGstat : A Geostatistical Matlab toolbox .sourceforge.net.2011[引用日期2018-10-04]
- 38. Couckuyt, I., Dhaene, T. and Demeester, P., 2014. ooDACE toolbox: a flexible object-oriented Kriging implementation. The Journal of Machine Learning Research, 15(1), pp.3183-3186.
- 39. PyKrige Documentation .readthedocs.org.2018-4-14[引用日期2018-10-04]
- 40. pyKriging - HomePage .pyKriging[引用日期2018-11-06]
- 41. What are the different kriging models? .ArcGIS Desktop[引用日期2018-10-04]
- 收起