-
拓撲數據分析
鎖定
拓撲數據分析(Topological Data Analysis, TDA)是計算拓撲學和數據科學相結合得到的技術,按定義,TDA是以持久同調(persistent homology)為基礎,對數據的拓撲學特徵(topological features)進行分析的方法
[1]
。
術語介紹
高維數據通常是稀疏的,包含一系列的低維表徵。以主成分分析(Principal Component Analysis, PCA)為代表的統計分析方法能夠對高維數據進行降維並得到有效表徵,但由於降維問題本身是非適定的(ill-posed),PCA在截取主要模態後會帶來信息損失,且次要模態的提取對擾動敏感。TDA在應用於稀疏高維數據時能夠克服PCA類方法的侷限
[6]
。TDA在進行表徵學習的同時不會帶來信息丟失,因此能夠更有效地提取次要模態,在偏斜樣本,例如大量常規基因和少量致癌基因,的研究中得到了關注
[3]
。
TDA的分析工具是持久同調(persistent homology, PH),PH能夠在高維空間中計算不同尺度的拓撲學特徵,其中在多個尺度下持續出現的拓撲特徵被認為是原數據真實的表徵,反之則被認為是採樣和噪聲帶來的誤差。PH的輸出結果通常包括持久條碼(persistent barcode)、持久圖(persistent diagram)和Betti曲線,從中可以得到原數據的穩定表徵
[7]
。
- 參考資料
-
- 1. Topological Data Analysis - Part 1 - Persistent Homology .Quantitive Journey.2017-02-22[引用日期2020-01-13]
- 2. Beksi, W., 2018. Topological Methods for 3D Point Cloud Processing. PhD Thesis, University of Minnsota.
- 3. Nicolau, M., Levine, A.J. and Carlsson, G., 2011. Topology based data analysis identifies a subgroup of breast cancers with a unique mutational profile and excellent survival. Proceedings of the National Academy of Sciences, 108(17), pp.7265-7270.
- 4. Offroy, M. and Duponchel, L., 2016. Topological data analysis: A promising big data exploration tool in biology, analytical chemistry and physical chemistry. Analytica chimica acta, 910, pp.1-11.
- 5. Edelsbrunner, H., Letscher, D. and Zomorodian, A., 2000, November. Topological persistence and simplification. In Proceedings 41st Annual Symposium on Foundations of Computer Science (pp. 454-463). IEEE.
- 6. Carlsson, M., Machine Intelligence for Statistical Inference and Human Interpretation of Data .Ayasdi.2018-01-03[引用日期2020-01-13]
- 7. Meryll, D., From Topological Data Analysis to Deep Learning: No Pain No Gain .Towards data science, A Medium Corporation.2018-07-08[引用日期2020-01-13]