複製鏈接
請複製以下鏈接發送給好友

拓撲數據分析

鎖定
拓撲數據分析(Topological Data Analysis, TDA)是計算拓撲學和數據科學相結合得到的技術,按定義,TDA是以持久同調(persistent homology)為基礎,對數據的拓撲學特徵(topological features)進行分析的方法 [1] 
TDA的一般性目的是從高維數據中提取有效信息,按機器學習觀點屬於非監督學習表徵學習。其分析過程不會引起信息的損失,且被認為對缺失和噪聲樣本穩定 [2]  。由於TDA的分析對象是獨立於度量(metric)的拓撲學特徵(按一般用語可表述為“抽象的形狀”、“點與點之間的關係”),因此TDA能夠整合並協同分析不同度量(座標)下的數據集 [2] 
TDA被應用於計算幾何學問題,例如3D掃描器輸出的點雲(point cloud)數據的分析、重建和可視化 [2]  。在生物信息學和醫學領域,例如癌症基因樣本的研究中也有應用 [3-4] 
中文名
拓撲數據分析
外文名
Topological Data Analysis, TDA
類    型
數據分析方法
提出者
H. Edelsbrunner,D. Letscher,A. Zomorodian [5] 
提出時間
2000年 [5] 
學    科
應用數學,計算拓撲學,應用代數拓撲
應    用
圖像分析,數據挖掘,醫學信息,計算機視覺,生物信息學
術語介紹
高維數據通常是稀疏的,包含一系列的低維表徵。以主成分分析(Principal Component Analysis, PCA)為代表的統計分析方法能夠對高維數據進行降維並得到有效表徵,但由於降維問題本身是非適定的(ill-posed),PCA在截取主要模態後會帶來信息損失,且次要模態的提取對擾動敏感。TDA在應用於稀疏高維數據時能夠克服PCA類方法的侷限 [6]  。TDA在進行表徵學習的同時不會帶來信息丟失,因此能夠更有效地提取次要模態,在偏斜樣本,例如大量常規基因和少量致癌基因,的研究中得到了關注 [3] 
TDA的分析工具是持久同調(persistent homology, PH),PH能夠在高維空間中計算不同尺度的拓撲學特徵,其中在多個尺度下持續出現的拓撲特徵被認為是原數據真實的表徵,反之則被認為是採樣和噪聲帶來的誤差。PH的輸出結果通常包括持久條碼(persistent barcode)、持久圖(persistent diagram)和Betti曲線,從中可以得到原數據的穩定表徵 [7] 
參考資料