反饋

數據提取

鎖定

數據提取（Data Extraction）指根據一定的目的，從原始文獻中摘錄所需要的信息，以作進一步存儲、換算和分析的過程。在系統評價中，數據信息包括具體的方法、受試者、實施場地、背景、干預措施、結局、結果、出版物和研究者等。

中文名稱: 數據提取

英文名稱: data extraction

定　　義: 從原始數據中抽取出感興趣數據的過程，對地理數據的提取基於數據的屬性值、空間範圍以及地理特徵。

應用學科: 地理學（一級學科），地理信息系統（二級學科）

以上內容由全國科學技術名詞審定委員會審定公佈

中文名: 數據提取

外文名: Data Extraction

數據提取數據來源

系統評價研究中數據的來源主要包括公開發表的文獻、聯繫文獻作者得到的數據和單個患者的數據^[1] 。

對於公開發表的文獻，如期刊論文、圖書、學位論文、會議摘要和網站等，研究者需要從若干原始研究中提取與研究目的相關的信息。但因資料的可信度及詳細級別不同，建議建立數據提取表收集研究報告數據^[2] 。

如果無法從現有報告中提取所有尋求的信息，包括研究的詳細資料和數值結果。在這種情況下，建議評價者聯繫原始研究作者，尋求具體信息或單個受試對象層面的數據。

單個患者數據（Individual patient data,IPD）的系統評價是指從每一個研究中獲取每一個患者的研究數據，其為數據可用性的金標準。

數據提取人工數據提取方法

數據提取表作為數據提取過程中最常用的工具，由研究者根據研究目的和一定的規則精心設計，包含必要且適量的條目，並配以編碼和註釋。數據提取條目清單通常包括數據來源、合格性、方法、參與者、干預措施、結果、結論等^[1] 。在使用前，數據提取表應當用具有代表性的原始研究報告進行預測試，因為這種測試可以確定數據提取表中遺漏或多餘的內容。

為了縮小人工提取的誤差和潛在偏倚，通常建議應至少兩人獨立平行地提取數據，並採用預設的方案來處理分歧。數據提取者最好來自互補（交叉）學科，如一個方法學專家和一個主題領域的專家。

數據提取自動數據提取

數據提取是系統評價研究中非常重要的一環，人工數據提取是一項費時、費力的工作。因此，一些研究者開始嘗試在系統評價研究中進行自動的數據提取。

近年來，機器學習、自然語言處理、深度學習等技術的產生和發展，為實現自動的數據提取提供了可能性^[3] 。2015年發表的一項系統綜述^[4] 顯示，國際上共有26篇系統綜述使用了自動的數據提取方法，共涉到52個變量。然而單個研究最多隻實現7個變量的自動提取，並且生物醫學自然語言處理技術沒有得到很充分的應用，在這些研究之間也沒有一個統一的自動提取框架。因此，自動數據提取技術還有很大的發展空間。

參考資料

1. Cochrane Handbook for Systematic Reviews of Interventions version 6.2 ．Cochrane Training.
2. 李立明，詹思延，葉冬青，等. 流行病學[M]. 8版. 北京：人民衞生出版社，2020.
3. 李向陽, 苗壯. 自由文本信息抽取技術[J]. 情報科學, 2004, 22(7):815-821.
4. Jonnalagadda S R, Goyal P, Huffman M D. Automating data extraction in systematic reviews: a systematic review[J]. Systematic Reviews, 2015, 4(1):78.

數據提取的概述圖（1張）

詞條統計

瀏覽次數：次
編輯次數：2次歷史版本
最近更新： w_ou （2021-12-27）

1 數據來源
2 人工數據提取方法
3 自動數據提取

數據提取

目錄

數據提取數據來源

數據提取人工數據提取方法

數據提取自動數據提取