複製鏈接
請複製以下鏈接發送給好友

數據提取

鎖定
數據提取(Data Extraction)指根據一定的目的,從原始文獻中摘錄所需要的信息,以作進一步存儲、換算和分析的過程。在系統評價中,數據信息包括具體的方法、受試者、實施場地、背景、干預措施、結局、結果、出版物和研究者等。
中文名稱
數據提取
英文名稱
data extraction
定  義
從原始數據中抽取出感興趣數據的過程,對地理數據的提取基於數據的屬性值、空間範圍以及地理特徵。
應用學科
地理學(一級學科),地理信息系統(二級學科)
中文名
數據提取
外文名
Data Extraction

數據提取數據來源

系統評價研究中數據的來源主要包括公開發表的文獻、聯繫文獻作者得到的數據和單個患者的數據 [1] 
對於公開發表的文獻,如期刊論文、圖書、學位論文、會議摘要和網站等,研究者需要從若干原始研究中提取與研究目的相關的信息。但因資料的可信度及詳細級別不同,建議建立數據提取表收集研究報告數據 [2] 
如果無法從現有報告中提取所有尋求的信息,包括研究的詳細資料和數值結果。在這種情況下,建議評價者聯繫原始研究作者,尋求具體信息或單個受試對象層面的數據。
單個患者數據(Individual patient data,IPD)的系統評價是指從每一個研究中獲取每一個患者的研究數據,其為數據可用性的金標準。

數據提取人工數據提取方法

數據提取表作為數據提取過程中最常用的工具,由研究者根據研究目的和一定的規則精心設計,包含必要且適量的條目,並配以編碼和註釋。數據提取條目清單通常包括數據來源、合格性、方法、參與者、干預措施、結果、結論等 [1]  。在使用前,數據提取表應當用具有代表性的原始研究報告進行預測試,因為這種測試可以確定數據提取表中遺漏或多餘的內容。
為了縮小人工提取的誤差和潛在偏倚,通常建議應至少兩人獨立平行地提取數據,並採用預設的方案來處理分歧。數據提取者最好來自互補(交叉)學科,如一個方法學專家和一個主題領域的專家。

數據提取自動數據提取

數據提取是系統評價研究中非常重要的一環,人工數據提取是一項費時、費力的工作。因此,一些研究者開始嘗試在系統評價研究中進行自動的數據提取。
近年來,機器學習、自然語言處理、深度學習等技術的產生和發展,為實現自動的數據提取提供了可能性 [3]  。2015年發表的一項系統綜述 [4]  顯示,國際上共有26篇系統綜述使用了自動的數據提取方法,共涉到52個變量。然而單個研究最多隻實現7個變量的自動提取,並且生物醫學自然語言處理技術沒有得到很充分的應用,在這些研究之間也沒有一個統一的自動提取框架。因此,自動數據提取技術還有很大的發展空間。
參考資料
  • 1.    Cochrane Handbook for Systematic Reviews of Interventions version 6.2  .Cochrane Training.
  • 2.    李立明,詹思延,葉冬青,等. 流行病學[M]. 8版. 北京:人民衞生出版社,2020.
  • 3.    李向陽, 苗壯. 自由文本信息抽取技術[J]. 情報科學, 2004, 22(7):815-821.
  • 4.    Jonnalagadda S R, Goyal P, Huffman M D. Automating data extraction in systematic reviews: a systematic review[J]. Systematic Reviews, 2015, 4(1):78.