-
數據提取
鎖定
數據提取(Data Extraction)指根據一定的目的,從原始文獻中摘錄所需要的信息,以作進一步存儲、換算和分析的過程。在系統評價中,數據信息包括具體的方法、受試者、實施場地、背景、干預措施、結局、結果、出版物和研究者等。
- 中文名稱
- 數據提取
- 英文名稱
- data extraction
- 定 義
- 從原始數據中抽取出感興趣數據的過程,對地理數據的提取基於數據的屬性值、空間範圍以及地理特徵。
- 應用學科
- 地理學(一級學科),地理信息系統(二級學科)
以上內容由全國科學技術名詞審定委員會審定公佈
- 中文名
- 數據提取
- 外文名
- Data Extraction
數據提取數據來源
如果無法從現有報告中提取所有尋求的信息,包括研究的詳細資料和數值結果。在這種情況下,建議評價者聯繫原始研究作者,尋求具體信息或單個受試對象層面的數據。
單個患者數據(Individual patient data,IPD)的系統評價是指從每一個研究中獲取每一個患者的研究數據,其為數據可用性的金標準。
數據提取人工數據提取方法
數據提取表作為數據提取過程中最常用的工具,由研究者根據研究目的和一定的規則精心設計,包含必要且適量的條目,並配以編碼和註釋。數據提取條目清單通常包括數據來源、合格性、方法、參與者、干預措施、結果、結論等
[1]
。在使用前,數據提取表應當用具有代表性的原始研究報告進行預測試,因為這種測試可以確定數據提取表中遺漏或多餘的內容。
為了縮小人工提取的誤差和潛在偏倚,通常建議應至少兩人獨立平行地提取數據,並採用預設的方案來處理分歧。數據提取者最好來自互補(交叉)學科,如一個方法學專家和一個主題領域的專家。
數據提取自動數據提取
數據提取是系統評價研究中非常重要的一環,人工數據提取是一項費時、費力的工作。因此,一些研究者開始嘗試在系統評價研究中進行自動的數據提取。
近年來,機器學習、自然語言處理、深度學習等技術的產生和發展,為實現自動的數據提取提供了可能性
[3]
。2015年發表的一項系統綜述
[4]
顯示,國際上共有26篇系統綜述使用了自動的數據提取方法,共涉到52個變量。然而單個研究最多隻實現7個變量的自動提取,並且生物醫學自然語言處理技術沒有得到很充分的應用,在這些研究之間也沒有一個統一的自動提取框架。因此,自動數據提取技術還有很大的發展空間。
- 參考資料
-
- 1. Cochrane Handbook for Systematic Reviews of Interventions version 6.2 .Cochrane Training.
- 2. 李立明,詹思延,葉冬青,等. 流行病學[M]. 8版. 北京:人民衞生出版社,2020.
- 3. 李向陽, 苗壯. 自由文本信息抽取技術[J]. 情報科學, 2004, 22(7):815-821.
- 4. Jonnalagadda S R, Goyal P, Huffman M D. Automating data extraction in systematic reviews: a systematic review[J]. Systematic Reviews, 2015, 4(1):78.