複製鏈接
請複製以下鏈接發送給好友

非結構化文本數據

鎖定
以文本(如字符、數字、標點、各種可打印的符號等)作為數據形式的非結構化的數據;非結構化或半結構化文本數據的典型代表是圖書館數據庫中的文檔,這些文檔可能包含結構字段,如標題、作者、出版日期、長度、分類等,也可能包含大量非結構化文本成分,如摘要和正文內容。
中文名
非結構化文本數據
定    義
數據形式的非結構化的數據
舉    例
摘要和正文內容
數    據
XML、HTML

目錄

非結構化文本數據簡介

以文本(如字符、數字、標點、各種可打印的符號等)作為數據形式的非結構化的數據;非結構化或半結構化文本數據的典型代表是圖書館數據庫中的文檔,這些文檔可能包含結構字段,如標題、作者、出版日期、長度、分類等,也可能包含大量非結構化文本成分,如摘要和正文內容。 [1] 
如何快速、準確地從來自非結構化數據源的大規模文本信息資源中提取符合需要的簡潔、精煉、可理解的知識,這就涉及到文本挖掘技術。 [1] 

非結構化文本數據數據

不方便用數據庫二維邏輯表來表現的數據即稱為非結構化數據,包括所有格式的辦公文檔、文本、圖片、XML、HTML、各類報表、圖像和音頻/視頻信息等等。

非結構化文本數據數據庫

是指其字段長度可變,並且每個字段的記錄又可以由可重複或不可重複的子字段構成的數據庫,用它不僅可以處理結構化數據(如數字、符號等信息)而且更適合處理非結構化數據(全文文本、圖象、聲音、影視、超媒體等信息)。
參考資料
  • 1.    《基於文本挖掘技術的蛋白質相互作用預測方法研究》,黃娟,中南大學