複製鏈接
請複製以下鏈接發送給好友

文本數據

(計算機術語)

鎖定
文本數據是指不能參與算術運算的任何字符,也稱為字符型數據。如英文字母、漢字、不作為數值使用的數字(以單引號開頭)和其他可輸入的字符。
中文名
文本數據
外文名
Textual Data
別    名
字符型數據
釋    義
指不能參與算術運算的任何字符

目錄

文本數據數據特點

文本數據不同於傳統數據庫中的數據,它具有自己的特點。
1、半結構化
文本數據既不是完全無結構的也不是完全結構化的。例如文本可能包含結構字段,如標題、作者、出版日期、長度、分類等,也可能包含大量的非結構化的數據,如摘要和內容。
2、高維
文本向量的維數一般都可以高達上萬維,一般的數據挖掘、數據檢索的方法由於計算量過大或代價高昂而不具有可行性。
3、高數據量
一般的文本庫中都會存在最少數千個文本樣本,對這些文本進行預處理、編碼、挖掘等處理的工作量是非常龐大的,因而手工方法一般是不可行的。
4、語義性
文本數據中存在着一詞多義、多詞一義,在時間和空間上的上下文相關等情況。

文本數據類型

1、Char(字符)
Char類型的數據用來表示單個符號,它以0~65535之間的數的形式存儲。為了解決世界上各種語言文字的計算機存儲問題而不單單是存儲英文字母,人們採用一些標準的方式給這些字符提供標準值,其中常用的就是國際標準碼Unicode。Unicode克服了不同編碼系統存在的問題,它與語言、平台以及程序無關。
當給Char型的變量賦值時應按下面的格式進行。在雙引號的後面要用C來表示這是一個Char數據,而不是String數據。例如:
Dim Mychar as Char
Mychar=“B”C 實際存儲的是“B”字符的ASCII碼66
2、String(字符串)
String類型用於表示字符串數據,它存儲的是一個字符序列。在程序代碼中,使用一對用英文雙引號括起來的一串字符或漢字來表示一個字符串。1個字符佔1個字節,1個漢字佔2個字節。字符串的最大長度可達20億個。例如,下列都是合法的字符串。
“How do you do!”
“百尺竿頭,更進一步” [1] 
參考資料