複製鏈接
請複製以下鏈接發送給好友

GB13000

鎖定
GB13000 全稱:國家標準GB13000:2010《信息技術 通用多八位編碼字符集(UCS)第一部分:體系結構與基本多文種平面》,此標準等同採用國際標準ISO/IEC 10646-2003,IDT《信息技術 通用多八位編碼字符集(UCS)第一部分:體系結構與基本多文種平面》。Unicode 標準在基本平面上與GB 13000保持一致。採納UTF-16方案作為未來實現01到0F共15個輔助平面的方式。其它方面與GB 13000基本一致。
外文名
GB13000
全    稱
國家標準GB13000

目錄

GB13000簡介

GB13000.1-1993的字符集包含20902個漢字。
此標準由信息產業部電子工業標準化研究所歸口;
此標準起草單位:信息產業部電子工業標準化研究所;

GB13000來源

為了便於多個文種的同時處理,國際標準化組織下屬編碼字符集工作組研製了新的編碼字符集標準,ISO/IEC 10646。該標準第一次頒佈是在1993年,當時只頒佈了其第一部分,即ISO/IEC 10646.1: 1993,中國相應的國家標準是GB 13000.1-93《信息技術 通用多八位編碼字符集(UCS) 第一部分:體系結構與基本多文種平面》。制定這個標準的目的是對世界上的所有文字統一編碼,以實現世界上所有文字在計算機上的統一處理。

GB13000意義

GB13000建立了一個全新的編碼體系。ISO/IEC 10646被稱作"多八位"編碼字符集,是因為它採用四個"八位"(即8 bit)編碼。這四個字節被用來分別表示組、平面、行和字位
GB2312規定的漢字為常用漢字,包括簡化漢字三千餘個。由於我國漢字數量巨大(約10萬字),我國又陸續增加了六個輔助集。其中,基本集與第二、第四輔助集是簡化漢字集,第一(即GB 12345)、第三、第五輔助集是繁體集,且基本集與第一、第二與第三、第四與第五輔助集分別有簡、繁體字一一對應關係,(個別簡、繁關係為一對多的漢字除外)。第七輔助集漢字的來源是GB13000.1的CJK統一漢字部分,為日本、韓國和台灣地區使用的漢字。七個字符集包含漢字共計約49,000字(簡化字和繁體字分別編碼)。
可以看出,GB13000的總編碼位置高達2,147,483,648個(128組×256平面×256行×256字位)。實現的是00組的00平面,稱為"基本多文種平面"(Basic Multilingual Plane, BMP),編碼位置65536個。(由於基本多文種平面所有字符代碼的前兩個字節都是0(00組00平面XX行XX字位),因此,在默認情況下,基本多文種平面按照兩字節處理。)

GB13000特點介紹

編碼空間非常巨大,可以容納多種文字同時編碼,也就保證了多文種同時處理;
作為統一的編碼,拉丁語系的文字與其它文字一樣,都是採用相同數目的"八位"編碼,即:都是四字節,在基本多文種平面,都是雙字節;
注:對於GB1988(ISO646/ASCII)字符,直接增加高八位為0x00即可。
字符和字形的區分十分清楚:字符是負載文本內容的抽象實體,而字形則是可視的具體圖形形式;
通過採用漢字認同規則,各國家/地區的漢字統一編碼,既滿足了各國家/地區對編碼漢字數目的實際需求,又不至於由於漢字在基本多文種平面佔據的碼位過多而影響到其他文字的編碼:
由於世界上的文字數量巨大,不可能將所有文字編碼,為此,劃定了專用區,供標準使用者實現其對未編碼字符的特別需要。
其中,CJK統一漢字和CJK統一漢字擴充A收錄了GB2312和第一、三、五、七輔助集的全部漢字27,484個。康熙部首和中日韓補充部首共收錄漢字部首369個。
此外,還收錄了維哈克文(屬於阿拉伯文體系)、朝鮮文、彝文、藏文和蒙古文。預計不久將增加傣文。