複製鏈接
請複製以下鏈接發送給好友

內碼

鎖定
內碼是指計算機漢字系統中使用的二進制字符編碼,是溝通輸入、輸出與系統平台之間的交換碼,通過內碼可以達到通用和高效率傳輸文本的目的。如ASCII
中文名
內碼
外文名
Code
進    制
二進制
應    用
計算機
內    碼
GB2312
目    的
通用和高效率傳輸文本
組    織
國際標準

內碼簡介

內碼是指計算機漢字系統中使用的二進制字符編碼,是溝通輸入、輸出與系統平台之間的交換碼,通過內碼可以達到通用和高效率傳輸文本的目的。比如MS Word中所存儲和調用的就是內碼而非圖形文字。英文ASCII字符采用一個字節的內碼錶示,中文字符如國標字符集中,GB2312、GB12345、GB13000皆用雙字節內碼,GB18030(27,533漢字)雙字節內碼漢字為20,902個,其餘6,631個漢字用四字節內碼 [1] 

內碼分類

字符編碼:字符編碼就是以二進制的數字來對應字符集的字符,用得最普遍的字符集是ANSI,對應ANSI字符集的二進制編碼就稱為ANSI碼,DOS和Windows系統都使用了ANSI碼,但在系統中使用的字符編碼要經過二進制轉換,稱為系統內碼。
漢字內碼:ANSI碼是單一字節(8位二進制數)的編碼集,最多隻能表示256個字符,不能表示眾多的漢字字符,各個國家和地區在ANSI碼的基礎上又設計了各種不同的漢字編碼集,以能夠處理大數量的漢字字符。這些編碼使用單字節來表示ANSI的英文字符(即兼容ANSI碼),使用雙字節來表示漢字字符。由於一個系統中只能有一種漢字內碼,不能識別其它漢字內碼的字符,造成了交流的不便。
GB碼:GB碼是1980年國家公佈的簡體漢字編碼方案,在大陸、新加坡得到廣泛的使用,也稱國標碼。國標碼對6763個漢字集進行了編碼,涵蓋了大多數正在使用的漢字。
GBK碼:GBK碼是GB碼的擴展字符編碼,對多達2萬多的簡繁漢字進行了編碼,簡體版的Win95和Win98都是使用GBK作系統內碼。
BIG5碼:BIG5碼是針對繁體漢字的漢字編碼,在台灣、香港的電腦系統中得到普遍應用。
HZ碼:HZ碼是在Internet上廣泛使用的一種漢字編碼。
ISO-2022CJK碼:ISO-2022是國際標準組織(ISO)為各種語言字符制定的編碼標準。採用二個字節編碼,其中漢語編碼稱ISO-2022 CN,日語、韓語的編碼分別稱JP、KR。一般將三者合稱CJK碼。CJK碼主要在Internet網絡中使用。
Unicode碼:Unicode碼也是一種國際標準編碼,採用二個字節編碼,與ANSI碼不兼容。在網絡、Windows系統和很多大型軟件中得到應用。

內碼內碼轉換

由於歷史、地區原因,有時一種文字會出現多種編碼方案,特別是漢字。由於不同於系統內碼的字符不能在該系統中正常顯示,必須要進行字符的內碼轉換,即將非系統內碼的字符轉換為系統可以識別的內碼字符。南極星就是這樣的優秀軟件,其它如四通利方、MagicWin98、兩岸通、漢字通等都是這樣的內碼轉換工具。 [2] 

內碼相互轉換

區位碼、國標碼與機內碼的轉換關係:
(1)區位碼先轉換成十六進制數表示
(2)(區位碼的十六進制表示)+2020H=國標碼;
(3)國標碼+8080H=機內碼
舉例:以漢字“大”為例,“大”字的區內碼為2083
解:1、區號為20,位號為83
2、將區位號2083轉換為十六進制表示為1453H
3、1453H+2020H=3473H,得到國標碼3473H
4、3473H+8080H=B4F3H,得到機內碼為B4F3H
小結: 字符編碼的兩種表示方式:ASCII(字符的表示);GB2312(國標碼,漢字編碼) [1] 

內碼相關區別

1、機外碼就是你外界輸入的字符,這個字符輸入後會有一個相對應的區位碼(就是一個94*94的棋盤格格,你輸入的漢字會對應裏面的一個格子,行+列就是我們這裏的區+位),
2、區位碼經過換算可以變成國標碼(所以區位碼→國標碼這一步只是表示轉換下而已),
3、國標碼再經過換算可以變成機內碼(一般是16進制數表示) [1] 
參考資料
  • 1.    張曉培, 李祥. 從Unicode到GBK的內碼轉換[J]. 網絡新媒體技術, 2006, 27(6):757-759.
  • 2.    王秀珍. GBK內碼轉換的設計與實踐[J]. 長春師範大學學報, 2006, 25(8):66-67.