複製鏈接
請複製以下鏈接發送給好友

中日韓越統一表意文字

鎖定
中日韓越統一表意文字(CJKV Unified Ideographs),目的是要把分別來自中文、日文、韓文中,本質相同、形狀一樣或稍異的表意文字(主要為漢字,但也有仿漢字如日本國字、韓國獨有漢字)於ISO 10646Unicode標準內賦予相同編碼。越南文後來亦加入此計劃,所以亦有“CJKV”的稱呼。Unicode亦開始收錄其仿漢字-喃字
中文名
中日韓越統一表意文字
外文名
CJKV Unified Ideographs
別    名
Unicode
統一碼
別    名
中日韓統一表意文字
文    字
中文、日文、韓文、越文
最初版本
1.0(1993年)
最近版本
15.1(2023年) [7] 
包含國家
中日韓越

中日韓越統一表意文字概況

中日韓越統一表意文字(英語:CJKV Unified Ideographs),舊稱中日韓統一表意文字(英語:CJKUnified Ideographs),也稱統一漢字(英語:Unihan),目的是要把分別來自中文、日文、韓文、越文、壯文中,對於相同起源、本義相同、形狀一樣或稍異的表意文字主要為漢字,但也有仿漢字如:方塊壯字日文漢字(かんじ / kanji)、韓文漢字(한자 / hanja)、越南的喃字(Chữ Nôm)與越文漢字[漢字/Hán Tự,在越南也稱作儒字(𡨸儒/Chữ Nho)],應賦予其在ISO 10646統一碼標準中有相同編碼。此計劃原本只包含中文、日文及韓文中所使用的漢字,是以舊稱中日韓統一表意文字(CJK)。後來,此計劃加入了越文的喃字,所以合稱中日韓越統一表意文字(CJKV)。 [1-3] 

中日韓越統一表意文字歷史沿革

1978 年,日本基於ISO 2022,制訂了全世界最早的漢字編碼 JIS C6226。1980年代,中國大陸、中國台灣地區、韓國則各自制訂了自己的規範。這些規範彼此之關並無關聯。若要在一份文件中同時使用,則要以脱序字符的方式來交換。
1980 年,日本的國立國會圖書館的高橋德太郎以圖書學的觀點指出,一個統一的東亞漢字編碼系統是有必要的。同年,中國台灣地區制定了三字節的中文信息交換碼。偶然的是,這是第一個期望可以一致處理中國大陸、日本、中國台灣地區漢字的編碼。之後,美國的國會圖書館採用了此規格,並另外命名為東亞編碼字符(EastAsia Coded Character,EACC,ANSI/NISOZ39.64)。
1984年,ISO 的文字編碼委員會(ISO/TC97/SC2)決議制訂出一套編碼規格(ISO10646),是以交換文字集的方式來統一處理世界的文字。併成立了工作小組(ISO/TC97/SC 2/ WG 2)。這個編碼一開始的構想是採用16位,而對於日本及中國等國的漢字編碼則原封不動地加入。但若如此,中國當時所制訂的編碼都無法加入,因而反對。並於1989年,提出了各國的漢字統合集合(HanCharacter Collection,HCC)的構想。
1990年完成了 ISO10646 的初版草案(DIS10646)。漢字使用32 位來表示。並將各國的漢字編碼原封不動地加入。但中國認為,若各國各自為漢字編碼,將不利於統一處理漢字,因而反對。為了日後關於漢字編碼的討論及方針能順利進行,並呼籲WG 2 特別設置了中日韓聯合研究小組(CJK-JRG,JointResearch Group,為表意文字小組的前身),以持續討論。
另一方面,1987年,全錄的 JoeBecker 和Lee Collins 開發了統合處理全世界所有文字的統一碼。1989年發表了統一碼概要。基本為 16 位。於是,中、日、韓文字統合了。基本方針為以16 位處理所有文字。 1990年,完成了基於此方針的最終草案。來年1991年1月,大致同意此方案的企業成立了統一碼聯盟。中、日、韓中類似的漢字使用約二萬多個字。為了未來擴充,保留了三萬個漢字以供其它用途。
1991年,各國希望能以一致的方式處理文字,如統一碼這般,因而否決了ISO/IEC 10646 的初版草案。基於中國與統一碼聯盟的提議,ISO10646 和統一碼成立了中日韓聯合研究小組。中日韓聯合研究小組將基於各國的漢字編碼,獨自訂定規範、製作ISO 10646 和統一碼的統一漢字編碼。年尾,完成了UnifiedRepertoire and Ordering (URO) 。
1992年,URO 加入 ISO10646 的第二版。但是,發現了一些缺失,之後進行了修正。
1993年5月,正式制訂了最初的中日韓統一表意文字,編碼為U+4E00–U+9FFF區域,共20,902 個字(實際使用碼位U+4E00–U+9FA5)。一個月後,制訂了統一碼1.1 。
1999年,依據 ISO/IEC10646 的第17 個修正案(Amendment17)訂定了擴充區A ,在U+3400–U+4DFF區域加入了6,582個字(實際使用碼位U+3400–U+4DB5)。
2001年,依據 ISO/IEC10646-2,新增了擴充區B ,有 42,711 字。位於U+20000–U+2A6FF。但因在短時間內增加了大量的漢字,導致產生了許多重複的字形。
2005年,依據 ISO/IEC10646:2003 的第1 個修正案(Amendment1),基本多文種平面增加了 U+9FA6 到 U+9FBB 等 22 個漢字。
2009年,統一碼 5.2 擴充區 C 增加了U+2A700-U+2B734 和U+9FC4~U+9FCB。
2010年,統一碼 6.0 擴充區 D 增加了U+2B740-U+2B81F。
2012年,1字增加 U+9FCC。
2015年,統一碼 8.0 擴充區 E 增加了U+2B820-U+2CEAF。
2017年,統一碼 8.0 擴充區 F 增加了U+2CEB0-U+2EBE0。
2020年,統一碼 13.0 擴充區 G 增加了U+30000-U+3134A。 [3] 
2022年,統一碼 15.0 擴充區 H 增加了U+31350-U+323AF。 [6] 
2023年,統一碼 15.1 擴充區 I 增加了U+2EBF0-U+2EE5D。 [7] 

中日韓越統一表意文字字源

中日韓越統一表意文字初始版統一漢字

最初期的統一漢字(20,902字)字源來自以下字集
中國大陸的G源
G0:GB 2312-80:6,763字
G1:GB 12345-90:2,352字(含58個香港字和2個吏讀字,不包括和G0重覆的字)
G3:GB 7589-87:7,237字
G5:GB 7590-87:7,039字
G7:現代漢語通用字表:642(G0, 1, 3, 5, 8未包括的字)
G8:GB 8565-89:290字(G0, 1, 3, 5未包括的字)
中國台灣地區的T源
T1:CNS 11643-1986第一字面:5,401+9字(含9個計量用漢字
T2:CNS 11643-1986第二字面:7,650字
TE:CNS 11643-1986第十四字面:6,319+239+10(含239個CCCII特字和10個XCCS特字)
日本的J源
J1:JIS X 0208-90:6,335+1字
J2:JIS X 0212-90:5,801字
韓國的K源
K0:KS C 5601-87:4,888字(含268個重見字)
K1:KS C 5657-91:2,856字
以上的來源字集會實施字源分離原則
另外還有:ANSI Z39.64-1989(EACC)、Big5、CCCII第一面、GB 12052-89、JEF、中國大陸電報碼、中國台灣地區電報碼、Xerox Chinese。這些來源字集不會實施字源分離原則。
很多人以為20,902統一漢字中來自中國台灣地區的只是Big5的一萬三千多字,其實不然.

中日韓越統一表意文字擴展A區

擴展A區包含有6,582個新的漢字,位置在 U+3400—U+4DB5。相比起最初期統一漢字,擴展A區多了來自多個來自中國大陸、中國台灣地區、新加坡等漢字。
這6千多個漢字分別從以下字典或字集中取得:中國大陸 《康熙字典》5357字(獨有1892字)
漢語大字典》5888字(獨有339字)
G3:GB 7589-87 繁體字:2391字
G5:GB 7590-87 繁體字:1226字
G7:120字 GS:新加坡漢字226字 中國台灣地區 T3:CNS 11643-1992 第三字面(原本為CNS 11643-1986第十四字面)新加入字元
T4:CNS 11643-1992 第四字面
T5:CNS 11643-1992 第五字面
T6:CNS 11643-1992 第六字面
T7:CNS 11643-1992 第七字面
TF:CNS 11643-1992 第十五字面
日本 JA: Unified Japanese IT Vendors Contemporary Ideographs, 1993
韓國K2:PKS C 5700-1:1994 K3:PKS C 5700-2:1994
越南 V0:TCVN 5773:1993 V1:TCVN 6056:1995

中日韓越統一表意文字擴展B區

擴展B區包含有42,711個新的漢字,位置在 U+20000—U+2A6D6。根據ISO/IEC JTC1/SC2/WG2/IRG N777號文件,這四萬多個漢字分別從以下字典或字集中取得:
CNS 11643的第4平面到第15平面所收錄的30,177個漢字;
在《漢語大字典》中出現的28,914個未收錄漢字
在《康熙字典》中出現的18,486個未收錄漢字(包括一個在補遺篇出現漢字);
在朝鮮的國家標準所收錄的5,642個漢字;
在越南的國家標準所收錄的4,232個字喃
HKSCS中出現的1,081個未收錄漢字;
漢語大詞典》中出現的553個未收錄漢字;
四庫全書》中出現的522個未收錄漢字;
日本工業標準的JIS X 0213第3平面及第4平面的302個未收錄漢字;
1980年代版本的《辭海》中出現的247個未收錄漢字;
大韓民國PKS 5700-3:1998中出現的166個未收錄漢字;
中國大百科全書》中出現的86個未收錄漢字;
辭源》中出現的66個未收錄漢字;
北大方正排版系統中出現的65個未收錄漢字;
這堆漢字中重複的漢字有不少,所以經過整理之後,總數實際上只有42,711個漢字。
另外,在 U+2F800—U+2FA1D 的位置,放了542個來自中國台灣地區的兼容漢字。
Unicode 4.1漢字
為使 Unicode 向下兼容 GB 18030 和香港增補字符集(HKSCS)的所有漢字,而擴展C區又遲遲未能出籠,在 Unicode 4.1 版中引進了14箇中國香港地區增補字符集的用字和8個 GB 18030 用字。該22字被編於 U+9FA6—U+9FBB 的位置。
另外,在 U+FA70—U+FAD9 的位置,放了106個來自朝鮮的兼容漢字。
擴展C區按計劃,中日韓統一表意文字擴展C區將收錄4,251個漢字,包括來自中國大陸、中國台灣地區、日本、越南等尚未被編碼的漢字。這些漢字預計會收錄在下一版的 Unicode 版本中,位置在 U+2A6E0—U+2B77A。

中日韓越統一表意文字擴展C區

於2009年10月發佈的Unicode 5.2涵蓋了擴展C區,共收錄4,149個漢字,包括來自中國(大陸、澳門、台灣)、日本、越南等尚未被編碼的漢字。位置在 U+2A700—U+2B734。

中日韓越統一表意文字擴展D區

擴充區D包含的都是所謂的「急用漢字」,合共222個新漢字,於2010年下旬發佈的Unicode6.0中,編碼範圍為 U+2B740 至 U+2B81F(實際有字符為 U+2B740 至 U+2B81D)。
擴展D區原本計劃放置擴展C區未收錄的16,000多個漢字,但在2007年5月,中國台灣地區撤消了6,545個第二部分字集內私用漢字,不再使用字,原因是那些人名用字的擁有人或已去世或已移居外地,此後擴展D區縮減到大約10,000字左右。,由於各種阻礙,協議先把數量較少,又急切要收錄的漢字提交出來,就是「急用漢字」,以便和統一碼6.0.0版一起發表。提出的急用漢字只有二百二十二字(本來有二百二十三字,但中國大陸撤回其中一字)。文字小組把第二部分字集延後到擴充E區。

中日韓越統一表意文字擴展E區

在2015年6月發佈的Unicode 8.0中被引入,所在平面是第2平面,碼位範圍是U+2B820至U+2CEAF,收字數量5762字。
擴展E區原定收錄擴展D區未收錄的10000多個漢字,但在2008年11月,中國大陸以“難以逐個找證據”為理由,撤銷了3215個漢字,這些漢字主要用於地名、人名、姓氏,亦有數百個《中國大百科全書》中的文字。這是繼中國台灣地區撤銷6545字之後的又一次大規模撤銷。之後經過排除一些出現問題的漢字後,最終定稿為5762字。
擴展E區漢字主要來自:
中國大陸:《中國大百科全書》15字,《辭海》112字,《辭源》3字,中國測繪科學院用字(地名用字)98字,地質出版社用字1字,《古代漢語詞典》176字,《漢語大詞典》7字,公安部身份證用字36字,商務印書館用字147字,《康熙字典》22字,人民日報用字3字,漢語大詞典出版社用字12字,《現代漢語詞典》57字,《新華字典》4字,《漢語方言大詞典》712字,《殷周金文集成引得》1410字。
中國澳門:澳門信息系統字集48字
中國台灣地區:CNS 11643-1992第12字面(人名用字)323字,CNS 11643-1992第13字面(人名用字)595字,CNS 11643-1992第14字面(人名用字)339字。
日本:日本國字集415字
美國:統一碼技術委員會(UTC)從各處收集到的未收錄漢字227字。
越南:《喃字詞典》《岱喃字字典》《沔南喃字榜查》。 [2] 

中日韓越統一表意文字擴展F區

擴展F區在2017年6月20日的Unicode 10.0中發佈,編碼範圍為U+2CEB0–U+2EBEF。
擴展F區主要包括一千多個方塊壯字及數千個佛經、古籍中的用字以及日本户籍用字,共有7473字。 [2] 

中日韓越統一表意文字擴展G區

2020年3月10日公佈的Unicode 13.0中在第三輔助平面收錄擴展區G的4,939個漢字,碼位為U+30000–U+3134A。 [2] 

中日韓越統一表意文字擴展H區

2022年9月20日公佈的Unicode 15.0中在第三輔助平面收錄擴展區H的4,192個漢字,碼位為U+31350–U+323AF。 [2] 

中日韓越統一表意文字擴展I區

2023年9月12日公佈的Unicode 15.1中在第二輔助平面收錄擴展區I的622個漢字,碼位為U+2EBF0–U+2EE5D。 [2] 

中日韓越統一表意文字急用漢字區

急用漢字區指在個別情況下,對於急用的少數漢字,會加在上述區塊末尾的空白碼碼上,如:
是擴展E區整理後期,各地新發現並急於使用,又等不及放入擴展F區的字;和擴展E區一起收入Unicode 8.0,位置在U+9FCD–U+9FD5;當中中國大陸在此處申請收入三字,連同擴展E區的字,通用規範漢字表的8105字至此全部收入。 [2] 

中日韓越統一表意文字編寫原則

表意文字認同原則與字源分離原則,是兩個對立的原則,它們是Unicode整理中日韓統一表意文字的基礎。

中日韓越統一表意文字表意文字認同原則

在表意文字認同原則下,Unicode“只對字(Character),而不對字形(Glyph)”編碼,會把同一字的不同字形(即異體字)合併。好像上述的“次”字,在Unicode裏會整併成一個碼。又例如不同地區而有不同寫法的部首,如“⻌(中國大陸規範、日本新字體)、⻍(港台舊字形、韓國、日本舊字體)、⻎(中國台灣地區)”、“礻(中國大陸規範、中國台灣地區)、礻(日本新字體)、⺬(日本舊字體、韓國、港台舊字形)”、“爫(中國大陸、港台新字形)、⺥(舊字形)”等,會合並編碼。這些部首的寫法差異就會交由字體處理。比如説,使用依中國大陸漢字標準《印刷通用漢字字形表》的字體下(如中易宋體微軟雅黑體)便會出現“⻌、爫”;使用中國台灣地區標準字體(如微軟正黑體或新版細明體,但舊版細明體)就會出現“⻎、爫”等字形。這大大解決了因地區而異之部首寫法。 [2] 

中日韓越統一表意文字字源分離原則

字源分離原則(Source Separation Rule)是整理中日韓統一表意文字的基礎。
由於CJK各地字型多有微妙的差異,如“户”字的第一筆,中國台灣地區作撇、中國大陸作點、日本作橫,這種程度的差異,理想上是整併為一個字為佳。然而,從之前各種受挫之文字整並計劃的經驗得知,整合字集與現行通用字集(Big5或國標碼)等無法一一對應,是推行整合字集的最大阻礙。
例如,日本的JIS標準同時收錄了“剣”字與“劍”字,原本JIS文件裏這兩個字可以並存,但採用整合字集後反而變成同一個字,會造成使用上的困擾。於是,字源分離原則因而誕生。
字源分離原則是指,在上述所列出之各種字源裏,若有任何字集同時收了兩種以上的文字字形,則在Unicode中日韓統一表意文字中,也同時收錄這些字。這樣一來,現行的各種原有字集與Unicode漢字可以一一對應。
由於Unicode中日韓統一表意文字的主要訴求,就是能大幅減少Unicode收錄漢字字數,同時尊重各地的習慣字形。但字源分離原則則破壞了“只對字,而不對字形”編碼之原則,亦遭受不少批評。
已統一的漢字原則上ISO 10646只對字(Character),而非字形(Glyph)編碼。同一字各地可使用自己的標準寫法。
有些字只是同一字在不同地區的寫法,理應統一,但因為字源分離原則而只好分開編碼。值得注意的是字源分離原則由擴展A集 (Extension A) 開始已沒有使用,原因是CNS中有太多字形非常接近,按 Unicode 標準應該統一的字。這些字只有第一個會編入正式字集(包括Extension A,B,C) 中,其餘的編入位於第二輔助平面的表意文字補充兼容區 (Compatibility Ideographs Supplement) 中。 [2] 
以下是所有摘自ISO/IEC JTC1/SC2/WG2字源分離原則文件之中有的字。
Unicode
字形
Unicode
字形
U+4E1F
U+4E22
U+4E48
U+5E7A
U+4E89
U+722D
U+4EDE
U+4EED
U+4F75
U+5002
U+4FA3
U+4FB6
U+4FC1
U+4FE3
U+4FDE
U+516A
U+4FF1
U+5036
U+5024
U+503C
U+5077
U+5078
U+507D
U+50DE
U+514C
U+5151
U+514E
U+5154
U+5156
U+5157
U+518A
U+518C
U+51C0
U+51C8
U+51E2
U+51E3
U+5203
U+5204
U+520A
U+520B
U+5220
U+522A
U+5225
U+522B
U+5238
U+52B5
U+5239
U+524E
U+524F
U+5259
U+525D
U+5265
U+5292
U+5294
U+52FB
U+5300
U+5355
U+5358
U+5373
U+537D
U+5377
U+5DFB
U+53C1
U+53C2
U+53C3
U+53C4
U+5415
U+5442
U+541E
U+5451
U+5433
U+5434
U+5449
U+5436
U+5450
U+543F
U+544A
U+5527
U+559E
U+55A9
U+55BB
U+5618
U+5653
U+568F
U+5694
U+56EF
U+56FD
U+5708
U+570F
U+570E
U+5713
U+5716
U+5717
U+5759
U+5DE0
U+57D2
U+57D3
U+5848
U+588D
U+5861
U+586B
U+5897
U+589E
U+58EE
U+58EF
U+58FD
U+5900
U+5910
U+657B
U+5932
U+672C
U+5965
U+5967
U+5968
U+596C
U+734E
U+5986
U+599D
U+598D
U+59F8
U+59CD
U+59D7
U+59EB
U+59EC
U+5A1B
U+5A2F
U+5A31
U+5A55
U+5AAB
U+5A7E
U+5AAE
U+5AAA
U+5ABC
U+5AAF
U+5B00
U+5B0E
U+5B14
U+5B24
U+5B37
U+5B73
U+5B76
U+5BAB
U+5BAE
U+5BDB
U+5BEC
U+5BDC
U+5BE7
U+5BDD
U+5BE2
U+5C02
U+5C08
U+5C06
U+5C07
U+5C13
U+5C14
U+5C19
U+5C1A
U+5C2A
U+5C2B
U+5C36
U+5C37
U+5C4F
U+5C5B
U+5CE5
U+5D22
U+5DD3
U+5DD4
U+5E21
U+5E32
U+5E2F
U+5E36
U+5E76
U+5E77
U+5EC4
U+5ECF
U+5F11
U+5F12
U+5F37
U+5F3A
U+5F39
U+5F3E
U+5F50
U+5F51
U+5F54
U+5F55
U+5F59
U+5F5A
U+5F5B
U+5F5C
U+5F5D
U+5F5E
U+5F65
U+5F66
U+5FB3
U+5FB7
U+5FB4
U+5FB5
U+6075
U+60E0
U+6085
U+60A6
U+609E
U+60AE
U+60B3
U+60EA
U+6120
U+614D
U+613C
U+614E
U+6229
U+622C
U+622F
U+6231
U+6236
U+6237
U+623B
U+623E
U+629B
U+62CB
U+629C
U+62D4
U+6329
U+635D
U+633F
U+63D2
U+63F7
U+634F
U+63D1
U+635C
U+641C
U+63B2
U+63ED
U+63FA
U+6416
U+6447
U+63FE
U+6435
U+6483
U+64CA
U+654E
U+6559
U+6553
U+655A
U+65E2
U+65E3
U+6602
U+663B
U+665A
U+6669
U+66A8
U+66C1
U+66FD
U+66FE
U+67B4
U+67FA
U+67E5
U+67FB
U+67F5
U+6805
U+68B2
U+68C1
U+6961
U+6986
U+6982
U+69EA
U+6985
U+69B2
U+699D
U+6A27
U+69C7
U+69D9
U+69D8
U+6A23
U+6A2A
U+6A6B
U+6B65
U+6B69
U+6B72
U+6B73
U+6B7F
歿
U+6B81
歿
U+6BBB
U+6BBC
U+6BC0
U+6BC1
U+6BCE
U+6BCF
U+6C32
U+6C33
U+6C5A
U+6C61
U+6C92
U+6CA1
U+6D44
U+6DE8
U+6D89
U+6E09
U+6D97
U+6D9A
U+6D99
U+6DDA
U+6DE5
U+6E0C
U+6DF8
U+6E05
U+6E07
U+6E34
U+6E29
U+6EAB
U+6E88
U+6F59
U+6E89
U+6F11
U+6EDA
U+6EFE
U+6F5B
U+6FF3
U+7028
U+702C
U+70BA
U+7232
U+712D
U+7162
U+7155
U+7199
U+7174
U+7185
U+72B6
U+72C0
U+7464
U+7476
U+74F6
U+7501
U+7522
U+7523
U+75E9
U+7626
U+76A1
U+76A5
U+771E
U+771F
U+773E
U+8846
U+7814
U+784F
U+797F
祿
U+7984
祿
U+79BF
禿
U+79C3
禿
U+7A05
U+7A0E
U+7A42
U+7A57
U+7B5D
U+7B8F
U+7BB3
U+7C08
U+7BE1
U+7C12
U+7CA4
U+7CB5
U+7D55
U+7D76
U+7DA0
U+7DD1
U+7DD2
U+7DD6
U+7DE3
U+7E01
U+7DFC
U+7E15
U+7E48
U+7E66
U+7FAE
U+7FB9
U+7FF6
U+7FFA
U+80FC
U+8141
U+812B
U+8131
U+817D
U+8183
U+8203
U+8204
U+820D
U+820E
U+8216
U+8217
U+8358
U+838A
U+83D1
U+8458
U+8480
U+8495
U+848B
U+8523
U+848D
U+853F
U+8570
U+8580
U+85AB
U+85B0
U+85F4
U+860A
U+865A
U+865B
U+86FB
U+8715
U+885B
U+885E
U+886E
U+889E
U+88C5
U+88DD
U+8A2E
U+8A7D
U+8AAA
U+8AAC
U+8ACC
U+8AEB
U+8B20
U+8B21
U+8C5C
U+8C63
U+8D70
U+8D71
U+8EFF
軿
U+8F27
U+8F1C
U+8F3A
U+8F3C
U+8F40
U+8FBE
U+8FD6
U+8FF8
U+902C
U+9059
U+9065
U+90A2
U+90C9
U+90CE
U+90DE
U+90F7
U+9109
U+9115
U+9196
U+919E
U+91A4
U+91AC
U+9203
U+9292
U+92B3
U+92ED
U+9304
U+9332
U+932C
U+934A
U+93AD
U+93AE
U+95B1
U+95B2
U+9667
U+9689
U+9751
U+9752
U+9759
U+975C
U+976D
U+9771
U+9839
U+983D
U+984F
U+9854
U+985A
U+985B
U+98EE
U+98F2
U+9905
U+9920
U+99B1
U+99C4
U+99E2
U+9A08
U+9AA9
U+9AAB
U+9AD8
U+9AD9
U+9AEA
U+9AEE
U+9B2C
U+9B2D
U+9C1B
U+9C2E
U+9CEF
U+9CF3
U+9D87
U+9DAB
U+9DC6
U+9DCF
U+9EAA
U+9EAB
U+9EBC
U+9EBD
U+9EC3
U+9EC4
U+9ED1
U+9ED2

中日韓越統一表意文字問題

擴展B區使用了輔助平面來擺放漢字,以致不少字處理軟件都不能支持。例如,Microsoft Office2000 或之前的版本,即使計算機擁有擴展B區漢字字體,也只會顯示兩個方格。
另外,因擴展B區在整理上有缺陷,收錄了以下5個本來應該與其他漢字統一的字:
· U+20457 𠑗 =U+34A8 㒨
· U+2420E 𤈎 =U+3DB7 㶷
· U+27144 𧅄 =U+8641 虁
· U+23515 𣔕 =U+204F2 𠓲
· U+249E9 𤧩 =U+249BC 𤦼
而在 WG2 N1155 文件中,亦列出了152對可考慮統一的漢字。

中日韓越統一表意文字例外

中日韓越統一表意文字漢字〇

“〇”是一個漢字,《集韻》中已有此字,則天文字中亦有此字。《漢語大字典》《中華字海》《現代漢語詞典》都收錄了此字。但在Unicode中它被放入CJK符號和標點區(U+3007),被等同於數字0,在搜索“〇”的時候,會連帶搜索出數字0,使用上頗為不便(搜索漢字“一、二、三”,不會搜索出數字1、2、3)。此外,很多程序限定了漢字的範圍為Unicode各漢字區,區外不視為漢字,由於“〇”不在漢字區中,導致這些程序無法處理“〇”這個漢字,造成不便。 [4] 

中日韓越統一表意文字姓名間隔符“·”

按照國家標準的要求,使用U+00B7,對應GB18030編碼為A1A4。 [5] 
參考資料