-
中日韓越統一表意文字
鎖定
- 中文名
- 中日韓越統一表意文字
- 外文名
- CJKV Unified Ideographs
- 別 名
-
Unicode
統一碼
中日韓越統一表意文字概況
中日韓越統一表意文字(英語:CJKV Unified Ideographs),舊稱中日韓統一表意文字(英語:CJKUnified Ideographs),也稱統一漢字(英語:Unihan),目的是要把分別來自中文、日文、韓文、越文、壯文中,對於相同起源、本義相同、形狀一樣或稍異的表意文字主要為漢字,但也有仿漢字如:方塊壯字、日文漢字(かんじ / kanji)、韓文漢字(한자 / hanja)、越南的喃字(Chữ Nôm)與越文漢字[漢字/Hán Tự,在越南也稱作儒字(𡨸儒/Chữ Nho)],應賦予其在ISO 10646及統一碼標準中有相同編碼。此計劃原本只包含中文、日文及韓文中所使用的漢字,是以舊稱中日韓統一表意文字(CJK)。後來,此計劃加入了越文的喃字,所以合稱中日韓越統一表意文字(CJKV)。
[1-3]
中日韓越統一表意文字歷史沿革
1978 年,日本基於ISO 2022,制訂了全世界最早的漢字編碼 JIS C6226。1980年代,中國大陸、中國台灣地區、韓國則各自制訂了自己的規範。這些規範彼此之關並無關聯。若要在一份文件中同時使用,則要以脱序字符的方式來交換。
1980 年,日本的國立國會圖書館的高橋德太郎以圖書學的觀點指出,一個統一的東亞漢字編碼系統是有必要的。同年,中國台灣地區制定了三字節的中文信息交換碼。偶然的是,這是第一個期望可以一致處理中國大陸、日本、中國台灣地區漢字的編碼。之後,美國的國會圖書館採用了此規格,並另外命名為東亞編碼字符(EastAsia Coded Character,EACC,ANSI/NISOZ39.64)。
1984年,ISO 的文字編碼委員會(ISO/TC97/SC2)決議制訂出一套編碼規格(ISO10646),是以交換文字集的方式來統一處理世界的文字。併成立了工作小組(ISO/TC97/SC 2/ WG 2)。這個編碼一開始的構想是採用16位,而對於日本及中國等國的漢字編碼則原封不動地加入。但若如此,中國當時所制訂的編碼都無法加入,因而反對。並於1989年,提出了各國的漢字統合集合(HanCharacter Collection,HCC)的構想。
1990年完成了 ISO10646 的初版草案(DIS10646)。漢字使用32 位來表示。並將各國的漢字編碼原封不動地加入。但中國認為,若各國各自為漢字編碼,將不利於統一處理漢字,因而反對。為了日後關於漢字編碼的討論及方針能順利進行,並呼籲WG 2 特別設置了中日韓聯合研究小組(CJK-JRG,JointResearch Group,為表意文字小組的前身),以持續討論。
另一方面,1987年,全錄的 JoeBecker 和Lee Collins 開發了統合處理全世界所有文字的統一碼。1989年發表了統一碼概要。基本為 16 位。於是,中、日、韓文字統合了。基本方針為以16 位處理所有文字。 1990年,完成了基於此方針的最終草案。來年1991年1月,大致同意此方案的企業成立了統一碼聯盟。中、日、韓中類似的漢字使用約二萬多個字。為了未來擴充,保留了三萬個漢字以供其它用途。
1991年,各國希望能以一致的方式處理文字,如統一碼這般,因而否決了ISO/IEC 10646 的初版草案。基於中國與統一碼聯盟的提議,ISO10646 和統一碼成立了中日韓聯合研究小組。中日韓聯合研究小組將基於各國的漢字編碼,獨自訂定規範、製作ISO 10646 和統一碼的統一漢字編碼。年尾,完成了UnifiedRepertoire and Ordering (URO) 。
1992年,URO 加入 ISO10646 的第二版。但是,發現了一些缺失,之後進行了修正。
1993年5月,正式制訂了最初的中日韓統一表意文字,編碼為U+4E00–U+9FFF區域,共20,902 個字(實際使用碼位U+4E00–U+9FA5)。一個月後,制訂了統一碼1.1 。
1999年,依據 ISO/IEC10646 的第17 個修正案(Amendment17)訂定了擴充區A ,在U+3400–U+4DFF區域加入了6,582個字(實際使用碼位U+3400–U+4DB5)。
2001年,依據 ISO/IEC10646-2,新增了擴充區B ,有 42,711 字。位於U+20000–U+2A6FF。但因在短時間內增加了大量的漢字,導致產生了許多重複的字形。
2005年,依據 ISO/IEC10646:2003 的第1 個修正案(Amendment1),基本多文種平面增加了 U+9FA6 到 U+9FBB 等 22 個漢字。
2009年,統一碼 5.2 擴充區 C 增加了U+2A700-U+2B734 和U+9FC4~U+9FCB。
2010年,統一碼 6.0 擴充區 D 增加了U+2B740-U+2B81F。
2012年,1字增加 U+9FCC。
2015年,統一碼 8.0 擴充區 E 增加了U+2B820-U+2CEAF。
2017年,統一碼 8.0 擴充區 F 增加了U+2CEB0-U+2EBE0。
中日韓越統一表意文字字源
中日韓越統一表意文字初始版統一漢字
最初期的統一漢字(20,902字)字源來自以下字集:
中國大陸的G源
G0:GB 2312-80:6,763字
G1:GB 12345-90:2,352字(含58個香港字和2個吏讀字,不包括和G0重覆的字)
G3:GB 7589-87:7,237字
G5:GB 7590-87:7,039字
G7:現代漢語通用字表:642(G0, 1, 3, 5, 8未包括的字)
G8:GB 8565-89:290字(G0, 1, 3, 5未包括的字)
中國台灣地區的T源
T1:CNS 11643-1986第一字面:5,401+9字(含9個計量用漢字)
T2:CNS 11643-1986第二字面:7,650字
TE:CNS 11643-1986第十四字面:6,319+239+10(含239個CCCII特字和10個XCCS特字)
日本的J源
J1:JIS X 0208-90:6,335+1字
J2:JIS X 0212-90:5,801字
韓國的K源
K0:KS C 5601-87:4,888字(含268個重見字)
K1:KS C 5657-91:2,856字
以上的來源字集會實施字源分離原則。
另外還有:ANSI Z39.64-1989(EACC)、Big5、CCCII第一面、GB 12052-89、JEF、中國大陸電報碼、中國台灣地區電報碼、Xerox Chinese。這些來源字集不會實施字源分離原則。
很多人以為20,902統一漢字中來自中國台灣地區的只是Big5的一萬三千多字,其實不然.
中日韓越統一表意文字擴展A區
擴展A區包含有6,582個新的漢字,位置在 U+3400—U+4DB5。相比起最初期統一漢字,擴展A區多了來自多個來自中國大陸、中國台灣地區、新加坡等漢字。
這6千多個漢字分別從以下字典或字集中取得:中國大陸 《康熙字典》5357字(獨有1892字)
《漢語大字典》5888字(獨有339字)
G3:GB 7589-87 繁體字:2391字
G5:GB 7590-87 繁體字:1226字
G7:120字 GS:新加坡漢字226字 中國台灣地區 T3:CNS 11643-1992 第三字面(原本為CNS 11643-1986第十四字面)新加入字元
T4:CNS 11643-1992 第四字面
T5:CNS 11643-1992 第五字面
T6:CNS 11643-1992 第六字面
T7:CNS 11643-1992 第七字面
TF:CNS 11643-1992 第十五字面
日本 JA: Unified Japanese IT Vendors Contemporary Ideographs, 1993
韓國K2:PKS C 5700-1:1994 K3:PKS C 5700-2:1994
越南 V0:TCVN 5773:1993 V1:TCVN 6056:1995
中日韓越統一表意文字擴展B區
擴展B區包含有42,711個新的漢字,位置在 U+20000—U+2A6D6。根據ISO/IEC JTC1/SC2/WG2/IRG N777號文件,這四萬多個漢字分別從以下字典或字集中取得:
CNS 11643的第4平面到第15平面所收錄的30,177個漢字;
在《康熙字典》中出現的18,486個未收錄漢字(包括一個在補遺篇出現漢字);
在朝鮮的國家標準所收錄的5,642個漢字;
在越南的國家標準所收錄的4,232個字喃;
HKSCS中出現的1,081個未收錄漢字;
《漢語大詞典》中出現的553個未收錄漢字;
《四庫全書》中出現的522個未收錄漢字;
日本工業標準的JIS X 0213第3平面及第4平面的302個未收錄漢字;
1980年代版本的《辭海》中出現的247個未收錄漢字;
大韓民國PKS 5700-3:1998中出現的166個未收錄漢字;
《中國大百科全書》中出現的86個未收錄漢字;
《辭源》中出現的66個未收錄漢字;
北大方正排版系統中出現的65個未收錄漢字;
這堆漢字中重複的漢字有不少,所以經過整理之後,總數實際上只有42,711個漢字。
另外,在 U+2F800—U+2FA1D 的位置,放了542個來自中國台灣地區的兼容漢字。
Unicode 4.1漢字
為使 Unicode 向下兼容 GB 18030 和香港增補字符集(HKSCS)的所有漢字,而擴展C區又遲遲未能出籠,在 Unicode 4.1 版中引進了14箇中國香港地區增補字符集的用字和8個 GB 18030 用字。該22字被編於 U+9FA6—U+9FBB 的位置。
另外,在 U+FA70—U+FAD9 的位置,放了106個來自朝鮮的兼容漢字。
擴展C區按計劃,中日韓統一表意文字擴展C區將收錄4,251個漢字,包括來自中國大陸、中國台灣地區、日本、越南等尚未被編碼的漢字。這些漢字預計會收錄在下一版的 Unicode 版本中,位置在 U+2A6E0—U+2B77A。
中日韓越統一表意文字擴展C區
於2009年10月發佈的Unicode 5.2涵蓋了擴展C區,共收錄4,149個漢字,包括來自中國(大陸、澳門、台灣)、日本、越南等尚未被編碼的漢字。位置在 U+2A700—U+2B734。
中日韓越統一表意文字擴展D區
擴充區D包含的都是所謂的「急用漢字」,合共222個新漢字,於2010年下旬發佈的Unicode6.0中,編碼範圍為 U+2B740 至 U+2B81F(實際有字符為 U+2B740 至 U+2B81D)。
擴展D區原本計劃放置擴展C區未收錄的16,000多個漢字,但在2007年5月,中國台灣地區撤消了6,545個第二部分字集內私用漢字,不再使用字,原因是那些人名用字的擁有人或已去世或已移居外地,此後擴展D區縮減到大約10,000字左右。,由於各種阻礙,協議先把數量較少,又急切要收錄的漢字提交出來,就是「急用漢字」,以便和統一碼6.0.0版一起發表。提出的急用漢字只有二百二十二字(本來有二百二十三字,但中國大陸撤回其中一字)。文字小組把第二部分字集延後到擴充E區。
中日韓越統一表意文字擴展E區
在2015年6月發佈的Unicode 8.0中被引入,所在平面是第2平面,碼位範圍是U+2B820至U+2CEAF,收字數量5762字。
擴展E區原定收錄擴展D區未收錄的10000多個漢字,但在2008年11月,中國大陸以“難以逐個找證據”為理由,撤銷了3215個漢字,這些漢字主要用於地名、人名、姓氏,亦有數百個《中國大百科全書》中的文字。這是繼中國台灣地區撤銷6545字之後的又一次大規模撤銷。之後經過排除一些出現問題的漢字後,最終定稿為5762字。
擴展E區漢字主要來自:
中國大陸:《中國大百科全書》15字,《辭海》112字,《辭源》3字,中國測繪科學院用字(地名用字)98字,地質出版社用字1字,《古代漢語詞典》176字,《漢語大詞典》7字,公安部身份證用字36字,商務印書館用字147字,《康熙字典》22字,人民日報用字3字,漢語大詞典出版社用字12字,《現代漢語詞典》57字,《新華字典》4字,《漢語方言大詞典》712字,《殷周金文集成引得》1410字。
中國澳門:澳門信息系統字集48字
中國台灣地區:CNS 11643-1992第12字面(人名用字)323字,CNS 11643-1992第13字面(人名用字)595字,CNS 11643-1992第14字面(人名用字)339字。
日本:日本國字集415字
美國:統一碼技術委員會(UTC)從各處收集到的未收錄漢字227字。
中日韓越統一表意文字擴展F區
擴展F區在2017年6月20日的Unicode 10.0中發佈,編碼範圍為U+2CEB0–U+2EBEF。
擴展F區主要包括一千多個方塊壯字及數千個佛經、古籍中的用字以及日本户籍用字,共有7473字。
[2]
中日韓越統一表意文字擴展G區
中日韓越統一表意文字擴展H區
中日韓越統一表意文字擴展I區
中日韓越統一表意文字急用漢字區
急用漢字區指在個別情況下,對於急用的少數漢字,會加在上述區塊末尾的空白碼碼上,如:
是擴展E區整理後期,各地新發現並急於使用,又等不及放入擴展F區的字;和擴展E區一起收入Unicode 8.0,位置在U+9FCD–U+9FD5;當中中國大陸在此處申請收入三字,連同擴展E區的字,通用規範漢字表的8105字至此全部收入。
[2]
中日韓越統一表意文字編寫原則
表意文字認同原則與字源分離原則,是兩個對立的原則,它們是Unicode整理中日韓統一表意文字的基礎。
中日韓越統一表意文字表意文字認同原則
在表意文字認同原則下,Unicode“只對字(Character),而不對字形(Glyph)”編碼,會把同一字的不同字形(即異體字)合併。好像上述的“次”字,在Unicode裏會整併成一個碼。又例如不同地區而有不同寫法的部首,如“⻌(中國大陸規範、日本新字體)、⻍(港台舊字形、韓國、日本舊字體)、⻎(中國台灣地區)”、“礻(中國大陸規範、中國台灣地區)、礻(日本新字體)、⺬(日本舊字體、韓國、港台舊字形)”、“爫(中國大陸、港台新字形)、⺥(舊字形)”等,會合並編碼。這些部首的寫法差異就會交由字體處理。比如説,使用依中國大陸漢字標準《印刷通用漢字字形表》的字體下(如中易宋體、微軟雅黑體)便會出現“⻌、爫”;使用中國台灣地區標準字體(如微軟正黑體或新版細明體,但非舊版細明體)就會出現“⻎、爫”等字形。這大大解決了因地區而異之部首寫法。
[2]
中日韓越統一表意文字字源分離原則
字源分離原則(Source Separation Rule)是整理中日韓統一表意文字的基礎。
由於CJK各地字型多有微妙的差異,如“户”字的第一筆,中國台灣地區作撇、中國大陸作點、日本作橫,這種程度的差異,理想上是整併為一個字為佳。然而,從之前各種受挫之文字整並計劃的經驗得知,整合字集與現行通用字集(Big5或國標碼)等無法一一對應,是推行整合字集的最大阻礙。
例如,日本的JIS標準同時收錄了“剣”字與“劍”字,原本JIS文件裏這兩個字可以並存,但採用整合字集後反而變成同一個字,會造成使用上的困擾。於是,字源分離原則因而誕生。
字源分離原則是指,在上述所列出之各種字源裏,若有任何字集同時收了兩種以上的文字字形,則在Unicode中日韓統一表意文字中,也同時收錄這些字。這樣一來,現行的各種原有字集與Unicode漢字可以一一對應。
由於Unicode中日韓統一表意文字的主要訴求,就是能大幅減少Unicode收錄漢字字數,同時尊重各地的習慣字形。但字源分離原則則破壞了“只對字,而不對字形”編碼之原則,亦遭受不少批評。
已統一的漢字原則上ISO 10646只對字(Character),而非字形(Glyph)編碼。同一字各地可使用自己的標準寫法。
有些字只是同一字在不同地區的寫法,理應統一,但因為字源分離原則而只好分開編碼。值得注意的是字源分離原則由擴展A集 (Extension A) 開始已沒有使用,原因是CNS中有太多字形非常接近,按 Unicode 標準應該統一的字。這些字只有第一個會編入正式字集(包括Extension A,B,C) 中,其餘的編入位於第二輔助平面的表意文字補充兼容區 (Compatibility Ideographs Supplement) 中。
[2]
以下是所有摘自ISO/IEC JTC1/SC2/WG2字源分離原則文件之中有的字。
Unicode | 字形 | Unicode | 字形 |
U+4E1F | 丟 | U+4E22 | 丟 |
U+4E48 | 麼 | U+5E7A | 幺 |
U+4E89 | 爭 | U+722D | 爭 |
U+4EDE | 仞 | U+4EED | 仭 |
U+4F75 | 並 | U+5002 | 倂 |
U+4FA3 | 侶 | U+4FB6 | 侶 |
U+4FC1 | 俁 | U+4FE3 | 俁 |
U+4FDE | 俞 | U+516A | 兪 |
U+4FF1 | 俱 | U+5036 | 倶 |
U+5024 | 値 | U+503C | 值 |
U+5077 | 偷 | U+5078 | 偷 |
U+507D | 偽 | U+50DE | 偽 |
U+514C | 兑 | U+5151 | 兑 |
U+514E | 兎 | U+5154 | 兔 |
U+5156 | 兗 | U+5157 | 兗 |
U+518A | 冊 | U+518C | 冊 |
U+51C0 | 淨 | U+51C8 | 淨 |
U+51E2 | 凢 | U+51E3 | 凣 |
U+5203 | 刃 | U+5204 | 刄 |
U+520A | 刊 | U+520B | 刋 |
U+5220 | 刪 | U+522A | 刪 |
U+5225 | 別 | U+522B | 別 |
U+5238 | 券 | U+52B5 | 劵 |
U+5239 | 剎 | U+524E | 剎 |
U+524F | 剏 | U+5259 | 剙 |
U+525D | 剝 | U+5265 | 剝 |
U+5292 | 劍 | U+5294 | 劔 |
U+52FB | 勻 | U+5300 | 勻 |
U+5355 | 單 | U+5358 | 単 |
U+5373 | 即 | U+537D | 卽 |
U+5377 | 卷 | U+5DFB | 巻 |
U+53C1 | 叁 | U+53C2 | 參 |
U+53C3 | 參 | U+53C4 | 叁 |
U+5415 | 呂 | U+5442 | 呂 |
U+541E | 吞 | U+5451 | 呑 |
U+5433 | 吳 | U+5434 U+5449 | 吳 呉 |
U+5436 | 吶 | U+5450 | 吶 |
U+543F | 吿 | U+544A | 告 |
U+5527 | 唧 | U+559E | 喞 |
U+55A9 | 喩 | U+55BB | 喻 |
U+5618 | 噓 | U+5653 | 噓 |
U+568F | 嚏 | U+5694 | 嚔 |
U+56EF | 國 | U+56FD | 國 |
U+5708 | 圈 | U+570F | 圏 |
U+570E | 圎 | U+5713 | 圓 |
U+5716 | 圖 | U+5717 | 圗 |
U+5759 | 坙 | U+5DE0 | 巠 |
U+57D2 | 埒 | U+57D3 | 埓 |
U+5848 | 塈 | U+588D | 墍 |
U+5861 | 塡 | U+586B | 填 |
U+5897 | 増 | U+589E | 增 |
U+58EE | 壯 | U+58EF | 壯 |
U+58FD | 壽 | U+5900 | 壽 |
U+5910 | 夐 | U+657B | 敻 |
U+5932 | 夲 | U+672C | 本 |
U+5965 | 奧 | U+5967 | 奧 |
U+5968 | 奨 | U+596C U+734E | 獎 獎 |
U+5986 | 妝 | U+599D | 妝 |
U+598D | 妍 | U+59F8 | 姸 |
U+59CD | 姍 | U+59D7 | 姍 |
U+59EB | 姫 | U+59EC | 姬 |
U+5A1B | 娛 | U+5A2F U+5A31 | 娯 娛 |
U+5A55 | 婕 | U+5AAB | 媫 |
U+5A7E | 婾 | U+5AAE | 偷 |
U+5AAA | 媪 | U+5ABC | 媪 |
U+5AAF | 媯 | U+5B00 | 媯 |
U+5B0E | 嬎 | U+5B14 | 嬔 |
U+5B24 | 嬤 | U+5B37 | 嬤 |
U+5B73 | 孳 | U+5B76 | 孶 |
U+5BAB | 宮 | U+5BAE | 宮 |
U+5BDB | 寛 | U+5BEC | 寬 |
U+5BDC | 寜 | U+5BE7 | 寧 |
U+5BDD | 寢 | U+5BE2 | 寢 |
U+5C02 | 専 | U+5C08 | 專 |
U+5C06 | 將 | U+5C07 | 將 |
U+5C13 | 尓 | U+5C14 | 爾 |
U+5C19 | 尙 | U+5C1A | 尚 |
U+5C2A | 尪 | U+5C2B | 尫 |
U+5C36 | 尶 | U+5C37 | 尷 |
U+5C4F | 屏 | U+5C5B | 屛 |
U+5CE5 | 崢 | U+5D22 | 崢 |
U+5DD3 | 巓 | U+5DD4 | 巔 |
U+5E21 | 帡 | U+5E32 | 帲 |
U+5E2F | 帯 | U+5E36 | 帶 |
U+5E76 | 並 | U+5E77 | 幷 |
U+5EC4 | 廄 | U+5ECF | 廏 |
U+5F11 | 弒 | U+5F12 | 弒 |
U+5F37 | 強 | U+5F3A | 強 |
U+5F39 | 彈 | U+5F3E | 弾 |
U+5F50 | 彐 | U+5F51 | 彑 |
U+5F54 | 彔 | U+5F55 | 錄 |
U+5F59 | 匯 | U+5F5A | 彚 |
U+5F5B | 彛 | U+5F5C | 彝 |
U+5F5D | 彝 | U+5F5E | 彝 |
U+5F65 | 彥 | U+5F66 | 彥 |
U+5FB3 | 徳 | U+5FB7 | 德 |
U+5FB4 | 徵 | U+5FB5 | 徵 |
U+6075 | 恵 | U+60E0 | 惠 |
U+6085 | 悦 | U+60A6 | 悦 |
U+609E | 悞 | U+60AE | 悞 |
U+60B3 | 悳 | U+60EA | 惪 |
U+6120 | 愠 | U+614D | 愠 |
U+613C | 愼 | U+614E | 慎 |
U+6229 | 戩 | U+622C | 戩 |
U+622F | 戲 | U+6231 | 戱 |
U+6236 | 户 | U+6237 | 户 |
U+623B | 戻 | U+623E | 戾 |
U+629B | 拋 | U+62CB | 拋 |
U+629C | 抜 | U+62D4 | 拔 |
U+6329 | 捝 | U+635D | 捝 |
U+633F | 挿 | U+63D2 U+63F7 | 插 揷 |
U+634F | 捏 | U+63D1 | 揑 |
U+635C | 捜 | U+641C | 搜 |
U+63B2 | 掲 | U+63ED | 揭 |
U+63FA | 揺 | U+6416 U+6447 | 搖 搖 |
U+63FE | 揾 | U+6435 | 揾 |
U+6483 | 撃 | U+64CA | 擊 |
U+654E | 敎 | U+6559 | 教 |
U+6553 | 敚 | U+655A | 敚 |
U+65E2 | 既 | U+65E3 | 旣 |
U+6602 | 昂 | U+663B | 昻 |
U+665A | 晚 | U+6669 | 晩 |
U+66A8 | 暨 | U+66C1 | 曁 |
U+66FD | 曽 | U+66FE | 曾 |
U+67B4 | 拐 | U+67FA | 拐 |
U+67E5 | 查 | U+67FB | 査 |
U+67F5 | 柵 | U+6805 | 柵 |
U+68B2 | 棁 | U+68C1 | 棁 |
U+6961 | 楡 | U+6986 | 榆 |
U+6982 | 概 | U+69EA | 槪 |
U+6985 | 榅 | U+69B2 | 榅 |
U+699D | 樧 | U+6A27 | 樧 |
U+69C7 | 槇 | U+69D9 | 槙 |
U+69D8 | 様 | U+6A23 | 樣 |
U+6A2A | 橫 | U+6A6B | 橫 |
U+6B65 | 步 | U+6B69 | 歩 |
U+6B72 | 歲 | U+6B73 | 歳 |
U+6B7F | 歿 | U+6B81 | 歿 |
U+6BBB | 殼 | U+6BBC | 殼 |
U+6BC0 | 毀 | U+6BC1 | 毀 |
U+6BCE | 毎 | U+6BCF | 每 |
U+6C32 | 氲 | U+6C33 | 氲 |
U+6C5A | 污 | U+6C61 | 污 |
U+6C92 | 沒 | U+6CA1 | 沒 |
U+6D44 | 浄 | U+6DE8 | 淨 |
U+6D89 | 涉 | U+6E09 | 渉 |
U+6D97 | 涚 | U+6D9A | 涚 |
U+6D99 | 涙 | U+6DDA | 淚 |
U+6DE5 | 淥 | U+6E0C | 淥 |
U+6DF8 | 淸 | U+6E05 | 清 |
U+6E07 | 渇 | U+6E34 | 渴 |
U+6E29 | 温 | U+6EAB | 温 |
U+6E88 | 溈 | U+6F59 | 溈 |
U+6E89 | 溉 | U+6F11 | 漑 |
U+6EDA | 滾 | U+6EFE | 滾 |
U+6F5B | 潛 | U+6FF3 | 濳 |
U+7028 | 瀨 | U+702C | 瀬 |
U+70BA | 為 | U+7232 | 為 |
U+712D | 焭 | U+7162 | 煢 |
U+7155 | 煕 | U+7199 | 熙 |
U+7174 | 煴 | U+7185 | 煴 |
U+72B6 | 狀 | U+72C0 | 狀 |
U+7464 | 瑤 | U+7476 | 瑤 |
U+74F6 | 瓶 | U+7501 | 甁 |
U+7522 | 產 | U+7523 | 產 |
U+75E9 | 痩 | U+7626 | 瘦 |
U+76A1 | 皡 | U+76A5 | 皥 |
U+771E | 眞 | U+771F | 真 |
U+773E | 眾 | U+8846 | 眾 |
U+7814 | 研 | U+784F | 硏 |
U+797F | 祿 | U+7984 | 祿 |
U+79BF | 禿 | U+79C3 | 禿 |
U+7A05 | 税 | U+7A0E | 税 |
U+7A42 | 穂 | U+7A57 | 穗 |
U+7B5D | 箏 | U+7B8F | 箏 |
U+7BB3 | 箳 | U+7C08 | 簈 |
U+7BE1 | 篡 | U+7C12 | 簒 |
U+7CA4 | 粵 | U+7CB5 | 粵 |
U+7D55 | 絕 | U+7D76 | 絕 |
U+7DA0 | 綠 | U+7DD1 | 綠 |
U+7DD2 | 緒 | U+7DD6 | 緖 |
U+7DE3 | 緣 | U+7E01 | 縁 |
U+7DFC | 緼 | U+7E15 | 緼 |
U+7E48 | 襁 | U+7E66 | 襁 |
U+7FAE | 羮 | U+7FB9 | 羹 |
U+7FF6 | 翶 | U+7FFA | 翱 |
U+80FC | 胼 | U+8141 | 腁 |
U+812B | 脱 | U+8131 | 脱 |
U+817D | 腽 | U+8183 | 腽 |
U+8203 | 舃 | U+8204 | 舄 |
U+820D | 舍 | U+820E | 舎 |
U+8216 | 鋪 | U+8217 | 舗 |
U+8358 | 荘 | U+838A | 莊 |
U+83D1 | 菑 | U+8458 | 葘 |
U+8480 | 蒀 | U+8495 | 蒀 |
U+848B | 蔣 | U+8523 | 蔣 |
U+848D | 蒍 | U+853F | 蒍 |
U+8570 | 薀 | U+8580 | 薀 |
U+85AB | 薫 | U+85B0 | 燻 |
U+85F4 | 藴 | U+860A | 藴 |
U+865A | 虛 | U+865B | 虛 |
U+86FB | 蜕 | U+8715 | 蜕 |
U+885B | 衞 | U+885E | 衞 |
U+886E | 袞 | U+889E | 袞 |
U+88C5 | 裝 | U+88DD | 裝 |
U+8A2E | 訮 | U+8A7D | 詽 |
U+8AAA | 説 | U+8AAC | 説 |
U+8ACC | 諌 | U+8AEB | 諫 |
U+8B20 | 謠 | U+8B21 | 謠 |
U+8C5C | 豜 | U+8C63 | 豣 |
U+8D70 | 走 | U+8D71 | 赱 |
U+8EFF | 軿 | U+8F27 | 輧 |
U+8F1C | 輜 | U+8F3A | 輺 |
U+8F3C | 輼 | U+8F40 | 輼 |
U+8FBE | 達 | U+8FD6 | 迖 |
U+8FF8 | 迸 | U+902C | 逬 |
U+9059 | 遙 | U+9065 | 遙 |
U+90A2 | 邢 | U+90C9 | 郉 |
U+90CE | 郎 | U+90DE | 郞 |
U+90F7 | 郷 | U+9109 U+9115 | 鄉 鄉 |
U+9196 | 醖 | U+919E | 醖 |
U+91A4 | 醤 | U+91AC | 醬 |
U+9203 | 鈃 | U+9292 | 銒 |
U+92B3 | 鋭 | U+92ED | 鋭 |
U+9304 | 錄 | U+9332 | 錄 |
U+932C | 錬 | U+934A | 煉 |
U+93AD | 鎭 | U+93AE | 鎮 |
U+95B1 | 閲 | U+95B2 | 閲 |
U+9667 | 隉 | U+9689 | 隉 |
U+9751 | 靑 | U+9752 | 青 |
U+9759 | 靜 | U+975C | 靜 |
U+976D | 韌 | U+9771 | 靱 |
U+9839 | 頹 | U+983D | 頹 |
U+984F | 顏 | U+9854 | 顏 |
U+985A | 顚 | U+985B | 顛 |
U+98EE | 飮 | U+98F2 | 飲 |
U+9905 | 餅 | U+9920 | 餠 |
U+99B1 | 馱 | U+99C4 | 駄 |
U+99E2 | 駢 | U+9A08 | 騈 |
U+9AA9 | 骩 | U+9AAB | 骫 |
U+9AD8 | 高 | U+9AD9 | 髙 |
U+9AEA | 髪 | U+9AEE | 發 |
U+9B2C | 鬬 | U+9B2D | 鬥 |
U+9C1B | 鰛 | U+9C2E | 鰛 |
U+9CEF | 鳯 | U+9CF3 | 鳳 |
U+9D87 | 鶇 | U+9DAB | 鶫 |
U+9DC6 | 鷆 | U+9DCF | 鷏 |
U+9EAA | 面 | U+9EAB | 麫 |
U+9EBC | 麼 | U+9EBD | 麼 |
U+9EC3 | 黃 | U+9EC4 | 黃 |
U+9ED1 | 黑 | U+9ED2 | 黒 |
中日韓越統一表意文字問題
另外,因擴展B區在整理上有缺陷,收錄了以下5個本來應該與其他漢字統一的字:
· U+20457 𠑗 =U+34A8 㒨
· U+2420E 𤈎 =U+3DB7 㶷
· U+27144 𧅄 =U+8641 虁
· U+23515 𣔕 =U+204F2 𠓲
· U+249E9 𤧩 =U+249BC 𤦼
而在 WG2 N1155 文件中,亦列出了152對可考慮統一的漢字。
中日韓越統一表意文字例外
中日韓越統一表意文字漢字〇
“〇”是一個漢字,《集韻》中已有此字,則天文字中亦有此字。《漢語大字典》《中華字海》《現代漢語詞典》都收錄了此字。但在Unicode中它被放入CJK符號和標點區(U+3007),被等同於數字0,在搜索“〇”的時候,會連帶搜索出數字0,使用上頗為不便(搜索漢字“一、二、三”,不會搜索出數字1、2、3)。此外,很多程序限定了漢字的範圍為Unicode各漢字區,區外不視為漢字,由於“〇”不在漢字區中,導致這些程序無法處理“〇”這個漢字,造成不便。
[4]
中日韓越統一表意文字姓名間隔符“·”
按照國家標準的要求,使用U+00B7,對應GB18030編碼為A1A4。
[5]
- 參考資料
-
- 1. 推行東亞共同語!CJKV“中日韓越統一表意文字”。亞洲聯盟第一步! .天涯論壇 .2012-02-23[引用日期2017-04-17]
- 2. 中日韓統一表意文字 .字客網
- 3. Unicode 13.0 Character Code Charts .unicode[引用日期2021-03-18]
- 4. 「〇」是漢字嗎? .知乎.2015-07-02[引用日期2021-03-18]
- 5. 關於在政府管理和社會公共服務信息系統中統一姓名採集應用規範的通知 .國務院.2016-05-09[引用日期2021-03-22]
- 6. Unicode 15.0 Versioned Charts Index .www.unicode.org[引用日期2023-08-15]
- 7. Unicode 15.1 Versioned Charts Index .www.unicode.org.2023-09-12[引用日期2024-01-04]