ISO-IR-165通訊用中文多位元組字符集》(Codes of the Chinese graphic character set for communication)是中國大陸於1992年為國際電信聯盟電信標準化部門(CCITT[1] 創製之中文多位元組通訊字符集。該編碼在ISO 2022下註冊的名稱為 ISO-IR-165,可以使用 ISO-2022-CN-EXT 進行編碼。

ISO-IR-165 整合 GB 2312(包括 GB/T 6345.1-86《信息交換用漢字 32x32 點陣字模集》新增之字符及調整[2])以及 GB/T 8565.2-88《信息處理文本通信用編碼字符集 第二部分:圖形字符集》。該標準合共 8446 個字符。

GB/T 6345.1的修訂和補充

GB/T 6345.1-1986《信息交換用漢字 32x32 點陣字模集》(後續改成GB/T 6345.1-2010)包括了對 GB/T 2312 的修正和補充。[2]相關的修訂最早是由GB 5007.1–85《信息交換用漢字 24x24 點陣字模集》所加入。

GB/T 6345.1 對現有 GB/T 2312 的修訂[2]
區位碼 EUC碼 GB/T 2312(未修訂) GB/T 6341.1 備註
03-71 0xA3E7   ɡ [a]
79-81 0xEFF1 [b]
  1. ^ 對應 Unicode U+FF47 ;但是 GB/T 6341.1 的字形也可以對應至U+0261 ɡ
  2. ^ 原字對應繁體中文的U+937E ,修改後成為簡體的U+953A 。《漢字簡化方案》內原先將「鍾」合併進「钟」(「鐘」的簡化字),後續1986年的《簡化字總表》允許在人名中使用「锺」,而相似的標準(如 GB/T 5007.1–85)也將該字修改成使用簡體「钅」旁的「锺」。

後續實踐 GB/T 2312 的編碼(如Windows 的代碼頁936)將 79-81 對應的漢字 Unicode 碼從「鍾」改為「锺」。[3]

GB/T 6345.1-86 也在 GB/T 2312 的基礎上在第 10 區補充了ISO 646-CN 的半寬字符(3 區的字符為全寬字符)和第 8 區補充了 6 個漢語拼音字符。[2]這些補充也在 GB/T 12345 內出現,而 GB/T 12345 也額外在第 6 區加上了 29 個豎排標點符號。[2][4]

2011年發佈的 GB/T 6345.1-2010 正式在第 11 區增加了對應 8 區 32 個漢語拼音字符(包括新補充的6個字符)的半寬版本。[5]這個補充並未在 GB 18030 內實行。[6]

Classic Mac OS 內的簡體中文編碼(基於EUC-CN修改)[7]GB 18030 包含了 GB/T 6345.1 補充的 6 個漢語拼音字符(但是不包括半寬版本)和 GB/T 12345 補充的豎排標點符號。[6] 新增的 6 個漢語拼音字符如下:[7]

GB/T 2312 第 8 區的擴充
區位碼 EUC碼 字符[7][6] 備註
08-27 0xA8BB U+0251 ɑ
08-28 0xA8BC U+1E3F ḿ [a]
08-29 0xA8BD U+0144 ń
08-30 0xA8BE U+0148 ň
08-31 0xA8BF U+01F9 ǹ [b]
08-32 0xA8C0 U+0261   [c]
  1. ^ Windows CP936[8] 和 GB 18030-2000 映射至私用區 U+E7C7,GB 18030-2005 修改成 U+1E3F[6]
  2. ^ 此字符是在 Unicode 3.0 新增的,在這之前該字符一般映射至 U+006E, U+0300[7] Windows CP936 映射至私用區 U+E7C8[8]
  3. ^ 與未修訂 GB/T 2312 的 03-71 一樣(見上表)。ISO-IR-165 的 Unicode 映射有差異。

GB/T 8565.2 的修訂和補充

GB/T 8565.2-1988《信息處理文本通信用編碼字符集第二部分:圖形字符集》也定義了 GB/T 2312 的補充字符,在 13-15 區和 90-94 區之間新增了 705 個字符,其中 15 區新增的 69 個字符是非漢字。該修訂包括了 GB/T 6345.1 的修訂,但是沒有包括補充字符。[2]

Unihan 資料庫中引用中國大陸來源 GB/T 8565 的漢字使用 G8 來標示。[1]

CCITT 修訂

ISO-IR-165 包括了 GB/T 6345.1 和 GB/T 8565.2 在 GB/T 2312 的新增補充字符。另外,ISO-IR-165 也新增了 161 個字符,其中 139 個漢字是「普通漢字和異體」。[2][9]有時這些 CCITT 的新增字會和 GB/T 8565.2 混淆,包括以前的 Unihan 資料庫。[1]

CCITT 在第 6 區新增了對應第 3 區的像字符[9],這些字符和 Mac OS 簡體中文[7] 和 GB 18030[6] 的新增字符相撞。

ISO-IR-165 包含了 GB/T 6345.1 的訂正,但是其中有兩個字符的 Unicode 映射與 GB/T 2312 和 GB/T 6345.1 擴展的映射不同。下表顯示各標準的映射和對應字形,也另附 GB 18030 的對應編碼:

區位碼 EUC碼 GB/T 2312(未修訂) GB/T 6345.1[5] GB/T 6345.1 映射[7] ISO-IR-165[9] ISO-IR-165映射[10] GB 18030[6] GB 18030 映射[6]
03-71 0xA3E7   ɡ U+FF47 ɡ U+0261   U+FF47
08-32 0xA8C0 (無)   U+0261   U+FF47 ɡ U+0261
79-81 0xEFF1 U+953A U+953A U+953A

來源

  1. ^ 1.0 1.1 1.2 Chung, Jaemin. Pseudo-G8 characters (PDF). 2018-01-24 [2022-05-05]. ISO/IEC JTC 1/SC 2/WG 2/IRG N2276. (原始內容 (PDF)存檔於2022-03-19). 
  2. ^ 2.0 2.1 2.2 2.3 2.4 2.5 2.6 Lunde, Ken Roger. CJKV Information Processing 第二版. O'Reilly. 2008年12月 [2022-05-06]. ISBN 978-0-596-51447-1. (原始內容存檔於2011-08-29). 
  3. ^ Steele, Shawn. cp936 to Unicode table. Microsoft, Unicode Consortium. 2000 [2022-05-05]. (原始內容存檔於2022-03-18). 
  4. ^ Lunde, Ken. Appendix F: GB/T 12345 (PDF). CJKV Information Processing (O'Reilly). 1998 [2022-05-05]. ISBN 9781565922242. (原始內容 (PDF)存檔於2019-02-02). 
  5. ^ 5.0 5.1 中華人民共和國國家標準化管理委員會. GB/T 6345.1-2010 信息技术 汉字编码字符集(基本集) 32点阵字型 第1部分宋体. 中國. 2011-01-10 (中文(中國大陸)). 
  6. ^ 6.0 6.1 6.2 6.3 6.4 6.5 6.6 Standardization Administration of China (SAC). GB 18030-2005: Information Technology—Chinese coded character set. 2005-11-18. 
  7. ^ 7.0 7.1 7.2 7.3 7.4 7.5 Mac OS 简体中文版本对 Unicode 3.0 后的映射. Apple, Inc. [2022-05-05]. (原始內容存檔於2021-02-05). 
  8. ^ 8.0 8.1 Microsoft. CODEPAGE 936: PRC GBK (XGB) - ANSI, OEM. Unicode Consortium. [2022-05-05]. (原始內容存檔於2021-01-19). 
  9. ^ 9.0 9.1 9.2 CCITT. Codes of the Chinese graphic character set for communication (PDF). ITSCJ/IPSJ. 1992-07-13 [2022-05-06]. (原始內容 (PDF)存檔於2022-03-10). 
  10. ^ Viswanadha, Raghuram. Unicode to ISO-IR-165 table. International Components for Unicod-e. IBM. 2000-08-30.  (備註:編號根據來源使用 7 位元或 ISO 2022:加上 0×80 生成EUC碼,或減去 0×20 生成區位碼

外部連結