中华人民共和国国家标准汉字编码字符集列表
列表
本列表列举与信息交换用汉字编码字符集相关的中华人民共和国国家标准。
常见国家标准代码列表
- GB 2312—80《信息交换用汉字编码字符集 基本集》(又称 GB 或 GB0)
- GB 13000—2010《信息技术 通用多八位编码字符集(UCS)》(相当于 ISO/IEC 10646:2003 中文版)
- 已作废之旧版:GB 13000.1—93《信息技术 通用多八位编码字符集(UCS)第一部分:体系结构与基本多文种平面》(相当于 ISO 10646-1:1993 中文版)
- GB 18030—2022《信息技术 中文编码字符集》,依照UCS定义。GB 18030可以表示代理对(surrogate pair)之外的所有Unicode码位,因此可算为一种“统一码变换格式”Unicode Transformation Format)。
- 已作废之旧版:GB 18030—2000《信息技术 信息交换用汉字编码字符集 基本集的扩充》和GB 18030—2005
其他中华人民共和国发布有关汉字标准代码列表:
- GB 12345—90《信息交换用汉字编码字符集 辅助集》(又称 GB1)
- GB/T 7589—87《信息交换用汉字编码字符集 第二辅助集》(又称 GB2)
- GB 13131—91《信息交换用汉字编码字符集 第三辅助集》(又称 GB3)
- GB/T 7590—87《信息交换用汉字编码字符集 第四辅助集》(又称 GB4)
- GB 13132—91《信息交换用汉字编码字符集 第五辅助集》(又称 GB5)
- GB/T 16500—1998《信息交换用汉字编码字符集 第七辅助集》
- SJ/T 11239—2001《信息技术 信息交换用汉字编码字符集 第八辅助集》
- GB 8565.2—88《信息处理文本通信用编码字符集 第二部分:图形字符集》
由于 GB 2312—80 只收录了6,763个汉字,未能覆盖繁体中文字、部分人名、方言、古汉语等方面出现的罕用字,所以发布了以上的辅助集。
其中,GB 12345—90辅助集是GB 2312—80基本集的繁体字版本;GB 13131—91是GB/T 7589—87的繁体字版本;GB 13132—91是GB/T 7590—87的繁体字版本。而GB/T 16500—1998是繁体字版本,并无对应的简体字版本。
第二辅助集及第四辅助集没有收入通用字符集ISO/IEC 10646 标准[1]。
中华人民共和国国家标准总局于2000年推出强制性的GB 18030—2000标准。于2001年8月31日后发布或出厂的产品,必须符合GB 18030—2000的相关要求。这个标准的最新版本是GB 18030—2005,它的单字节编码部分、双字节编码部分和四字节编码部分的CJK统一汉字扩充A(0x8139EE39—0x82358738)部分为强制性。
相关标准列表(按首次出版时间排列)
标准号 | 名称 | 别名 | ISO 10646 字源代号[2] | 汉字数 | 备注 |
---|---|---|---|---|---|
GB 2312—80 | 信息交换用汉字编码字符集 基本集 | GB | G0 | 6,763 | GB 6345.1—86 等字模集有附录对 GB 2312—80 之修订,但 GB 2312 本身一直未有更新,详见 GB 2312 条目。 |
GB/T 7589—87 | 信息交换用汉字编码字符集 第二辅助集 | GB2 | 7,237 | 向 ISO 10646 提交时使用繁体字版本。 | |
GB/T 7590—87 | 信息交换用汉字编码字符集 第四辅助集 | GB4 | 7,039 | 向 ISO 10646 提交时使用繁体字版本。 | |
现代汉语通用字表 | G7 | 7,000 | |||
GB 8565.2—88 | 信息处理文本通信用编码字符集 第二部分:图形字符集 | G8 | 636 | 主要用于电讯;GB2汉字520个、GB4汉字92个、来自《第一批异体字整理表》之异体字23个及“啰”字。此字符集补充了 GB 2312,使之能包括整个《现代汉语通用字表》。 | |
GB 12052—89 | 信息交换用朝鲜文字编码字符集 | GK | |||
GB 12345—90 | 信息交换用汉字编码字符集 第一辅助集 | GB1 | G1 | 6,866 | GB 2312 繁体版,增补103字。 |
GB 13131—91 | 信息交换用汉字编码字符集 第三辅助集 | GB3 | G3 | 7,237 | GB/T 7589 繁体版(ISO 文件称为“非简化形式(unsimplified form)”) |
GB 13132—91 | 信息交换用汉字编码字符集 第五辅助集 | GB5 | G5 | 7,039 | GB/T 7590 繁体版(ISO 文件称为“非简化形式(unsimplified form)”) |
ISO-IR-165 | 通讯用中文多字节字符集 | 8,464[3] | 集合 GB 2312—80(包括 GB 6345.1—86 新增之字符及调整)及 GB 8565.2—88。 | ||
GB 13000—2010 | 信息技术 通用多八位编码字符集(UCS)第一部分 | 70,207 | 替代 GB 13000.1—93《信息技术 通用多八位编码字符集(UCS)第一部分》,20,914字,旧版已作废。 另有302个兼容汉字(当中十二个:U+FA0E, U+FA0F, U+FA11, U+FA13, U+FA14, U+FA1F, U+FA21, U+FA23, U+FA24, U+FA27, U+FA28 及 U+FA29 有独立形音义,统一码联盟建议不要视之为兼容汉字)。旧版已作废。 | ||
GBK | 汉字扩展内码规范[4] | 21,003 | 除了来自 ISO 10646-1 / GB 13000.1 之20,902字,另有 ISO 10646-1 / GB 13000.1 中21个兼容汉字(包括上述12个有独立形音义兼容字),以方便和 Big5、CNS11643、JIS 及 IBM 文件双向转换[4]、未收入 ISO 10646 的《简化字总表》汉字52个、《康熙字典》及《辞海》汉字部件28个;后80字暂时对应 Unicode 编码之私人使用区(造字),新版 Unicode 已全部收纳。Microsoft Code Page 936 收入21个兼容汉字[5][6],未收后80字。 | ||
GB/T 15564—1995 | 图文电视广播用汉字编码字符集 香港子集 | GH | 111 | 所有字皆来自 GB 13000.1。 | |
GB/T 16500—1998 | 信息交换用汉字编码字符集 第七辅助集 | GE | 3,778 | 其他 GB 未收录之 GB 13000.1 汉字。 | |
GB 18030—2000 | 信息技术 中文编码字符集 | G9 | 27,533 | CJK、CJK 扩展A区、21 个兼容区汉字、当年 ISO/IEC 10646-1:2000 / Unicode 3.0 仍未编码的 28 个收录在 FE 私有造字区段的汉字和汉字部件。
定义了除代理对之外所有Unicode基本平面字符的四字节表示方式。 | |
SJ/T 11239—2001 | 信息技术 信息交换用汉字编码字符集 第八辅助集 | 2,501 | 收录GB 2312、GB 7589和GB 7590未收入的汉字,主要用于地名。 | ||
GB 18030—2005 | 信息技术 中文编码字符集 | 70,244 | CJK、CJK 扩展A区、CJK 扩展B区、21 个兼容区汉字、28 个收录在 FE 区段的汉字和汉字部件。替代 GB 18030—2000。
定义了除代理对之外所有Unicode字符的四字节表示方式。 | ||
GB 18030—2022 | 信息技术 中文编码字符集 | 87,887 | 替代 GB 18030—2005。 |
参看
注释
- ^ ISO 10646 收录的是其非简化形式(unsimplified forms),见中日韩统一表意文字#字源
- ^ 存档副本 (PDF). [2018-03-23]. (原始内容存档 (PDF)于2018-03-23).
- ^ 一说8,443(Ken Lunde, CJKV Information Processing, 1999, O'Reilly & Associates, Inc., P.82)
- ^ 4.0 4.1 简体中文版 Windows 95 “GBK 内码输入法”帮助文件,1995年
- ^ http://www.microsoft.com/globaldev/reference/dbcs/936/936_FD.mspx[永久失效链接]
- ^ 存档副本. [2010-01-04]. (原始内容存档于2008-03-07).