中文标准交换码
中文标准交换码(Chinese Standard Interchange Code,简称CSIC),是中华民国国家标准11643号,简称CNS 11643,旧名通用汉字标准交换码(Chinese Ideographic Standard Code for Information Interchange,简称CISCII),是中华民国政府为中文资讯处理制定的字元编码方案,与许多学术图书馆系统采用的中文资讯交换码同属于中文交换码。中文标准交换码基于ISO 2022定义,和ASCII相容,其EUC版本为EUC-TW。
别名 | 中文标准交换码 |
---|---|
语言 | 繁体中文 |
标准 | CNS 11643 |
分类 | ISO 2022、双位元组字元集、中日韩统一表意文字 |
编码格式 |
|
其他相关编码 | 大五码、中文资讯交换码 |
简介
1980年9月,行政院国家科学委员会集合编码专家、学者在溪头举行会议,建立国家中文资讯标准交换码的编码原则,并报请行政院核定。隔年,行政院函令国科会、教育部、中央标准局及主计处电子处理资料中心组成专案作业小组,推动编码工作。经多次会商,于1983年10月底完成“通用汉字标准交换码”的试用版,试行二年。试用期满后,国科会与主计处电资中心邀集相关单位与业者组成技术小组,检讨试用结果,并根据检讨结果修订编码原则予以重编。1986年8月4日由经济部中央标准局(后改名为标准检验局)正式公布,取名“通用汉字标准交换码”,其内容包括第一字面、第二字面共13,051字[1]。
1980年代万“码”奔腾,业界使用各种不同的字符编码,如大五码、王安码、IBM 5550码、公会码、电信码[2]、倚天码等;CNS11643与大五码字数相同(大五码有13,053字,但有两个重码)。借由此国家标准交换码的公布与使用,做为各种不同内码间的桥梁,使得不同的内码也可以互相沟通和交换,资料可共享。
为因应各界对扩大中文字元集的需求,中央标准局于1990年委托资讯工业策进会进行扩编。CNS 11643于1992年使用至第七字面,共48,027字,并更名为“中文标准交换码”。2003年,标准检验局委托中文数位化技术推广基金会再次扩编,于2004年推出新版的CNS11643,将编码空间由原先规定的十六字面增加到八十字面,并使用至第十五字面。2014年,使用第十七、十九字面。2021年,使用第二十四字面[3][4]。
“CNS11643中文交换码全字库”为1999年时,由主计处电资中心委托中文数位化技术推广基金会建置,用以解决中文码查询、转码与缺字问题。为配合2012年的行政院组织改造,全字库改由研考会办理,自2014年又由继承研考会业务的国家发展委员会管理。2022年8月27日数位发展部成立后,网站管理机构调整为数位部[5]。全字库目前已收纳10万8,800多个文字及符号。若扣除第八和第九字面中的非汉字字元以及第一字面中的符号、注音、部首、汉字构件等字元,以有仓颉码属性的字来计算,大约有9万6,600多个汉字[6][7]。
版本
年份 | 标准名称 | 更改 |
---|---|---|
1983 | CNS11643-1983 | 通用汉字标准交换码试用版推出,包括13,053字及441个符号,12月推出的大五码,字集与字序与交换码试用版完全相同,仅字码定义不同。 |
1986 | CNS11643-1986 | 通用汉字标准交换码正式版发行,包括13,051个字(删除2个重复字,调整20个字顺序)与441个符号,其馀均与试用版相同。 |
1988 | CNS11643-1986 | 增加第十四字面使用者加字区交换码,共增加6,148字。 |
1989 | CNS11643-1986 | 再增加第十四字面使用者加字区交换码,共增加157字。 |
1992 | CNS11643-1992 | 扩充第3至7字面,增加部首和数字符号,并更换名称为中文标准交换码,总共包括48,027个字与684个符号。 |
2002 | CNS14649 | 国际标准ISO 10646/Unicode的中文版“CNS 14649广用多八位元编码字元集”推出,包括中、日、韩、越等20,902个汉字,及全球使用的字元。 |
2004 | CNS11643-2004 | 编码架构扩充至八十字面。 |
2008 | CNS11643-2008 | 扩充版发行,增加了户政用字与异体字等。 |
编码格式
CNS 11643遵循ISO/IEC 2022所规定的七位元94个图形字元多位元组延伸编码格式[4],以2个位元组 (byte)为中文码编码单位,以十六进位制之文数字表示,并且避开控制码所在的范围。字面字集之排列,大抵以使用频率为次序,第一字面以常用字为主,第二字面以次常用字为主,第三字面以部分罕用字及较常用异体字为主,其后的字面大多以罕用字、异体字、教育部闽客语用字及户政、役政、地政等机关用字为主。在每一字面中,依先笔画后部首排列顺序来编订字码(每一字面均以文字笔画总数为第一次序,笔划数同则按照部首为次序,部首同再按照笔顺为次序)[8]。
CNS 11643采用多字面编码结构,并借助ISO/IEC 2022所规定的逸出顺序(escape sequence)和调用控制符切换字面。因此,同样的正规字元码在CNS 11643的不同字面会代表不同的汉字(例如:第1字面字元码454A为中文字“日”,而第2字面的454A是中文字“碇”)。CNS 11643在新版中规定了延伸字元码,作为任一字元的唯一字元码。中文标准交换码延伸字元码是在正规字元码前,附加该字元所属字面的字面指示码[4]。
终结字元
目前 CNS11643 的1~7 字面之终结字元(最后字元、最终位元组) [F] 已获国际标准组织 ISO 正式登记为 47 至 4D ,亦可使用于字集之指定[8][9]。依据ISO 237之规定,各国的国家标准若要成为国际间之中文资讯交换标准,必须向国际标准组织申请注册,并由国际标准组织正式公布,如此全球各国即可依国际标准公布之终结字元进行资料交换。
CNS 11643-1992所包括的七个字面,每个字面均分别向ISO秘书处欧洲计算机制造商协会申请相对应之终结字元。经由资讯工业策进会之协助申请,1993年2月1日CNS 11643第一、第二字面正式获得终结字元:47和48,1994年3月25日CNS 11643第三至第七字面也正式获得终结字元:49 - 4D。
CNS字面 | CNS暂用终结字元 | ISO正式终结字元 |
---|---|---|
第一字面 | 30 | 47 |
第二字面 | 31 | 48 |
第三字面 | 32 | 49 |
第四字面 | 33 | 4A |
第五字面 | 34 | 4B |
第六字面 | 35 | 4C |
第七字面 | 36 | 4D |
最新版本
2021年版CNS 11643字面配置如下:
- 第一字面:字码区间2121h至4243h为符号区(2009年在4242h新增欧元符号€,4243h新增国字〇);字码区间4421h至7D4Bh,共编入中文字5,401个;字集来源除教育部“常用国字标准字体表”所列4,808字外,并优先收编国中、国小教科书中常用字587字及异体字6字。另外在2009年,在字码4244h至4254h,增补闽南语用拉丁符号17个[10]。
- 第二字面:字码区间由2121h至7244h,故编入中文字7,650个;字集来源除教育部“次常用国字标准字体表”所列6,330字外,并筛选编入教育部“罕用国字标准字体表”表中使用频率较高之1,320字。
- 第三字面:字码区间2121h至6246h,共编入中文字6,148个;字集来源为1988年6月行政院主计处电子处理资料中心暂编之使用者加字区第14字面前段;字码区间6448h至672Ah为247个美国与香港提报字[11]。
- 第四字面:字码区间2121h至6E5Ch,共编入中文字7,298个;字集来源除1988年6月行政院主计处电子处理资料中心暂编之使用者加字区第14字面后段171字外,并加入户役政及其他使用单位、ISO/IEC 10646-2:2001汉字集、资讯业次常用字7,127字。
- 第五字面:字码区间2121h至7C51h,目前编入中文字8,603个字;字集来源为未编入前4个字面之教育部罕用字。
- 第六字面:字码区间2121h至647Ah,共编入中文字6,388个;字集来源为未编入前5个字面,且笔画在14画或以下之教育部异体字。
- 第七字面:字码区间2121h至6655h,共编入中文字6,539个;字集来源为未编入前6个字面,且笔画在15画或以上之教育部异体字。
- 第八字面:编入ISO/IEC 10646:2003 基本多文种平面中,未收录到原CNS 11643版本中的非汉字。
- 第九字面:字码区间2121h至3557h,编入ISO/IEC 10646:2003 基本多文种平面中,未收录到原CNS 11643版本中的非汉字;字码区间7455h至7E7Eh,编入户政字。
- 第十字面:编入ISO/IEC 10646:2003未收录到原CNS 11643版本中的CJK Extension B汉字。
- 第十一字面:编入未收录到原CNS 11643版本中的CJK Extension B, C, D汉字与地政字、教育部闽南语及客家语母语用字。
- 第十二字面:为户政字,字码区间6249h至627Eh,编入未收录到原CNS 11643版本中的CJK Extension C汉字。
- 第十三字面:为户政字。
- 第十四字面:为户政字,字码区间4B6Dh至6D79h,编入未收录到原CNS 11643版本中的CJK基本区、CJK Extension A、CJK Extension C和CJK基本区急用汉字。
- 第十五字面:字码区间2121h至6D39h,共编入中文字6,831个户政、役政用字;字码区间6D3Ah至7E3Ch,编入未收录到原CNS 11643版本中的CJK Extension C汉字。
- 第十六字面:私人造字区。
- 第十七字面:2014年起开始使用,属于内政部户政、地政等字。
- 第十九字面:2014年起开始使用,属于教育部异体字。
- 第二十四字面:2021年起开始使用,2121h为医药用字;2122h至2123h为元素、化学、符号用字。[12]
- 第18、20至23、25至80字面保留供未来使用。
与大五码关系
大五码为资讯工业策进会与台湾十三家资讯业者签约,共同为“五大软体专案”所设计的中文字符编码。该字符编码于1983年12月推出,共收录13,053个汉字(有两字重复编码,故实际上只有13,051个字)、408个符号、33个控制字元[13],其字元的范围与顺序都和1983年10月推出的“通用汉字标准交换码”试用版相同,但码位不同。“通用汉字标准交换码”在1986年推出正式版,删除试用版的2个重复编码字,调整了20个字的顺序。
大五码后来成为繁体中文社群最常用的电脑汉字字集标准,然而所涵盖的字数不敷实际需求,造成厂商各自增删,衍生成多种不同版本。2003年中文数位化技术推广基金会接受经济部标准检验局委托,召集国内业者代表、专家和学者,就大五码字元表的原始版本和业界主要版本予以重整,称为Big5-2003[14]。重整后的版本,去除了重复编码,并新增7个中文字,以及370个符号,包括30个数字符号、24个部首、14个罕用符号、268个日本假名,以及34个表格符号[13]。其成果最后收录至CNS 11643的附录之中[15]。
比较
中央标准局所公布的《通用汉字标准交换码》(后更名为《中文标准交换码》,CNS11643)与1984年发布的业界事实标准五大码 (Big5) 有些许共同之处:两者都使用国字标准字体表为基础,但是《中文标准交换码》所定义的码位更符合国字标准字体表所选定的字形。国字标准字体表本身并未定义字形的码位,而是依赖于其他标准将字形赋予码位。
其中,五大码与现在的《中文标准交换码》有部分收字差异:
国字 | 字表序号[17] | CNS11643 | Big5收录异体 | 备注 |
---|---|---|---|---|
U+5F5E彝 | A01266 | 1-7641 | C255,U+5F5D彝 | |
U+53C4叁 | B00287 | 3-3455 | 五大码未收录 | |
U+564D噍 | B00439 | 3-4B43 | 五大码未收录 | |
U+36B7㚷 | B00635 | 3-2847 | 五大码未收录 | |
U+5B0E嬎 | B00715 | 3-4B5F | E955,U+5B14嬔 | CNS11643 第二字面 2-565F 疑似误收 U+5B14嬔 字,但是显示为无点的 U+5B0E嬎 |
U+5C14尔 | B00760 | 3-223F | 五大码未收录 | |
U+3BA3㮣 | B01783 | 3-4167 | 五大码未收录 | |
U+7934礴 | B03027 | 2-662B | F2A1,U+7921礡 | 疑似 Unicode 统合时错误对应到统合汉字 U+7921礡 上 |
U+7DF5緵 | B03452 | 3-4E2B | EDDB,U+7E4C繌 | CNS11643 第二字面 2-5E48 疑似误收 U+7E4C繌 字 |
U+9638阸 | B05531 | 4-2833 | 五大码未收录 | |
U+9C0C䲡 | B05989 | 3-5D76 | 五大码未收录 |
参看
资料来源
- ^ 余保伦. 與文字共舞-中文數位化發展簡介 (PDF). 中华民国统计资讯网. [2022-12-16]. (原始内容存档 (PDF)于2022-12-16).
- ^ 陈冠州. 電信碼. 国家教育研究院乐词网. 1995-12 [2024-04-29]. (原始内容存档于2024-04-29).
- ^ 存档副本. [2015-03-28]. (原始内容存档于2015-04-02).
- ^ 4.0 4.1 4.2 曾士熊. 認識中文字元碼:十、中文標準交換碼(CNS 11643). [2022-12-16]. (原始内容存档于2022-05-28).
- ^ 全字库中文标准交换码. 全字庫介紹. [2022-12-16]. (原始内容存档于2022-12-16).
- ^ 全字庫現況. [2022-12-16]. (原始内容存档于2023-01-27).
- ^ 全字庫中文標準交換碼 - 中文碼現況. [2022-12-17]. (原始内容存档于2022-12-17).
现有字数:现行全字库中,户政与地政部分用字经检查为认同字,因而删除该码位资料,但仍保留该码位的位置,现有字数即去除这些被认同掉的字码,所计算得到的总字数……全字库第八字面和第九字面所储存的是拼音文字,所以没有注音、仓颉等属性资料码位个数
- ^ 8.0 8.1 認識全字庫>中文碼介紹. [2022-12-17]. (原始内容存档于2021-05-14).
- ^ 附錄1﹕中文字碼處理說明 (PDF). [2022-12-17]. (原始内容存档 (PDF)于2022-12-17).
- ^ 存档副本. [2021-12-12]. (原始内容存档于2022-07-14).
- ^ 存档副本. [2021-12-12]. (原始内容存档于2022-07-14).
- ^ 存档副本. [2021-12-12]. (原始内容存档于2022-07-10).
- ^ 13.0 13.1 曾士熊. 認識中文字元碼: 九、Big5和Big5E. [2022-12-17]. (原始内容存档于2022-05-28).
- ^ 認識全字庫>中文碼介紹. [2022-12-17]. (原始内容存档于2021-05-14).
- ^ 谢东翰. 預覽「Big5 2003」. [2022-12-17]. (原始内容存档于2022-12-17).
- ^ 次常用國字標準字體表 - 字嗨!. zi-hi.com. [2023-04-25]. (原始内容存档于2021-05-14).
- ^ 国家教育研究院. 教育部异体字字典. [2021-05-14]. (原始内容存档于2021-05-15) (中文(台湾)).