帮助:中文维基百科的繁简、地区词处理

字词转换
主页 讨论
转换请求
错误修复请求
地区词候选
转换介绍
字词转换处理 讨论
  繁简处理 讨论
  地区词处理 讨论
  公共转换组 讨论
帮助文档
繁简与地区词处理 讨论
  转换原理 讨论
  手工转换 讨论
  高级语法 讨论
  用字模式选择说明
相关模板
NoteTA 全文字词转换
CGroup 公共转换组列表
Lan 界面文字转换
地区用词 地区词模板
地区用词2 进阶地区词模板
各地中文名 地区用词资讯框
查看 - 讨论 - 编辑 - 变动

中文维基百科繁简、地区词处理中文维基百科的自动转换,目的是以电脑程序适应不同用字模式的差异。

中文维基百科的读者和编者来自世界各地。他们所需求或贡献的中文在字词性质上有许许多多的差异,像是简化字繁体字的差异、各地区用词的差异等等。MediaWiki将这些中文性质集合在一起,称为“用字模式”。可以说:一种用字模式就是某些中文性质的一个集合。为了集成读者和编者多元的资源,也为了促进各方的交流,本百科并不规范读者或编者要使用何种用字模式,而是尝试以计算机程序的自动转换来适应这些差异,让编者可以以自己的用字习惯提供资料,也让读者可以选择所要的资料的用字遣词。因此编辑和阅读中文维基百科时有特别的事项需要注意。事实上,就连本页尝试说明的事项,也有许多模糊之处。

用字模式自动转换与MediaWiki系统本身的原理有关。大部分编者录入系统的文章内容,包括文字和维基语法等等,在此称为源代码。维基系统通常会保留完整不变的源代码,不作自动转换。读者使用维基系统时,并非直接阅读源代码,而是由系统将源代码即时自动转换成合适的形式,例如加上图片、超链接等等。而中文维基百科的用字模式转换就是众多自动转换程序中的一道。自动转换不只惠及百科的条目文章,也遍及页面分类等等页面。

维基程序根据转换表、公共转换组、手工转换规则,自动转换字词,包括手工指定不作转换。转换表是适用于中文维基百科全站,列出不同用字模式之间,字与字或是词与词之间的对应关系的表格;目前只有管理员能编辑转换表。公共转换组适用于其所嵌入的各页面。手工转换规则单独用于其所在的页面(或其后部分),是维基系统在读者点阅时即时作出的自动转换,若与上层转换所设的字词重合则为优先。编者在编辑时可以“预览”切换至其他用字模式查看转换成效。

用字模式选择

目前中文百科系统支持中文的zh(不转换的用字)、zh-hant(正体/繁体用字)、zh-tw(台湾用字)、zh-hk(香港用字)、zh-mo(澳门用字),以及zh-hans(简体用字)、zh-cn(中国大陆用字)、zh-sg(新加坡用字)、zh-my(马来西亚用字)九种用字模式。不过,目前中文维基百科只对外开放zh-tw(台湾用字)、zh-hk(香港用字)、zh-mo(澳门用字)、zh-sg(新加坡用字)、zh-my(马来西亚用字)、zh-cn(中国大陆用字)等六种模式。zh(不转换的用字)、zh-hant(繁体用字)、zh-hans(简体用字)三种模式主要用于维护,一般需登录后在参数设置/⧼gadgets⧽/界面显示工具中去除隐藏“不转换”、“简体”和“繁体”三个标签的复选框才能显示。zh-my(马来西亚用字)原被zh-sg(新加坡用字)所涵盖,于2018年正式拆分激活;zh-mo(澳门用字)原有zh-hk(香港用字)涵盖,于2013年正式拆分激活。欲要支持更多的用字模式需要修改程序,如有实际需要请在讨论页中提出。

文章主体用字模式选择(按优先级):

  • 所有人都可以把URL//zh.wikipedia.org/wiki/条目名称)的wiki改成zh-<变体>,而//zh.wikipedia.org/w/index.php开头的页面可在URL最后加上&variant=zh-xx(URL有?时用)或?variant=zh-xx(URL没有?时用)。其中xx可为hanshantcntwhkmosgmy
  • 已登录用户可在个人偏好选择不同的用字模式;
  • 匿名用户可选择浏览器语言,系统会根据选择设置,详见此处
  • 如果以上设置都没有,则默认不转换。

另外,不同皮肤(Skin)都有各个用字模式的链接。如现在的Vector面板,链接是在页面讨论页链接(或 )右侧,使用下拉菜单选择。以前的MonoBook面板链接则是在文章右上方。

界面用字模式

界面用字模式是独立于文章内容的用字模式。除了中文各种用字模式,还可以选择英文、法文等等语言。界面用字模式在已登录用户的个人偏好里设置。

转换技术

技术上,维基百科的字词转换有四层:其一是MediaWiki内建的转换表,供各维基计划全局转换;其二是MediaWiki:Conversiontable定义的繁简和地区词转换表,供中文维基百科本地全局转换;其三是各公共转换组,供主题相同和相似的条目统一转换;其四是各条目内设的手工转换,供该条目单独使用。其中,可由具有相应页面编辑权限者编修,若无此等权限,可在相应页面的讨论页请代为编辑;而修改本地转换表则需管理员权限,修改全局转换表须向MediaWiki版本库提交代码。如欲新增或修复全局及本地全局转换,一般用户需在维基百科:字词转换申请,交由管理员协助处理。

转换表

目前,系统默认的自动转换是根据数个“转换表”。转换表就是一份表格,记载各种不同用字模式之间,字与字或是词与词之间的对应关系。目前只有管理员能编辑转换表,普通用户可在Wikipedia:字词转换/地区词候选Wikipedia:字词转换/修复请求提出修改转换表的建议。

全局内建转换表

适用全局的内建转换表MediaWiki程序中。

参见:Wikipedia:简繁一多对应校验表Wikipedia:繁简一多对应校验表

本地全局转换表

数页Mediawiki:Conversiontable本地全局转换表,用来修正MediaWiki内建转换表的错误。这些页面描述转换关系须依以下格式:

 皇后 => 皇后;
 波斯尼亚 => 波士尼亞;
 萨拉热窝 => 塞拉耶佛  // Sarajevo 的翻译;
 ...
 

为方便显示,每条对应前可加星号(*)或井号(#),可用“//”加写注释,注意每条转换关系要以“;”终止。

Conversiontable/zh-cn页面用于向zh-cn的转换,Conversiontable/zh-tw页面用于向zh-tw的转换,等等。

这些页面更新后,效果并不一定会即时显现,因为有些页面可能放在页面缓存里。要看即时效果可以用编辑预览功能。

-{}-标记

例如:

“张国荣曾在英国利兹大学学习。”

所用的-{}-标记是:

[[利兹大学|-{zh:利兹;zh-hans:利兹;zh-hk:列斯;zh-tw:里茲}-大学]]

参见本页“§ 防止自动转换一段文字的标签”。

-{}-标记现可完整转换链接、模板、图像。转换HTML属性请使用{{lan}}。

源代码一般不转换

大部分编者录入系统的文章内容,包括文字和维基语法等等,在此称为源代码。维基系统通常会保留完整不变的源代码,不会自动转换源代码。

断词问题——自动转换程序常见的问题

注意:中文维基百科不保证用字模式自动转换程序和内容的准确度。用字模式自动转换并不一定正确,甚至可以说是各种自动转换中问题最多的。

转换程序用最简单的“最大匹配法”来转换,会导致以下错误:假设转换表有一对应关系为:

内存 => 記憶體

现转换以下句子:

人体内存在很多微生物

基于“最大匹配法”,系统会转换“内存”,得到“記憶體”。整个句子将会被错误地转换成:

人體記憶體在很多微生物

解决这个问题的根本方法是用智慧的断词匹配,将上述句子先拆分为:

人体 内 存在 很多 微生物

然后再单独转换每个词。

在有这种智慧的断词系统成熟并部署至MediaWiki前,有两种方法修正上述错误:

  1. 亲手将涉及断词错误的词分开:人体内-{}-存在很多微生物
  2. 将涉及断词错误的多个词作为整体加到定制转换表里,如“体内存在 => 體內存在”。(注:目前只有管理员能编辑转换表,一般人可以向管理员提出申请。)

以上就是断词的错误及解决方法。阅读本百科时请多加注意。遇到可疑的部分,可以前往编辑页面去查源代码,或是多多留意不同用字模式之间的转换关系,以养成自行“反转换”的能力。

控制自动转换的代码

出于特殊的需要,可以用以下的语法设置不自动转换,或是“手工转换”

设置了所谓“手工转换”,其实维基系统仍然会在阅读者使用时根据系统默认转换表作自动转换,但是这时系统还会根据编者在源代码中指定(增添)的方式作转换,并且将编者的方式优先排在转换表所列出的方式之前。也就是由编者自行增添转换方式。[翻译腔]

常用的转换工具语法

  • 防止自动转换一段文字的标签
    -{文字}-
    
    效果:文字
    对于-{}-中的文字为转换规则(如“zh:中文”),但又希望保持原样,可以用:
    -{R|文字}-
    
    效果:文字
  • 防止自动转换一段文字整体的标签
    -{}-
    但分隔在-{}-两侧的文字仍会转换。简单来说是切断文字,分别转换。
    可用于希望保留特定地区用词但需转换简繁的场合,通过打断词语使上层转换规则不能识别希望保留的地区词。
    效果:
    繁体:舊-{}-金山,香港稱-{三藩市}-。
    简体:旧-{}-金山,香港称-{三藩市}-。
  • 手工转换一段文字的标签(局部自行增添转换方式标签):
    -{zh:文字1;zh-hans:文字2;zh-hant:文字3;zh-cn:文字4;zh-tw:文字5;zh-hk:文字6;zh-sg:文字7;zh-mo:文字8;zh-my:文字9;}-
    
    效果:文字7
  • 全文手工转换标签(全面自行增添转换方式标签):
    -{A|zh:文字1;zh-hans:文字2;zh-hant:文字3;zh-cn:文字4;zh-tw:文字5;zh-hk:文字6;zh-sg:文字7;zh-mo:文字8;zh-my:文字9;}-
    
    效果:文字7
  • 隐藏式全文手工转换标签(全面自行增添转换方式标签):
    -{H|zh:文字1;zh-hans:文字2;zh-hant:文字3;zh-cn:文字4;zh-tw:文字5;zh-hk:文字6;zh-sg:文字7;zh-mo:文字8;zh-my:文字9;}-
    
    效果:文字7
  • 全文手工删除转换标签(从上层转换规则中删除指定规则,即在此页面下方不再以该规则转换):
    -{-|zh:文字1;zh-hans:文字2;zh-hant:文字3;zh-cn:文字4;zh-tw:文字5;zh-hk:文字6;zh-sg:文字7;zh-mo:文字8;zh-my:文字9;}-
    
    效果:文字1
  • 页面标题手工转换标签
    -{T|文字}-
    
    -{T|zh:文字1;zh-hans:文字2;zh-hant:文字3;zh-cn:文字4;zh-tw:文字5;zh-hk:文字6;zh-sg:文字7;zh-mo:文字8;zh-my:文字9;}-
    
  • 转换规则描述标签(将该规则用人易读的方式显示出来):
    -{D|zh:文字1;zh-hans:文字2;zh-hant:文字3;zh-cn:文字4;zh-tw:文字5;zh-hk:文字6;zh-sg:文字7;zh-mo:文字8;zh-my:文字9;}-
    
    效果:原文:文字1;简体:文字2;繁體:文字3;大陆:文字4;臺灣:文字5;香港:文字6;新加坡:文字7;澳門:文字8;大马:文字9;
  • 用字模式名称标签(将某种语言的代码转换成文字描述):
    -{N|zh-sg}-
    效果:新加坡
  • 仅转换指定语言
    -{zh-hans;zh-hant|文字}-
    
    效果:文字
    若为zh-hans;zh-hant则显示转换后的文字,否则单纯显示不转换的文字。有沿溯(fallback)的限制,MediaWiki 1.15新增功能。此功能可用于需要避免地区词转换,但允许繁简转换的场合。比如{{Infobox Film}}中的各地片名部分。
  • 全文停用自动转换
    __NOCC____NOCONTENTCONVERT__
  • 页面标题停用自动转换
    __NOTC____NOTITLECONVERT__

条目标题

部分文章标题不需要转换地区词,如《计算机世界报》之类的专有名词。在简繁同体的情况下,可在文中加入__NOTC____NOTITLECONVERT__(注意前后都是两道下划线),以阻止转换标题。然而,在中文维基百科,由于部分标题简繁不同体(如“计算机世界报”和“計算機世界報”),我们不推荐使用以上两个标签,而推荐使用下文中的“-{T|}-”转换。

注意:这标记应放在文章开头。

部分文章标题或许含有个别地区特有的字词,但不适合通过修改转换表或公共转换组来达成自动转换的目的,通常是因为一些常用字。如果贸然修改转换表或公共转换组,可能会造成更多地方出错。这种情况下可以有两种方法处理,我们推荐后一种:

  1. 在文章内使用标题转换来指明标题的正确显示:
    -{T|标题}-
    
    -{T|zh:原始標題用字; zh-hans:原始标题简体用字; zh-cn:大陆简体用字; zh-my:大马简体用字; zh-sg:新加坡简体用字;}-
    

实例:美国政治家John Kerry分别有“约翰·克里”、“約翰·凱利”等不同译名,但如果在转换表中互换“克里<=>凱利”,那么欧洲地名“克里米亚”、“克里姆林宫”将会变成“凱利米亚”、“凱利姆林宫”的错误情况,为了避免制造混乱,这情况比较适合在约翰·克里的条目中以手工转换标签修正标题与内文部分的相关译名。

注意:该标记仅仅是指明文章显示时对标题的转换,而不能自动处理链接时的转换。所以使用该标记时切记要通过重定向将各种用字模式的同一标题指向该文章。如约翰·凯利

全文停用自动转换

有时通篇文章都需要不转换。在这情况下,可在文中加__NOCC____NOCONTENTCONVERT__(注意前后都是两条底线)来防止转换内容。不过,在中文维基百科,为了便于各地读者阅读,我们不建议禁止除字词转换相关页面以外页面的全文自动转换。

注意:此标记要放在文章开头。

自动转换的能力范围

本百科很多页面都可自动转换,但是仍有很多例外。例如最近更新页面Special:Recentchanges这样的特殊页面,有一部分不转换。

参见Wikipedia:什么是条目

页面分类

目前自动转换计算机程序的能力范围不只是百科的条目文章,也包括页面分类等等页面。因此除非特别指定,否则条目标题或是子分类标题的分类是根据经过自动转换之后的结果来分类。然而在此的自动转换和别处不同,仅仅是简单的“繁简转换”,并没有进一步转换。[需要更新]


子分类也是一样。

软件问题

2006年1月开始出现一个问题,可能与新版本的MediaWiki有关。只要是分类名繁体对简体,条目或子分类就会从母分类消失,但是条目或子分类页经过任何编辑之后又会恢复,但系统下一次的链接更新时又会消失。

参看:页面分类

这一问题已在2009年2月修复。

内部链接、URL、重定向与搜索

虽然只有程序产生出来的页面经过转换而源代码一般不经转换,然而读者收到的页面上,在维基系统之内的“内部链接”(不是外部链接或普通的URL,参见Help:链接),并不是由源代码决定,是由程序影响。

用字自动转换电脑程序的能力范围不包括维基百科的URL与搜索功能。百科的系统不会转换URL中汉字(有时是Punycode的代号形式)或录入搜索功能的查询字符串。

本百科的条目名称搜索(“进入”)受到自动转换电脑程序影响。

本百科的条目全文搜索(“搜索”)不会受到自动转换电脑程序影响。

本百科之外的搜索引擎Google可能有自己的自动转换电脑程序。目前已知搜索时会作简单的繁简转换。当需要创建繁简重定向页的时候,创建新条目的方式往往无法奏效。

如何创建繁简/地区词重定向页

编辑一般文章时的注意事项

  • 若无正当理由,请勿将文中繁体转成简体,反之亦然,这种操作属于繁简破坏

请注意:若您的浏览器安装了同文堂等繁简转换软件或可以中文繁简转换的流动应用程序,请在编辑时将其关闭或移除。

  • 避免繁简混杂,避免以繁体书写简体地区特有字词/以简体书写繁体地区特有字词,页面标题及分类必须全简体或全繁体,否则可能不会正确转换,如“中國历史”(正确写法为“中国历史”或“中國歷史”)、“作业系统”和“操作系統”(正确写法为繁体“作業系統”或简体“操作系统”)。如果只需单纯繁简转换(如前者),尚可能成功;但若为繁简与地区词差异错位(如后者),则转换通常注定失败。尤其后者的情况基本上属于繁简破坏。因此,除非十分了解繁简差异,否则在编辑极易出现繁简与地区词差异错位的条目(例如电脑相关的条目)时,请简体中文用户不要使用繁体字录入、繁体中文用户不要使用简体字录入。

参见