Help:中文维基百科的繁简、地区词处理

字词转换
主页 讨论
轉換請求
错误修复请求
地区词候选
轉換介紹
字詞轉換處理 讨论
  繁简处理 讨论
  地区词处理 讨论
  公共轉換組 讨论
帮助文档
繁简与地区词处理 讨论
  转换原理 讨论
  手工轉換 讨论
  高级语法 讨论
  用字模式选择说明
相關模板
NoteTA 全文字詞轉換
CGroup 公共轉換組列表
Lan 界面文字轉換
地区用词 地區詞模板
地区用词2 進階地區詞模板
各地中文名 地區用詞資訊框
查看 - 讨论 - 编辑 - 变动

中文維基百科繁簡、地區詞處理中文維基百科的自動轉換,目的是以电脑程序適應不同用字模式的差異。

中文維基百科的讀者和編者來自世界各地。他們所需求或貢獻的中文在字詞性質上有許許多多的差異,像是簡化字繁体字的差異、各地区用詞的差異等等。MediaWiki將這些中文性質集合在一起,稱為「用字模式」。可以說:一種用字模式就是某些中文性質的一個集合。為了整合讀者和編者多元的資源,也為了促進各方的交流,本百科並不規範讀者或編者要使用何種用字模式,而是嘗試以電腦程式的自動轉換來適應這些差異,讓編者可以以自己的用字習慣提供資料,也讓讀者可以選擇所要的資料的用字遣詞。因此編輯和閱讀中文維基百科時有特別的事項需要注意。事實上,就連本頁嘗試說明的事項,也有許多模糊之處。

用字模式自動轉換與MediaWiki系統本身的原理有關。大部分編者輸入系統的文章內容,包括文字和維基語法等等,在此稱為源碼。維基系統通常會保留完整不變的源碼,不作自動轉換。讀者使用維基系統時,並非直接閱讀源碼,而是由系統將源碼即時自動轉換成合適的形式,例如加上圖片、超链接等等。而中文维基百科的用字模式轉換就是眾多自動轉換程序中的一道。自動轉換不只惠及百科的條目文章,也遍及頁面分類等等頁面。

維基程序根據轉換表、公共轉換組、手工轉換規則,自動轉換字詞,包括手工指定不作轉換。轉換表是適用於中文維基百科全站,列出不同用字模式之間,字與字或是詞與詞之間的對應關係的表格;目前只有管理員能編輯轉換表。公共轉換組適用於其所嵌入的各頁面。手工轉換規則單獨用於其所在的頁面(或其後部分),是維基系統在讀者點閲時即時作出的自動轉換,若與上層轉換所設的字詞重合則為優先。編者在編輯時可以「預覽」切換至其他用字模式查看轉換成效。

用字模式選擇

目前中文百科系统支持中文的zh(不轉換的用字)、zh-hant(正體/繁體用字)、zh-tw(台灣用字)、zh-hk(香港用字)、zh-mo(澳門用字),以及zh-hans(簡體用字)、zh-cn(中國大陸用字)、zh-sg(新加坡用字)、zh-my(馬來西亞用字)九種用字模式。不過,目前中文維基百科只對外開放zh-tw(台灣用字)、zh-hk(香港用字)、zh-mo(澳門用字)、zh-sg(新加坡用字)、zh-my(馬來西亞用字)、zh-cn(中國大陸用字)等六種模式。zh(不轉換的用字)、zh-hant(繁體用字)、zh-hans(簡體用字)三種模式主要用於維護,一般需登入後在参数设置/⧼gadgets⧽/界面显示工具中去除隐藏“不转换”、“简体”和“繁体”三个标签的复选框才能顯示。zh-my(馬來西亞用字)原被zh-sg(新加坡用字)所涵蓋,於2018年正式拆分啟用;zh-mo(澳門用字)原有zh-hk(香港用字)涵蓋,於2013年正式拆分啟用。欲要支援更多的用字模式需要修改程式,如有實際需要請在討論頁中提出。

文章主体用字模式选择(按优先级):

  • 所有人都可以把URL//zh.wikipedia.org/wiki/条目名称)的wiki改成zh-<變體>,而//zh.wikipedia.org/w/index.php开头的页面可在URL最后加上&variant=zh-xx(URL有?时用)或?variant=zh-xx(URL沒有?时用)。其中xx可为hanshantcntwhkmosgmy
  • 已登入用戶可在个人偏好选择不同的用字模式;
  • 匿名用户可選擇浏览器语言,系統會根据選擇设置,詳见此处
  • 如果以上設定都没有,则預設不轉換。

另外,不同皮肤(Skin)都有各個用字模式的链接。如現在的Vector面板,連結是在頁面討論頁連結(或 )右側,使用下拉選單選擇。以前的MonoBook面板链接則是在文章右上方。

界面用字模式

界面用字模式是独立于文章内容的用字模式。除了中文各種用字模式,还可以选择英文、法文等等语言。界面用字模式在已登入用戶的个人偏好裡设置。

转换技术

技术上,维基百科的字词转换有四层:其一是MediaWiki内置的转换表,供各维基计划全域转换;其二是MediaWiki:Conversiontable定义的繁简和地区词转换表,供中文维基百科本地全局转换;其三是各公共转换组,供主题相同和相似的条目统一转换;其四是各条目内设的手工轉換,供该条目单独使用。其中,可由具有相應頁面編輯權限者编修,若無此等權限,可在相應頁面的討論頁請代爲編輯;而修改本地转换表则需管理员权限,修改全域转换表須向MediaWiki版本库提交代码。如欲新增或修复全域及本地全局转换,一般用户需在维基百科:字词转换申请,交由管理员协助处理。

转换表

目前,系统預設的自动转换是根據數個「轉換表」。轉換表就是一份表格,記載各種不同用字模式之間,字與字或是詞與詞之間的對應關係。目前只有管理員能編輯轉換表,普通用户可在Wikipedia:字词转换/地区词候选Wikipedia:字词转换/修复请求提出修改转换表的建议。

全域內建转换表

適用全域的內建转换表MediaWiki程序中。

参见:Wikipedia:简繁一多对应校验表Wikipedia:繁简一多对应校验表

本地全局转换表

數頁Mediawiki:Conversiontable本地全局转换表,用来修正MediaWiki內建转换表的错误。这些页面描述转换关系須依以下格式:

 皇后 => 皇后;
 波斯尼亚 => 波士尼亞;
 萨拉热窝 => 塞拉耶佛  // Sarajevo 的翻译;
 ...
 

为方便显示,每条对应前可加星号(*)或井号(#),可用“//”加写注释,注意每条转换关系要以“;”终止。

Conversiontable/zh-cn页面用于向zh-cn的转换,Conversiontable/zh-tw页面用于向zh-tw的转换,等等。

这些页面更新后,效果并不一定会即时顯現,因为有些页面可能放在頁面缓存裡。要看即时效果可以用编辑预览功能。

-{}-标记

例如:

“張國榮曾在英國利兹大学學習。”

所用的-{}-标记是:

[[利兹大学|-{zh:利兹;zh-hans:利兹;zh-hk:列斯;zh-tw:里茲}-大学]]

參見本頁「§ 防止自动转换一段文字的标签」。

-{}-标记现可完整转换链接、模板、图像。转换HTML属性请使用{{lan}}。

源碼一般不轉換

大部分編者輸入系統的文章內容,包括文字和維基語法等等,在此稱為源碼。維基系統通常會保留完整不變的源碼,不會自動轉換源碼。

斷詞問題——自動轉換程式常見的問題

注意:中文维基百科不保证用字模式自動轉換程式和内容的準确度。用字模式自動轉換並不一定正確,甚至可以說是各種自動轉換中問題最多的。

转换程序用最简单的“最大匹配法”來转换,会导致以下错误:假设转换表有一对应关系为:

内存 => 記憶體

现转换以下句子:

人体内存在很多微生物

基于“最大匹配法”,系统会转换“内存”,得到“記憶體”。整个句子将会被错误地转换成:

人體記憶體在很多微生物

解决这个问题的根本方法是用智能的斷詞匹配,将上述句子先拆分为:

人体 内 存在 很多 微生物

然后再单独转换每个词。

在有這種智能的斷詞系统成熟并部署至MediaWiki前,有两种方法修正上述错误:

  1. 親手将涉及斷詞错误的词分开:人体内-{}-存在很多微生物
  2. 将涉及斷詞错误的多个词作为整体加到定制转换表裡,如“体内存在 => 體內存在”。(註:目前只有管理員能編輯轉換表,一般人可以向管理員提出申請。)

以上就是斷詞的錯誤及解決方法。閱讀本百科時請多加注意。遇到可疑的部分,可以前往編輯頁面去查源碼,或是多多留意不同用字模式之間的轉換關係,以養成自行「反轉換」的能力。

控制自动转换的代码

出于特殊的需要,可以用以下的語法設定不自動转换,或是「手工转换」

設定了所謂「手工轉換」,其實維基系統仍然會在閱讀者使用時根據系统默认转换表作自動轉換,但是這時系統還會根據編者在原始碼中指定(增添)的方式作轉換,並且將編者的方式優先排在转换表所列出的方式之前。也就是由編者自行增添轉換方式。[翻译腔]

常用的轉換工具語法

  • 防止自動轉換一段文字的標籤
    -{文字}-
    
    效果:文字
    对于-{}-中的文字为转换规则(如“zh:中文”),但又希望保持原样,可以用:
    -{R|文字}-
    
    效果:文字
  • 防止自動轉換一段文字整体的標籤
    -{}-
    但分隔在-{}-两侧的文字仍會轉換。簡單來說是切断文字,分别转换。
    可用于希望保留特定地区用词但需转换简繁的场合,通过打断词语使上層转换规则不能识别希望保留的地区词。
    效果:
    繁體:舊-{}-金山,香港稱-{三藩市}-。
    簡體:旧-{}-金山,香港称-{三藩市}-。
  • 手工轉換一段文字的標籤(局部自行增添轉換方式標籤):
    -{zh:文字1;zh-hans:文字2;zh-hant:文字3;zh-cn:文字4;zh-tw:文字5;zh-hk:文字6;zh-sg:文字7;zh-mo:文字8;zh-my:文字9;}-
    
    效果:文字1
  • 全文手工轉換標籤(全面自行增添轉換方式標籤):
    -{A|zh:文字1;zh-hans:文字2;zh-hant:文字3;zh-cn:文字4;zh-tw:文字5;zh-hk:文字6;zh-sg:文字7;zh-mo:文字8;zh-my:文字9;}-
    
    效果:文字1
  • 隐藏式全文手工轉換標籤(全面自行增添轉換方式標籤):
    -{H|zh:文字1;zh-hans:文字2;zh-hant:文字3;zh-cn:文字4;zh-tw:文字5;zh-hk:文字6;zh-sg:文字7;zh-mo:文字8;zh-my:文字9;}-
    
    效果:文字1
  • 全文手工删除轉換標籤(从上層转换規則中删除指定规则,即在此页面下方不再以该规则转换):
    -{-|zh:文字1;zh-hans:文字2;zh-hant:文字3;zh-cn:文字4;zh-tw:文字5;zh-hk:文字6;zh-sg:文字7;zh-mo:文字8;zh-my:文字9;}-
    
    效果:文字1
  • 頁面標題手工轉換標籤
    -{T|文字}-
    
    -{T|zh:文字1;zh-hans:文字2;zh-hant:文字3;zh-cn:文字4;zh-tw:文字5;zh-hk:文字6;zh-sg:文字7;zh-mo:文字8;zh-my:文字9;}-
    
  • 轉換規則描述標籤(將該規則用人易讀的方式顯示出來):
    -{D|zh:文字1;zh-hans:文字2;zh-hant:文字3;zh-cn:文字4;zh-tw:文字5;zh-hk:文字6;zh-sg:文字7;zh-mo:文字8;zh-my:文字9;}-
    
    效果:原文:文字1;简体:文字2;繁體:文字3;大陆:文字4;臺灣:文字5;香港:文字6;新加坡:文字7;澳門:文字8;大马:文字9;
  • 用字模式名稱標籤(將某種語言的代碼轉換成文字描述):
    -{N|zh}-
    效果:原文
  • 僅轉換指定语言
    -{zh-hans;zh-hant|文字}-
    
    效果:文字
    若為zh-hans;zh-hant則顯示轉換後的文字,否則單純顯示不轉換的文字。有沿溯(fallback)的限制,MediaWiki 1.15新增功能。此功能可用于需要避免地区词转换,但允许繁简转换的场合。比如{{Infobox Film}}中的各地片名部分。
  • 全文停用自動轉換
    __NOCC____NOCONTENTCONVERT__
  • 頁面標題停用自動轉換
    __NOTC____NOTITLECONVERT__

條目標題

部分文章标题不需要转换地區詞,如《计算机世界报》之类的专有名词。在简繁同体的情况下,可在文中加入__NOTC____NOTITLECONVERT__(注意前后都是两道下划线),以阻止转换标题。然而,在中文维基百科,由于部分標題简繁不同体(如“计算机世界报”和“計算機世界報”),我们不推荐使用以上两个标签,而推荐使用下文中的“-{T|}-”转换。

注意:这标记應放在文章開頭。

部分文章标题或許含有個別地區特有的字詞,但不適合透過修改转换表或公共轉換組來達成自动转换的目的,通常是因為一些常用字。如果贸然修改轉換表或公共轉換組,可能會造成更多地方出錯。这种情况下可以有两种方法处理,我们推荐后一种:

  1. 在文章内使用标题转换来指明标题的正确显示:
    -{T|标题}-
    
    -{T|zh:原始標題用字; zh-hans:原始标题简体用字; zh-cn:大陆简体用字; zh-my:大马简体用字; zh-sg:新加坡简体用字;}-
    

實例:美國政治家John Kerry分別有「约翰·克里」、「約翰·凱利」等不同譯名,但如果在轉換表中互換「克里<=>凱利」,那麼歐洲地名“克里米亞”、“克里姆林宮”將會變成「凱利米亞」、「凱利姆林宮」的錯誤情況,為了避免製造混亂,這情況比較適合在约翰·克里的條目中以手工轉換標籤修正標題與內文部份的相關譯名。

注意:该标记仅仅是指明文章显示时对标题的转换,而不能自动处理链接时的转换。所以使用该标记时切记要通过重定向将各种用字模式的同一标题指向该文章。如約翰·凱利

全文停用自動轉換

有时通篇文章都需要不转换。在这情况下,可在文中加__NOCC____NOCONTENTCONVERT__(注意前后都是两條底线)来防止转换内容。不过,在中文维基百科,为了便于各地读者阅读,我们不建议禁止除字词转换相关页面以外页面的全文自动转换。

注意:此标记要放在文章开頭。

自動轉換的能力範圍

本百科很多頁面都可自動轉換,但是仍有很多例外。例如最近更新頁面Special:Recentchanges這樣的特殊頁面,有一部分不轉換。

參見Wikipedia:什麼是條目

頁面分類

目前自動轉換電腦程式的能力範圍不只是百科的條目文章,也包括頁面分類等等頁面。因此除非特別指定,否則條目標題或是子分類標題的分類是根據經過自動轉換之後的結果來分類。然而在此的自動轉換和別處不同,僅僅是簡單的「繁簡轉換」,並沒有進一步轉換。[需要更新]


子分類也是一樣。

軟體問題

2006年1月開始出現一個問題,可能與新版本的MediaWiki有關。只要是分類名繁體對簡體,條目或子分類就會從母分類消失,但是條目或子分類頁經過任何編輯之後又會恢復,但系統下一次的链接更新時又會消失。

參看:頁面分類

这一问题已在2009年2月修复。

內部連結、URL、重定向與搜索

雖然只有程序產生出來的頁面經過轉換而源碼一般不經轉換,然而讀者收到的頁面上,在維基系統之內的「內部連結」(不是外部連結或普通的URL,參見Help:链接),並不是由源碼決定,是由程序影響。

用字自動轉換電腦程序的能力範圍不包括維基百科的URL與搜索功能。百科的系統不會轉換URL中漢字(有時是Punycode的代號形式)或輸入搜尋功能的查詢字串。

本百科的條目名稱搜索(「進入」)受到自動轉換電腦程序影響。

本百科的條目全文搜索(「搜索」)不會受到自動轉換電腦程序影響。

本百科之外的搜索引擎Google可能有自己的自動轉換電腦程序。目前已知搜索時會作簡單的繁簡轉換。當需要建立繁簡重定向頁的時候,建立新條目的方式往往無法奏效。

如何建立繁簡/地區詞重定向頁

編輯一般文章時的注意事項

  • 若無正當理由,請勿將文中繁體轉成簡體,反之亦然,這種操作屬於繁簡破壞

请注意:若您的浏览器安装了同文堂等繁简转换软件或可以中文繁简转换的移动应用程序,请在编辑时将其关闭或移除。

  • 避免繁簡混雜,避免以繁體書寫簡體地區特有字詞/以簡體書寫繁體地區特有字詞,頁面標題及分類必須全簡體或全繁體,否則可能不會正確轉換,如「中國历史」(正确写法为“中国历史”或「中國歷史」)、「作业系统」和「操作系統」(正确写法为繁体「作業系統」或简体“操作系统”)。如果只需單純繁簡轉換(如前者),尚可能成功;但若為繁簡與地區詞差異錯位(如後者),則轉換通常註定失敗。尤其後者的情況基本上屬於繁簡破壞。因此,除非十分瞭解繁簡差異,否則在編輯極易出現繁簡與地區詞差異錯位的條目(例如電腦相關的條目)時,請簡體中文使用者不要使用繁體字錄入、繁體中文使用者不要使用簡體字錄入。

参见