中文資訊處理

中文資訊處理是指用電腦中文的音、形、義等資訊進行處理和加工。中文資訊處理是自然語言資訊處理的一個分支,是一門與電腦科學語言學數學資訊科學聲學等多種學科相關聯的綜合性學科。資訊處理技術在現代有廣泛的應用,從1980年代開始,中文資訊處理進入了快速發展階段,並極大地提高了中文社會的資訊處理效率。

中文資訊處理分為漢字資訊處理與漢語資訊處理兩部分,具體內容包括對字、詞、句、篇章的輸入、儲存、傳輸、輸出、辨識、轉換、壓縮、檢索、分析、理解和生成等方面的處理技術。

基於歷史、國家疆域、政治等各種問題,中文資訊處理系統所需要處理的文字,有時不僅包括漢文(繁簡體漢字),也包括藏文蒙文壯文維吾爾文等大量中國少數民族的文字,周邊國家的日語假名諺文,還包括古漢語文字、西夏文契丹文等各種不同的文字。

中文資訊處理可以從硬件及軟件兩方面去看,以下詳述中文資訊處理的發展歷史、現況及未來發展等多方面的面貌。

範疇

相關學科

語言文字學電腦科學圖型識別人工智能心理學數學數理統計控制論神經計算模型論資訊科學形式化理論聲學

發展歷史

電腦在1946年發明,當時的電腦主要用於計算。及至1960年代,商用電腦開始普及,電腦被用於處理大規模的數據,當中其一個重要項目是圖書館的目錄整理。在當時,美國國會圖書館及多家大學都有不少來自東亞的藏書。為了有效管理這批藏書,必須要有一套有效處理東亞文字的系統。這套系統包括了兩方面:其一是如何把東亞文字儲存在電腦內;其二是如何在電腦表示出東亞文字。

1959年,麻省理工學院電機工程系教授Samuel Hawks Caldwell在軍方財政支援下,發明第一部處理中文電腦,稱為SinoType(常州華文印重新整理技術)。Caldwell在哈佛大學漢學教授楊聯陞幫助下,研究漢字結構,發明按筆劃分拆,以二十二鍵鍵盤,用筆劃輸入中文。SinoType操作接近中文打字機,操作員在鍵盤輸入筆劃,電腦按輸入編成內碼,以光學矩陣顯示。操作員確認輸入後按"影"鍵,即行列印。按當時的實驗,操作員受八小時訓練後,中文字輸入速度為每四秒一字。SinoType的發明及設計,記載於1959年6月計算機學報Journal of Franklin Institute。一年後Samuel Caldwell過世,SinoType未被重用,然而其技術卻成為日後中文處理基礎。[1][2]

在過去,每一台電腦都有各自的數據表達方式,使電腦之間不能溝通。到1960年代美國資訊交換標準碼ASCII)的出現,電腦之間才可以互相溝通。不過,ASCII並不能有效處理英文以外的文字。而當時美國的圖書館開始電腦化,一批中文書有待編入目錄。

最早商用可以處理中文的電腦,可以追溯到1970年。在當年舉辦的日本大阪萬國博覽會上,IBM公司公開了部分漢字處理系統的技術資料,到了1971年正式發表。當時公佈的機種包括有「IBM 2345 漢字印刷機」、「IBM 029 漢字穿孔機」、「IBM System/360-System/370 OS/VS」及「DOS/VSE」等。其後,日本本土公司也爭相開發,包括有富士通的JEF(Japanese processing Extended Facility)、NEC的JIPS(Japanese Information Processing System)及日立的KEIS(Kanji processing Extended Information System)等,全是大型電腦。到了1979年5月,NEC發表了可使用漢字ROM的私人電腦PC-8000系列;到了1982年10月,更開發出有名的16位元的PC-9801私人電腦,能處理漢字的電腦在日本漸漸普及。在1970年代末期,更出現一種專門用作編輯檔案的文書處理器,可看成為一種擁有特定功能的小型電腦,1980年代中後期再演化成手提方式,並可列印出漢字。至於輸入方式,由1978年9月26日東芝發售「JW-10」起,「假名漢字變換」成為主流的漢字輸入法;即以日文拼音的方式,配合人工智能,輸入漢字詞匯。在還沒有真正的中文電腦前,中國大陸部分學者依靠入口日本的電腦來處理中文。

1973年,中國新華社派出考察團到日本,參觀了日本共同社日立、日本電氣、松下東芝等公司。他們看到共同社採用磁芯技術解決了2000左右漢字和片假名的儲存問題,並發現工作人員使用大鍵盤方式輸入稿件。他們回國後,提出了採用電腦技術改善新華社收發編印四方面,並由中國四機部(民用機械、核工業和核武器、航空及電子工業)與北京市科技局邀請了富士通等公司到中國進行技術座談會。後來,四機部提出研製漢字資訊處理系統。在1974年8月,中國開始了748工程,包括了用計算機來處理中文字,展開了各種研究工作,後來到1980年公佈了GB 2312-80漢字編碼的國家標準,1983年中國科學院研究Unix中文化,1985年推出了Unix中文版。

台灣方面,早期美國空軍研究部門曾經與IBM公司合作研發中文電腦,而多家公司也開發了終端機式的中文系統,包括有王安、工技院(中華一號到中華三號)及神通等。這些機器多數採用大鍵盤的輸入方式,有數十至數百個鍵。到了1976年,中文電腦之父朱邦復發明了一套形意檢字法,並在1978年改進為倉頡輸入法,以英文鍵盤輸入中文。在1979年,朱邦復提出以圖形功能及從顯示器的英文字元產生器入手,研發中文電腦,並由宏碁公司出產。之後,在原有英文操作系統上外掛中文系統的方法大行其道,多套中文軟件相繼推出,包括有國喬倚天仲鼎等。

中文資訊處理在20世紀經歷了兩次高潮:1990年前後,核心內容是漢字的電腦處理問題;經過幾年的發展低潮之後,2000年之前,中文資訊處理的重點轉向語音辨識、語音合成和語意處理方面。

被打字機忽視的時代

在20世紀上半葉,英文打字機的普及極大的提高了文字資料的錄入速度。但由於打字機設計之初,並沒有考慮到非字母輸入(比如中文等其他文字)的需要,再加上當時中國的積弱,印表機在中國並沒有普及。但仍然在當時出現了中文打字機,不過這些印表機大都需要配備數千個鉛字組成的大字盤,機器成本昂貴和操作相比活字印刷並沒有優勢。漢字的輸入難題,還體現在活字印刷術的應用歷史中。雖然早在北宋就已經發明泥活字,隨後在元朝、明朝又發明了木活字、銅活字,但一直到晚清西方技術傳入,中國的印刷仍然以雕版為主。這最主要的難題就是在大量使用生僻字、異體字的時代,漢字的印刷活字起碼需要應付上萬個不同字元。而西方字母文字僅需要幾十個不同字元就足夠用了。

穩健的基礎:電腦時代

20世紀中葉,電腦開始出現,並進入中文地區,由於和打字機同樣的理由,設計當初並沒有考慮到中文等非英語文字的處理問題,使得電腦在最初的使用裏,中文處理成了一個很大的問題,甚至於有人重拾漢字拉丁化問題。中文處理的大量基礎也都是在這一階段完成的,甚至出現了足以媲美英語的中文處理系統。

漢字資訊處理階段

 
四通MS-2403打字機
  • 硬件
  • 軟件
  • 輸入法
  • 企業
    • 聯想、方正四通等一批靠中文處理產品起家的企業。
  • 標準、基礎研究
    • 中文資訊處理界基本上完成了詞頻統計、多種字型顯示/列印字庫、漢字顯示/列印技術、輸入法、內碼標準、字元集標準等與字相關的所有基礎工作。倪光南院士說,到2000年,中國已制定了70個與中文資訊處理相關的國家標準。

學術理論

1990年代中期,最為普及的電腦作業系統由DOS升級到Windows平台。微軟公司從繁體中文版的Windows 3.0及簡體中文版的Windows 3.2開始,在作業系統裏整合了漢字處理技術,使傳統中文資訊處理產品迅速失去了市場。中文資訊處理進入一個低谷,原先做中文資訊處理的公司紛紛轉行。Windows 2000及以上版本,無論採用何種文字,均已支援中文處理。

快速追趕:PC時代

隨着PC(個人電腦)在20世紀末21世紀初在中文地區的普及,中文資訊處理出現了巨大的發展。

  • 中文輸入方面,出現了音碼和形碼兩種類型的大量輸入法,適合中文快速輸入的詞/句智能輸入法也獲得快速發展。象形輸入法也獲得初步發展,但辨識率較低。
  • 中文資訊量方面,在21世紀最初十年,中文已經發展成為資訊量全球第二的載體。
  • 中文編碼方面,獲得巨大發展,參看下文
  • 中文顯示方面,緊隨顯示器的發展,出現了比較適合電腦瀏覽的黑體等字型,中文書法字型也大量電子化。
  • 中文檢索方面,分詞技術發展,中文資訊檢索的方便性已經能夠滿足日常大部分需求。
  • 中文閱讀方面,發展較慢,仍然處於人工閱讀階段。

超越:觸控時代

  • 中文輸入方面:

自2006年開始,隨着微軟的Surface平板電腦的問世,人機互動方式發生了巨大的變革。一種接近人類日常溝通模式的人機互動模式已經大量應用於最新的科技產品之中。新的漢字構造分解技術,中文智能輸入的已有積累,中文字型的表現力,中文手寫的安全性等方面都遠遠超越了英文,中文輸入的方便開始出現明顯超越的趨勢。第二代象形輸入法也開始在新產品中應用,其輸入效率通過基本的適應期之後,已經可以超越了原有的所有輸入法。

漢語資訊處理階段

與此同時,為方便使中國各民族電腦化的步伐加快,政府作出一連串行動去使這些民族的語言更便於「計算機化」。這一連串行動包括以下各項:

  1. 取消民族語言中的特殊字元,儘可能以26個標準拉丁字母代替。(參看:壯語
  2. 為還未有文字的民族設立以拉丁字母為本的新文字。
  • 台灣方面,在1990年代曾引發「中文電腦化」及「電腦中文化」的爭議。
    • 資策會方面的意見:認為受限於電腦的軟硬件大都由國外開發設計,故電腦中文化所需時日較多,應可設置為長期目標,但短期可先讓中文適應電腦環境,中文可以快速適應時代的活動能力,充分發揮中文在資訊科技的應用。
    • 學界及業界的意見:隨着電腦發展日新月異,操作空間的限制很快就變得沒有意義。政府應該在新時代來臨以前,及早制定長遠的標準。
    • 結果:台灣資策會於1989年8月與中國大陸共同參與ISO 10646中文編碼協調會,並提出HCS方案,同年10月參加ISO/IEC JTCI1/SC2/WG Ad-hoc會議。至於,資策會還繼續參與ISO 10646中文編碼標準會議,例如:CJK/JPG中日韓聯合工作組第1-5次會議,ISO/IEC JTCI1/SC2/WG2/IRG會議等多次會議,成功的將CNS11643所有的字元集納入於ISO10646國際標準之中。

電腦對漢字的親和性增加,而Unicode統漢碼之後,亦不斷推出擴展A至G計劃,以涵蓋歷史上所有曾經出現過及使用過的漢字,並為它們編碼記錄。現時已整理好接近十萬個漢字。

中文電腦系統

執行在DOS上的中文系統

下列都是1980年代出產的軟件,隨着Windows通行都逐一沒落了。

  • 天匯漢字系統TW213
  • 希望漢字系統UCDOS
  • 零壹中文系統
  • 國喬中文系統
  • 倚天中文系統,它還有Windows版本,最後一個版本是倚天2000 for Windows。
  • 震漢中文系統,因與倚天高度相似而曾被倚天控告。
  • 大千中文系統

對中文電腦有貢獻的人

參考書籍

專業期刊

參考文獻

  1. ^ 存档副本. [2016-09-15]. (原始內容存檔於2016-09-15). 
  2. ^ 存档副本. [2016-09-15]. (原始內容存檔於2016-09-19). 
  3. ^ Caldwell, Samuel H. The sinotype—a machine for the composition of Chinese from a keyboard. Journal of the Franklin Institute. 1 June 1959, 267 (6): 471–502. doi:10.1016/0016-0032(59)90069-9. 

外部連結