識典古籍

北京大学和字节跳动联合开发的中国古籍数字化平台

識典古籍北京大學-字節跳動數字人文開放實驗室所開發和運營的一個中國古籍數碼化平台,於2022年10月11日上線[1]。平台目前收錄了兩千餘部中國古籍,按內容主題分為經部、史部、子部、集部道教部和佛教部六個類別,提供免費閱讀、註解查詢和全文檢索等功能。

識典古籍
網站類型
中國古籍數字圖書館
語言中文
總部 中國
創立者北京大學-字節跳動數字人文開放實驗室
網址www.shidianguji.com
註冊可選
推出時間2022年10月11日,​2年前​(2022-10-11

背景

對古籍進行數碼化是一項很常見的行動,目前世界上已有不少古籍數碼化項目,用於收錄版權過期、進入公有領域的作品,如美國的古騰堡計劃創建於1971年、日本的青空文庫創建於1997年、維基媒體基金會旗下的維基文庫創建於2003年等等。而針對中國古籍,也有國學大師網中國哲學書電子化計劃等平台,一些圖書館以及研究部門亦有對部分中國古籍進行數碼化,不過或許沒有完全對公眾免費開放。有些公司也有進行中國古籍數碼化的計劃,不過由於技術、版權等原因而擱置或終止。

據統計,中國現存約20萬種中國古籍,合計約5000萬冊,其中有圖片掃描的約8萬種,有文本數碼化的只有約4萬種,此外還有約1000萬冊古籍亟需修復。將古籍掃描成圖片固然可以保存和保護古籍,但僅僅是圖片版本的掃描並不能進行全文檢索,不便於研究、閱讀和傳播,因此將圖片轉成文本,以文本的形式實現完全數碼化才能起到最大的作用。中國一直在陸續進行中國古籍的修復、整理、保存與出版工作,其中就包括對中國古籍進行數碼化,讓古籍文本不依賴於紙質介質,更好地保存下來,但由於參與人數少,古籍數量眾多,導致進展較為緩慢,仍然有很多古籍沒有實現完全數碼化。[1]

作為識典古籍的開發部門之一,北京大學數字人文研究中心認為雖然目前中國內外已有一些古籍閱讀平台,但是在方便大眾閱讀、整理質量、閱讀體驗等方面仍有很大的提升空間,而將古籍數碼化可以更好地保護與利用古籍,向大眾傳播古籍知識,所以便與字節跳動公益部門聯合成立了北京大學-字節跳動開放實驗室,以打造內容豐富、使用便捷、免費開放的高質量古籍數碼化閱讀平台。[2]

開發過程

2022年3月17日,北京大學數字人文研究中心與字節跳動公益部門聯合成立了北京大學-字節跳動開放實驗室,開發識典古籍,進行中國古籍的數碼化。字節跳動方面的開發人員有不少本身就對古籍就有濃厚的興趣,有個別產品經理研究生時期修讀的專業還是古典文獻。[3]

古籍的數碼化分三個步驟,第一是使用電子掃描儀將古籍原本掃描成電子圖片;第二是利用光學字符識別技術將圖片版中的文字轉化成文本,並在此基礎上進行校對;第三是將文本進行整理,使其更加容易閱讀。[1]

在第二步光學字符識別步驟中,由於古籍原本中使用了不少異體字生僻字,一個字在古籍中可能有高達十幾種寫法,且沒有標點符號進行斷句,導致在識別上存在一定困難,降低了識別的準確性。對此,開發團隊決定利用了人工智能技術對古籍進行自動斷句分詞,不過這樣做的前提是需要有足夠的古文語料訓練人工智能的算法。但遺憾的是,雖然當前利用人工智能對中文進行斷句分詞的技術已經很成熟,包括字節跳動在內的不少大公司都有充足的數據去支撐分詞模型的構建,但是這僅限於現代標準漢語,也就是白話文。至於古文也就是文言文的語料數據,包括字節跳動在內的所有平台幾乎都非常欠缺。最終字節跳動只能利用少量的公開的古籍分詞語料,利用半監督學習和預訓練的技術去構建古籍分詞模型。在人工智能技術的加持下,對於古籍的光學字符識別準確率可達96%至97%。[3]

在第三步文本整理中,必要的一個操作就是添加標點符號,方便現代人閱讀。這項工作之前是由古文專家學者完成的,人力工作進展緩慢。而如今在第二步的光學字符識別中已經使用了人工智能進行斷句、添加標點符號,這比起傳統的人工操作速度更快,效率更高,但需要後續的人工校對。[3]

在基本完成開發後,識典古籍邀請了古籍研究學者、古籍愛好者和普通大眾進行多輪內測,每次測試的人數在2000人左右。內測共收集到300多條問題反饋,其中有不少是關於用戶體驗的反饋,例如有測試者反饋古籍《詩經》的底本名為《毛詩》,名字的前後不一致導致了搜索結果的不準確。識典古籍開發者根據測試者的反饋,對平台進行了修復與改進。[3]

2022年10月11日,識典古籍作為測試版上線,上線之初涵蓋390部經典中國古籍,主要來自《四部叢刊》,共計3000多萬字,後期陸續進行其他古籍的收錄。平台上的古籍的文本質量分為粗校和精校兩種,粗校是指文本較為準確,但是標點符號與專有名詞實體的識別都是通過機器自動完成的,還未經過人工校對;精校則是文本、標點和實體均經過人工校對。目前平台上的部分粗校文本正在精校過程中,已經精校的文本將替換粗校文本陸續上線。[2]

功能與特性

平台書庫中的古籍沿襲傳統的四部分類法,將古籍分為經部、史部、子部、集部,並另外設立道教部和佛教部兩個分類,共計六個分類,並在這六個分類下設立二級分類,部分設有三級分類。書籍信息中註明了書名、卷數、作者、作者年代、版本等基本信息。書庫中古籍的排列順序大致按照編撰年代由古到今升序排列。[2]

平台的古籍文本閱讀界面為當代流行的橫排排版,用字有底本原字、中國大陸標準繁體字簡化字三種可供選擇,其中標準繁體字和簡化字是使用機器翻譯對底本原字進行轉化得到的。文本中的地名和人名等專有名詞,使用了專名號進行標示。對於一些生僻詞彙,鼠標停留在上方便會彈出釋義懸浮窗口,釋義來源為《漢語大詞典》和字節跳動旗下的頭條百科,對詞彙進行文字選取也可以喚出漢語大詞典的詞條釋義懸浮窗口。平台還提供原本影像的開關按鈕,可以查看或隱藏古籍的原本圖片掃描版。對於有註疏和譯文的版本,也可以選擇註疏和譯文的顯示與隱藏。[4]

平台的檢索功能可以搜索書籍標題,也可以全文搜索,並可以進行作者、書籍、分類和朝代的篩選。平台提供了收藏夾功能,註冊並登錄帳號後可以使用。平台的閱讀界面也針對智能手機、平板電腦等流動裝置做了適配[2]

評價

遼寧廣播電視集團的王梓認為,在普通大眾的傳統認知中,古籍典藏於圖書館、檔案館和博物管中,平時難以接觸到,其內容也晦澀難懂,但識典古籍的出現打破了傳統文化與現代科技的次元壁,利用人工智能將古籍數碼化和翻譯,並通過抖音短視頻等新媒體平台進行宣傳,降低了觀眾閱讀古籍的難度,讓古籍更加生動有趣,內容更加親民,有利於傳承中華傳統文化[5]

參考資料

  1. ^ 1.0 1.1 1.2 高丹. 古籍数字化平台“识典古籍”推出:三年将上线万种儒释道经典. 澎湃新聞. 2022-10-12 [2023-12-09]. (原始內容存檔於2023-12-10). 
  2. ^ 2.0 2.1 2.2 2.3 识典古籍阅读与整理平台. 北京大學數字人文研究中心. [2023-12-09]. (原始內容存檔於2023-12-10). 
  3. ^ 3.0 3.1 3.2 3.3 天将降大任于是人还是斯人?“识典古籍”里有参考答案. 中國網. 2022-11-02 [2023-12-09]. (原始內容存檔於2023-12-10). 
  4. ^ 張賀. 数字化,激活古籍生命力. 人民日報. 2023-10-03 [2023-12-09]. (原始內容存檔於2023-10-16). 
  5. ^ 王梓. 构建全媒体时代中国叙事体系的文化新表达——以“古籍破圈”现象为例. 記者搖籃. 2023, (03): 54-56. ISSN 2096-3858. 

外部連結