识典古籍
识典古籍是北京大学-字节跳动数字人文开放实验室所开发和运营的一个中国古籍数码化平台,于2022年10月11日上线[1]。平台目前收录了两千余部中国古籍,按内容主题分为经部、史部、子部、集部、道教部和佛教部六个类别,提供免费阅读、注解查询和全文检索等功能。
网站类型 | 中国古籍数字图书馆 |
---|---|
语言 | 中文 |
总部 | 中国 |
创立者 | 北京大学-字节跳动数字人文开放实验室 |
网址 | www |
注册 | 可选 |
推出时间 | 2022年10月11日 |
背景
对古籍进行数码化是一项很常见的行动,目前世界上已有不少古籍数码化项目,用于收录版权过期、进入公有领域的作品,如美国的古腾堡计划创建于1971年、日本的青空文库创建于1997年、维基媒体基金会旗下的维基文库创建于2003年等等。而针对中国古籍,也有国学大师网、中国哲学书电子化计划等平台,一些图书馆以及研究部门亦有对部分中国古籍进行数码化,不过或许没有完全对公众免费开放。有些公司也有进行中国古籍数码化的计划,不过由于技术、版权等原因而搁置或终止。
据统计,中国现存约20万种中国古籍,合计约5000万册,其中有图片扫描的约8万种,有文本数码化的只有约4万种,此外还有约1000万册古籍亟需修复。将古籍扫描成图片固然可以保存和保护古籍,但仅仅是图片版本的扫描并不能进行全文检索,不便于研究、阅读和传播,因此将图片转成文本,以文本的形式实现完全数码化才能起到最大的作用。中国一直在陆续进行中国古籍的修复、整理、保存与出版工作,其中就包括对中国古籍进行数码化,让古籍文本不依赖于纸质介质,更好地保存下来,但由于参与人数少,古籍数量众多,导致进展较为缓慢,仍然有很多古籍没有实现完全数码化。[1]
作为识典古籍的开发部门之一,北京大学数字人文研究中心认为虽然目前中国内外已有一些古籍阅读平台,但是在方便大众阅读、整理质量、阅读体验等方面仍有很大的提升空间,而将古籍数码化可以更好地保护与利用古籍,向大众传播古籍知识,所以便与字节跳动公益部门联合成立了北京大学-字节跳动开放实验室,以打造内容丰富、使用便捷、免费开放的高质量古籍数码化阅读平台。[2]
开发过程
2022年3月17日,北京大学数字人文研究中心与字节跳动公益部门联合成立了北京大学-字节跳动开放实验室,开发识典古籍,进行中国古籍的数码化。字节跳动方面的开发人员有不少本身就对古籍就有浓厚的兴趣,有个别产品经理研究生时期修读的专业还是古典文献。[3]
古籍的数码化分三个步骤,第一是使用电子扫描仪将古籍原本扫描成电子图片;第二是利用光学字符识别技术将图片版中的文字转化成文本,并在此基础上进行校对;第三是将文本进行整理,使其更加容易阅读。[1]
在第二步光学字符识别步骤中,由于古籍原本中使用了不少异体字、生僻字,一个字在古籍中可能有高达十几种写法,且没有标点符号进行断句,导致在识别上存在一定困难,降低了识别的准确性。对此,开发团队决定利用了人工智能技术对古籍进行自动断句和分词,不过这样做的前提是需要有足够的古文语料去训练人工智能的算法。但遗憾的是,虽然当前利用人工智能对中文进行断句分词的技术已经很成熟,包括字节跳动在内的不少大公司都有充足的数据去支撑分词模型的构建,但是这仅限于现代标准汉语,也就是白话文。至于古文也就是文言文的语料数据,包括字节跳动在内的所有平台几乎都非常欠缺。最终字节跳动只能利用少量的公开的古籍分词语料,利用半监督学习和预训练的技术去构建古籍分词模型。在人工智能技术的加持下,对于古籍的光学字符识别准确率可达96%至97%。[3]
在第三步文本整理中,必要的一个操作就是添加标点符号,方便现代人阅读。这项工作之前是由古文专家学者完成的,人力工作进展缓慢。而如今在第二步的光学字符识别中已经使用了人工智能进行断句、添加标点符号,这比起传统的人工操作速度更快,效率更高,但需要后续的人工校对。[3]
在基本完成开发后,识典古籍邀请了古籍研究学者、古籍爱好者和普通大众进行多轮内测,每次测试的人数在2000人左右。内测共收集到300多条问题反馈,其中有不少是关于用户体验的反馈,例如有测试者反馈古籍《诗经》的底本名为《毛诗》,名字的前后不一致导致了搜索结果的不准确。识典古籍开发者根据测试者的反馈,对平台进行了修复与改进。[3]
2022年10月11日,识典古籍作为测试版上线,上线之初涵盖390部经典中国古籍,主要来自《四部丛刊》,共计3000多万字,后期陆续进行其他古籍的收录。平台上的古籍的文本质量分为粗校和精校两种,粗校是指文本较为准确,但是标点符号与专有名词实体的识别都是通过机器自动完成的,还未经过人工校对;精校则是文本、标点和实体均经过人工校对。目前平台上的部分粗校文本正在精校过程中,已经精校的文本将替换粗校文本陆续上线。[2]
功能与特性
平台书库中的古籍沿袭传统的四部分类法,将古籍分为经部、史部、子部、集部,并另外设立道教部和佛教部两个分类,共计六个分类,并在这六个分类下设立二级分类,部分设有三级分类。书籍信息中注明了书名、卷数、作者、作者年代、版本等基本信息。书库中古籍的排列顺序大致按照编撰年代由古到今升序排列。[2]
平台的古籍文本阅读界面为当代流行的横排排版,用字有底本原字、中国大陆标准繁体字、简化字三种可供选择,其中标准繁体字和简化字是使用机器翻译对底本原字进行转化得到的。文本中的地名和人名等专有名词,使用了专名号进行标示。对于一些生僻词汇,鼠标停留在上方便会弹出释义悬浮窗口,释义来源为《汉语大词典》和字节跳动旗下的头条百科,对词汇进行文字选取也可以唤出汉语大词典的词条释义悬浮窗口。平台还提供原本影像的开关按钮,可以查看或隐藏古籍的原本图片扫描版。对于有注疏和译文的版本,也可以选择注疏和译文的显示与隐藏。[4]
平台的检索功能可以搜索书籍标题,也可以全文搜索,并可以进行作者、书籍、分类和朝代的筛选。平台提供了收藏夹功能,注册并登录帐号后可以使用。平台的阅读界面也针对智能手机、平板电脑等移动设备做了适配[2]。
评价
辽宁广播电视集团的王梓认为,在普通大众的传统认知中,古籍典藏于图书馆、档案馆和博物管中,平时难以接触到,其内容也晦涩难懂,但识典古籍的出现打破了传统文化与现代科技的次元壁,利用人工智能将古籍数码化和翻译,并通过抖音短视频等新媒体平台进行宣传,降低了观众阅读古籍的难度,让古籍更加生动有趣,内容更加亲民,有利于传承中华传统文化。[5]
参考资料
- ^ 1.0 1.1 1.2 高丹. 古籍数字化平台“识典古籍”推出:三年将上线万种儒释道经典. 澎湃新闻. 2022-10-12 [2023-12-09]. (原始内容存档于2023-12-10).
- ^ 2.0 2.1 2.2 2.3 识典古籍阅读与整理平台. 北京大学数字人文研究中心. [2023-12-09]. (原始内容存档于2023-12-10).
- ^ 3.0 3.1 3.2 3.3 天将降大任于是人还是斯人?“识典古籍”里有参考答案. 中国网. 2022-11-02 [2023-12-09]. (原始内容存档于2023-12-10).
- ^ 张贺. 数字化,激活古籍生命力. 人民日报. 2023-10-03 [2023-12-09]. (原始内容存档于2023-10-16).
- ^ 王梓. 构建全媒体时代中国叙事体系的文化新表达——以“古籍破圈”现象为例. 记者摇篮. 2023, (03): 54-56. ISSN 2096-3858.