BabelNet

多語語義網絡和百科詞典

BabelNet是一个多语词汇语义网络本体,由罗马萨皮恩扎大学(罗马大学)计算机科学系的计算语言学实验室所创建。[1][2] BabelNet是自动构建的,其将最大的多语Web百科全书维基百科链接到最常用的英语计算词典WordNet。这种链接整合,以自动映射的方式完成;对于资源匮乏的语言所存在的词汇空缺,借助于统计机器翻译来补充。其结果是一个“百科词典”,提供了多种语言的概念命名实体,并包含了它们之间的丰富的语义关系。通过与免费授权使用的OmegaWiki英语OmegaWiki、英语维基词典维基数据FrameNet英语FrameNetVerbNet英语VerbNet等语义资源建立链接,BabelNet还补充了其它一些词汇和定义。和WordNet类似,BabelNet将不同语言中的词语以同义词集的形式进行组织,称之为Babel synset。对于每一个Babel synset英语Synonym_ring,BabelNet提供简短的定义(称为注释),这些定义具有多种语言版本,主要来自于WordNet和维基百科。

BabelNet
当前版本BabelNet 3.7(August 2016)
操作系统
类型
许可协议Attribution-NonCommercial-ShareAlike 3.0 Unported
网站babelnet.org

BabelNet的数据统计

截至2016年8月,BabelNet(v3.7)已覆盖了271种语言,包栝全部的欧洲语言、大多数亚洲语言及拉丁语。BabelNet 3.7包含了大约1400万个同义词集和7.46亿个词义(不论其语言)。在每种语言中,每个Babel synset(词义)平均包含2个同义词。BabelNet的语义网络包含了丰富的词汇语义关系。这些语义关系有两个来源:一是,来自于WordNet的语义关系,如上下位关系、部分整体关系、反义同义关系等,总共大约36.4万条关系;二是,来自于维基百科的非特定的相关关系,总共大约3.8亿条关系。[1] BabelNet 3.7将大约1100万张图片与Babel synset建立了关联,并为这些资源提供了Lemon RDF编码[3],可通过SPARQL endpoint获取。BabelNet 3.7为267万个同义词集指定了领域标签。

应用

BabelNet可广泛应用在多语自然语言处理中。BabelNet中的词汇化知识可在以下任务中取得最佳效果:

 
Babelnet是一个多语语义网络,由WordNet和维基百科整合而成。

奖励荣誉

BabelNet是一个多语词汇语义网络和本体,因其在克服语言障碍和利用异构数据源方面做了巨大的开创性工作,BabelNet于2015年被授予META页面存档备份,存于互联网档案馆)奖。

BabelNet是最新的词汇知识资源库,具有巨大创新性,《时代周刊》曾专题报道BabelNet的研究工作[9],认为BabelNet将在21世纪发挥引领作用。

参照

参考文献

  1. ^ 1.0 1.1 R. Navigli and S. P Ponzetto. 2012. BabelNet: The Automatic Construction, Evaluation and Application of a Wide-Coverage Multilingual Semantic Network. Artificial Intelligence, 193, Elsevier, pp. 217-250.
  2. ^ R. Navigli, S. P. Ponzetto. BabelNet: Building a Very Large Multilingual Semantic Network页面存档备份,存于互联网档案馆). Proc. of the 48th Annual Meeting of the Association for Computational Linguistics (ACL 2010), Uppsala, Sweden, July 11–16, 2010, pp. 216–225.
  3. ^ M. Ehrmann, F. Cecconi, D. Vannella, J. McCrae, P. Cimiano, R. Navigli. Representing Multilingual Data as Linked Data: the Case of BabelNet 2.0页面存档备份,存于互联网档案馆). Proc. of the 9th Language Resources and Evaluation Conference (LREC 2014), Reykjavik, Iceland, 26–31 May 2014.
  4. ^ R. Navigli and S. Ponzetto. 2012. BabelRelate! A Joint Multilingual Approach to Computing Semantic Relatedness页面存档备份,存于互联网档案馆). Proc. of the 26th AAAI Conference on Artificial Intelligence (AAAI 2012), Toronto, Canada, pp. 108-114.
  5. ^ J. Camacho-Collados, M. T. Pilehvar and R. Navigli. NASARI: a Novel Approach to a Semantically-Aware Representation of Items页面存档备份,存于互联网档案馆). Proc. of the 2015 Conference of the North American Chapter of the Association for Computational Linguistics (NAACL 2015), Denver, Colorado (US), 31 May-5 June 2015, pp. 567-577.
  6. ^ R. Navigli and S. Ponzetto. Joining Forces Pays Off: Multilingual Joint Word Sense Disambiguation页面存档备份,存于互联网档案馆). Proc. of the 2012 Conference on Empirical Methods in Natural Language Processing (EMNLP 2012), Jeju, Korea, July 12–14, 2012, pp. 1399-1410.
  7. ^ A. Moro, A. Raganato, R. Navigli. Entity Linking meets Word Sense Disambiguation: a Unified Approach页面存档备份,存于互联网档案馆). Transactions of the Association for Computational Linguistics (TACL), 2, pp. 231-244, 2014.
  8. ^ D. Jurgens, R. Navigli. It's All Fun and Games until Someone Annotates: Video Games with a Purpose for Linguistic Annotation页面存档备份,存于互联网档案馆). Transactions of the Association for Computational Linguistics (TACL), 2, pp. 449-464, 2014.
  9. ^ Katy Steinmetz. Redefining the modern dictionary页面存档备份,存于互联网档案馆), TIME magazine, vol. 187, 23 maggio 2016, pp. 20-21.

外部链接