文档分类
文档分类是图书馆学, 信息学和计算机科学中的一个问题。其任务是将一个文档分配到一个或者多个类别中。它可以是通过人工分类完成的,也可以是通过计算机算法实现的。多数通过人工的文档分类问题一直属于图书馆学的领域,而通过算法实现的文档分类问题则多属于信息学和计算机科学的领域。这些问题之间是有相同的部分的,所以有一些对文档分类的跨学科研究。
需要被分类的文档有可能是纯文本,图片,音乐等等。每一种文档都有其独特分类问题。根据特殊的文档做研究,文档分类可以细分成文本分类,图片分类等等。
可以根据主題来进行文档分类,也可以根据它的属性(例如文档的类型,作者,出版的时间等)进行分类。下文只包含主题分类的问题。主要由两种方法来做根据主题的文档分类:基于内容的方法以及基于请求的方法。
“基于内容”与“基于请求”的分类方法
基于内容的分类方法是通过特殊主题上的不同权重来决定该文档被分到哪个类别中的。一般来说,在图书馆中,当一个文档被划分到某个类别时,这个文档中至少要有20%的内容是关于这个类的。[1]在自动分类的领域,这个标准可能是一些给定单词在文档中出现的频率。
面向请求的分类(或者索引) 是通过向用户获得请求后,根据用户的请求将文档进行分类。一个形象的比喻,好比分类器会问自己:“我应该通过哪种特征找到这些文档呢”,或者“通过哪些本质特征能够让我找出我身边相关的文档呢?”[2]
面向请求的分类主要的适用对象是一个特定的用户或群体。比方说,一个需要一定数据去研究女权主义的信息库与一个研究历史的信息库相比就是一个特定的用户。有一种更好的理解面向请求的分类,就是把它理解成为“基于策略的分类”:基于特殊群体的请求,通过一定的想法和策略进行分类,从而达到目的。在这种方式下,分类方式就不一定是100%基于用户研究的领域了,可以通过一些共性的策略,加以组合或修改,来实现用户的请求。只有从用户和应用中获得的经验使用了,面向请求的分类才可以被认为是一种基于用户的实现方法。
文档自动分类
文档自动分类的任务可以分为三类:监督式学习的文档分类,这需要人工反馈数据的一些外在机制。非监督式学习的文档分类(也被称作文档聚类),这类任务完全不依靠外在人工机制。和半监督式学习的文档分类,是前两类的结合,[3] 它其中有一部分的文档是由人工标注的,这有一些相关方面的具有许可证的软件。[4][5][6][7][8]
工具
自动的文档分类工具如下:
应用领域
分类工具被应用于如下:
参阅
延伸阅读
- Fabrizio Sebastiani. Machine learning in automated text categorization. ACM Computing Surveys, 34(1):1–47, 2002.
- Stefan Büttcher, Charles L. A. Clarke, and Gordon V. Cormack. Information Retrieval: Implementing and Evaluating Search Engines (页面存档备份,存于互联网档案馆). MIT Press, 2010.
参考资料
- ^ 美国国会图书馆 (2008). 主题标题手册. 华盛顿特区: 美国国会图书馆,政策和标准的划分。(Sheet H 180: “被分派的话题至少由20%的与标题有关的信息组成。”
- ^ Soergel, Dagobert (1985). Organizing information: Principles of data base and retrieval systems. Orlando, FL: Academic Press.
- ^ Rossi, R. G., Lopes, A. d. A., and Rezende, S. O. (2016). Optimization and label propagation in bipartite heterogeneous networks to improve transductive classification of texts. 信息处理和管理, 52(2):217–257.
- ^ An Interactive Automatic Document Classification Prototype (PDF). [2018-03-18]. (原始内容 (PDF)存档于2017-11-15).
- ^ Interactive Automatic Document Classification Prototype 互联网档案馆的存檔,存档日期April 24, 2015,.
- ^ Document Classification - Artsyl
- ^ ABBYY FineReader Engine 11 for Windows. [2018-03-18]. (原始内容存档于2015-04-23).
- ^ Classifier - Antidot. [2018-03-18]. (原始内容存档于2020-11-25).
- ^ Stephan Busemann, Sven Schmeier and Roman G. Arens (2000). Message classification in the call center. In Sergei Nirenburg, Douglas Appelt, Fabio Ciravegna and Robert Dale, eds., Proc. 6th Applied Natural Language Processing Conf. (ANLP'00), pp. 158-165, ACL.
- ^ Santini, Marina; Rosso, Mark, Testing a Genre-Enabled Application: A Preliminary Assessment (PDF), BCS IRSG Symposium: Future Directions in Information Access, London, UK: 54–63, 2008 [2018-03-18], (原始内容 (PDF)存档于2019-11-15)
- ^ X. Dai, M. Bikdash and B. Meyer, "通过社交媒体监管大众的健康问题:通过词嵌入的方法分析推特从而分类," SoutheastCon 2017, Charlotte, NC, 2017, pp. 1-7. doi: 10.1109/SECON.2017.7925400, URL: http://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=7925400&isnumber=7925258
- ^ Krallinger, M; Leitner, F; Rodriguez-Penagos, C; Valencia, A. Overview of the protein-protein interaction annotation extraction task of Bio Creative II. Genome Biology. 2008,. 9 Suppl 2: S4. PMC 2559988 . PMID 18834495. doi:10.1186/gb-2008-9-s2-s4.
外部链接
- Introduction to document classification
- Bibliography on Automated Text Categorization
- Bibliography on Query Classification (页面存档备份,存于互联网档案馆)
- Text Classification (页面存档备份,存于互联网档案馆) analysis page
- Learning to Classify Text - Chap. 6 of the book Natural Language Processing with Python (页面存档备份,存于互联网档案馆) (available online)
- TechTC - Technion Repository of Text Categorization Datasets
- David D. Lewis's Datasets (页面存档备份,存于互联网档案馆)
- BioCreative III ACT (article classification task) dataset