文档分类

文档分类是图书馆学，信息学和计算机科学中的一个问题。其任务是将一个文档分配到一个或者多个类别中。它可以是通过人工分类完成的，也可以是通过计算机算法实现的。多数通过人工的文档分类问题一直属于图书馆学的领域，而通过算法实现的文档分类问题则多属于信息学和计算机科学的领域。这些问题之间是有相同的部分的，所以有一些对文档分类的跨学科研究。

需要被分类的文档有可能是纯文本，图片，音乐等等。每一种文档都有其独特分类问题。根据特殊的文档做研究，文档分类可以细分成文本分类，图片分类等等。

可以根据主题（英语：Subject (documents)）来进行文档分类，也可以根据它的属性（例如文档的类型，作者，出版的时间等）进行分类。下文只包含主题分类的问题。主要由两种方法来做根据主题的文档分类：基于内容的方法以及基于请求的方法。

“基于内容”与“基于请求”的分类方法

基于内容的分类方法是通过特殊主题上的不同权重来决定该文档被分到哪个类别中的。一般来说，在图书馆中，当一个文档被划分到某个类别时，这个文档中至少要有20%的内容是关于这个类的。^[1]在自动分类的领域，这个标准可能是一些给定单词在文档中出现的频率。

面向请求的分类（或者索引) 是通过向用户获得请求后，根据用户的请求将文档进行分类。一个形象的比喻，好比分类器会问自己：“我应该通过哪种特征找到这些文档呢”，或者“通过哪些本质特征能够让我找出我身边相关的文档呢？”^[2]

面向请求的分类主要的适用对象是一个特定的用户或群体。比方说，一个需要一定数据去研究女权主义的信息库与一个研究历史的信息库相比就是一个特定的用户。有一种更好的理解面向请求的分类，就是把它理解成为“基于策略的分类”：基于特殊群体的请求，通过一定的想法和策略进行分类，从而达到目的。在这种方式下，分类方式就不一定是100%基于用户研究的领域了，可以通过一些共性的策略，加以组合或修改，来实现用户的请求。只有从用户和应用中获得的经验使用了，面向请求的分类才可以被认为是一种基于用户的实现方法。

文档自动分类

文档自动分类的任务可以分为三类：监督式学习的文档分类，这需要人工反馈数据的一些外在机制。非监督式学习的文档分类（也被称作文档聚类），这类任务完全不依靠外在人工机制。和半监督式学习的文档分类，是前两类的结合，^[3] 它其中有一部分的文档是由人工标注的，这有一些相关方面的具有许可证的软件。^[4]^[5]^[6]^[7]^[8]

工具

自动的文档分类工具如下：

最大期望算法 (EM)
朴素贝叶斯分类器
tf–idf
瞬时训练神经网络（英语：Instantaneously trained neural networks）
潜在语义学
支持向量机 (SVM)
人工神经网络
最近邻居法
决策树比如ID3或C4.5
概念挖掘（英语：Concept Mining）
基于粗集合的分类器
基于软集合（英语：Soft set）的分类器
多示例学习
自然语言处理的方法

应用领域

分类工具被应用于如下：

邮件过滤（英语：spam filtering），一种能够从合法邮件中检查出垃圾电子邮件的方法。
电子邮件按路线送达, 根据本话题内容中提到的方法将电子邮件送至一个特殊群体的一般地址。^[9]
语言辨识（英语：language identification）, 自动辨识一个文档中的语言。
流派分类, 自动辨识一个纯文本的流派。^[10]
可读性评价, 自动评价一个纯文本的可读性程度，或者找到可读性适合于某一特定群体的文本，这属于文本简化（英语：text simplification）的体系。
情感分析，辨析出说话人或者作者在关于某一个主题或者全文的情感或者态度。
健康相关的分析，用社交媒体来监管大众的健康问题。^[11]

^[12]

参阅

分类 (认识论)（英语：Categorization）
分类 (消歧义)（英语：Classification）
复合项分析（英语：Compound term processing）
基于概念的图像索引（英语：Concept-based image indexing）
基于内容的图像检索
文档
监督式学习, 非监督式学习
文档检索（英语：Document retrieval）
文档聚类（英语：Document clustering）
信息检索
信息组织（英语：Knowledge organization）
信息组织体系（英语：Knowledge Organization System）
图书分类法
机器学习
自然语言识别（英语：Native Language Identification）
字符串指标（英语：String metrics）
主题 (文档)（英语：Subject (documents)）
主题索引（英语：Subject indexing）
文本挖掘, 网页挖掘（英语：web mining）, 概念挖掘（英语：concept mining）

延伸阅读

Fabrizio Sebastiani. Machine learning in automated text categorization. ACM Computing Surveys, 34(1):1–47, 2002.
Stefan Büttcher, Charles L. A. Clarke, and Gordon V. Cormack. Information Retrieval: Implementing and Evaluating Search Engines （页面存档备份，存于互联网档案馆）. MIT Press, 2010.

参考资料

^ 美国国会图书馆 (2008). 主题标题手册. 华盛顿特区: 美国国会图书馆，政策和标准的划分。（Sheet H 180: “被分派的话题至少由20%的与标题有关的信息组成。”
^ Soergel, Dagobert (1985). Organizing information: Principles of data base and retrieval systems. Orlando, FL: Academic Press.
^ Rossi, R. G., Lopes, A. d. A., and Rezende, S. O. (2016). Optimization and label propagation in bipartite heterogeneous networks to improve transductive classification of texts. 信息处理和管理, 52(2):217–257.
^ An Interactive Automatic Document Classification Prototype (PDF). [2018-03-18]. （原始内容 (PDF)存档于2017-11-15）.
^ Interactive Automatic Document Classification Prototype 互联网档案馆的存档，存档日期April 24, 2015，.
^ Document Classification - Artsyl
^ ABBYY FineReader Engine 11 for Windows. [2018-03-18]. （原始内容存档于2015-04-23）.
^ Classifier - Antidot. [2018-03-18]. （原始内容存档于2020-11-25）.
^ Stephan Busemann, Sven Schmeier and Roman G. Arens (2000). Message classification in the call center. In Sergei Nirenburg, Douglas Appelt, Fabio Ciravegna and Robert Dale, eds., Proc. 6th Applied Natural Language Processing Conf. (ANLP'00), pp. 158-165, ACL.
^ Santini, Marina; Rosso, Mark, Testing a Genre-Enabled Application: A Preliminary Assessment (PDF), BCS IRSG Symposium: Future Directions in Information Access, London, UK: 54–63, 2008 [2018-03-18], （原始内容 (PDF)存档于2019-11-15）
^ X. Dai, M. Bikdash and B. Meyer, "通过社交媒体监管大众的健康问题：通过词嵌入的方法分析推特从而分类，" SoutheastCon 2017, Charlotte, NC, 2017, pp. 1-7. doi: 10.1109/SECON.2017.7925400, URL: http://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=7925400&isnumber=7925258
^ Krallinger, M; Leitner, F; Rodriguez-Penagos, C; Valencia, A. Overview of the protein-protein interaction annotation extraction task of Bio Creative II. Genome Biology. 2008,. 9 Suppl 2: S4. PMC 2559988  . PMID 18834495. doi:10.1186/gb-2008-9-s2-s4.

外部链接

Introduction to document classification
Bibliography on Automated Text Categorization
Bibliography on Query Classification （页面存档备份，存于互联网档案馆）
Text Classification （页面存档备份，存于互联网档案馆） analysis page
Learning to Classify Text - Chap. 6 of the book Natural Language Processing with Python （页面存档备份，存于互联网档案馆） (available online)
TechTC - Technion Repository of Text Categorization Datasets
David D. Lewis's Datasets （页面存档备份，存于互联网档案馆）
BioCreative III ACT (article classification task) dataset

[1] 美国国会图书馆 (2008). 主题标题手册. 华盛顿特区: 美国国会图书馆，政策和标准的划分。（Sheet H 180: “被分派的话题至少由20%的与标题有关的信息组成。”

[2] Soergel, Dagobert (1985). Organizing information: Principles of data base and retrieval systems. Orlando, FL: Academic Press.

[3] Rossi, R. G., Lopes, A. d. A., and Rezende, S. O. (2016). Optimization and label propagation in bipartite heterogeneous networks to improve transductive classification of texts. 信息处理和管理, 52(2):217–257.

[4] An Interactive Automatic Document Classification Prototype (PDF). [2018-03-18]. （原始内容 (PDF)存档于2017-11-15）.

[5] Interactive Automatic Document Classification Prototype 互联网档案馆的存档，存档日期April 24, 2015，.

[6] Document Classification - Artsyl

[7] ABBYY FineReader Engine 11 for Windows. [2018-03-18]. （原始内容存档于2015-04-23）.

[8] Classifier - Antidot. [2018-03-18]. （原始内容存档于2020-11-25）.

[9] Stephan Busemann, Sven Schmeier and Roman G. Arens (2000). Message classification in the call center. In Sergei Nirenburg, Douglas Appelt, Fabio Ciravegna and Robert Dale, eds., Proc. 6th Applied Natural Language Processing Conf. (ANLP'00), pp. 158-165, ACL.

[10] Santini, Marina; Rosso, Mark, Testing a Genre-Enabled Application: A Preliminary Assessment (PDF), BCS IRSG Symposium: Future Directions in Information Access, London, UK: 54–63, 2008 [2018-03-18], （原始内容 (PDF)存档于2019-11-15）

[11] X. Dai, M. Bikdash and B. Meyer, "通过社交媒体监管大众的健康问题：通过词嵌入的方法分析推特从而分类，" SoutheastCon 2017, Charlotte, NC, 2017, pp. 1-7. doi: 10.1109/SECON.2017.7925400, URL: http://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=7925400&isnumber=7925258

[:0-12] Krallinger, M; Leitner, F; Rodriguez-Penagos, C; Valencia, A. Overview of the protein-protein interaction annotation extraction task of Bio Creative II. Genome Biology. 2008,. 9 Suppl 2: S4. PMC 2559988  . PMID 18834495. doi:10.1186/gb-2008-9-s2-s4.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]